全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「编码」清除

5月31日周日

12:24IT之家（RSS）66AI 编程工具普及背后：效率提升的假象与代码维护的隐患

12:13宝玉51呼吁编程工具转型通用办公Agent

10:17Chubby♨️59Opus 4.8 在 DeepSWE 上相比 Opus 4.7 有扎实提升，并降低每任务平均成本

08:24IT之家（RSS）65微软 GitHub Copilot 改计费模式后成本暴涨，引开发者吐槽

08:00HuggingFace Daily Papers（社区热门论文）51FVSpec：真实世界基于属性测试的Lean挑战

08:00HuggingFace Daily Papers（社区热门论文）55BenchEvolver：以解决方案为中心的进化式前沿任务合成

08:00HuggingFace Daily Papers（社区热门论文）61LongAttnComp：面向长上下文推理的跨模型族上下文压缩

07:45ginobefun48#BestBlogs 早报 05-31

07:34Berryxia.AI50CC Switch现已支持在Codex中使用

03:34AYi50AI使用的两种范式与随时思考的连接

00:46TechCrunch：AI（RSS）58"开玩笑吧"：GitHub Copilot 新的基于 token 的计费模式引发开发者不满

5月30日周六

22:34AYi72Codex平台模型选择指南

18:49Peter Steinberger 🦞66用Codex审查代码时的心理战术

18:44The Decoder：AI News（RSS）65OpenAI的Codex现已可在你的Windows PC上自主运行，独立寻找漏洞并测试应用

18:34Berryxia.AI70Grok-build-0.1模型现已通过xAI API公开测试

17:44The Decoder：AI News（RSS）56Salesforce声称AI代理将231天的迁移缩短至13天，且事故更少

17:19凡人小北38CV工程师已死，Accept工程师当道

15:21IT之家（RSS）46Linux 应用商店 Flathub 将禁止新提交应用使用 AI 生成代码，维护者直言"我受够了"

14:38Elon Musk40xAI 推进其智能体编码工具 Grok Build，快速迭代至 v0.2.11

13:41向阳乔木57AI自动化解决Chrome CDP调试弹窗确认问题

12:49Greg Brockman22用 Codex 开发体验极佳

11:40Tibo38Codex用户增长数据令人欣喜

11:10meng shao59Salesforce 工程如何从 Copilot 走向 Agentic？

11:10Hacker News 热门（buzzing.cc 中文翻译）64MCP 死了？

11:10宝玉47为啥 Codex App 上一个版本要隐藏上下文用量？！现在新版本加回来了，但是得主动去设置打开！

10:40宝玉57Codex 实现会话自主管理功能

10:10宝玉71数据库接入AI Agent的Token消耗优化方案

10:10宝玉44GitHub Copilot各模型Token消耗倍率对比

09:39宝玉71Codex 新增 Token 用量查看功能

09:21IT之家（RSS）74你的手机变遥控器，OpenAI 扩展 Codex 远程控制支持 Win10/Win11

08:10Hacker News 热门（buzzing.cc 中文翻译）58人工智能时代的专长

07:50🚨 AI News | TestingCatalog54Codex设置新增个人资料页及Token消耗统计

07:50🚨 AI News | TestingCatalog78xAI发布grok-build-0.1模型公测版

07:39Tibo62Codex实现自我管理，可自主创建与组织线程

06:49Greg Brockman75精选Codex可自主管理对话线程与并行任务

06:16TechCrunch：AI（RSS）60程序员拒绝在没有AI的情况下工作--这可能会反噬他们

05:55OpenAI Developers54Codex智能体新增像素化身份标识

05:48MarkTechPost（RSS）59阶跃星辰发布 Step 3.7 Flash：一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

04:55OpenAI Developers54Matias与Romain谈Codex工作流应用

03:39宝玉33Codex普通模式为何不支持ask_user_question工具

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月31日

12:24

IT之家（RSS）

66

AI 编程工具普及背后：效率提升的假象与代码维护的隐患

现象/趋势编码部署/工程

12:13

宝玉@dotey

51

呼吁编程工具转型通用办公Agent

推文呼吁 Kimi Code、DeepSeek Harness 等 AI 编程工具应尽早提供图形界面（GUI），并拓展对通用办公任务的支持，以进化为通用 Agent。作者认为，仅在终端界面（TUI）和单一编程能力上竞争没有前途，尽管编程是核心基础。同时，推文引用并关注了另一个新选手 Grok Build，指出其更新迅速、潜力较大。

踏雪寻仙: @dotey 还有两个新选手值得关注:Kimi Code、Grok Build。更新速度都很快,潜力不小

智能体 DeepSeek 大佬观点编码

10:17

Chubby♨️@kimmonismus

59

Anthropic 的 Opus 4.8 在 DeepSWE 基准测试中表现较 Opus 4.7 有显著提升，同时降低了每项任务的平均成本。具体而言，在默认高思考努力（xhigh）设置下，其得分比 Opus 4.7 xhigh 高出 6%。然而，GPT-5.5 xhigh 在该项测试中仍以明显优势领先，且成本更低。推文作者对 OpenAI 近期的模型发布印象深刻，并期待 GPT-5.6，同时也开始认可 Opus 4.8，认为当前正处于两家前沿实验室持续推出真正令人印象深刻模型的时刻。

Datacurve: Opus 4.8 is now on DeepSWE. On the default high thinking effort, it scores 6% higher than Opus 4.7 xhigh, while also low...

Anthropic OpenAI 编码评测/基准

08:24

IT之家（RSS）

65

微软 GitHub Copilot 改计费模式后成本暴涨，引开发者吐槽

GitHub Microsoft 编码行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

51

FVSpec：真实世界基于属性测试的Lean挑战

从真实世界Python仓库抓取11039个基于属性测试（PBT），自动将其中的2772个翻译为9415个带sorry占位符的Lean 4规范（平均每个PBT约3个形式化）。翻译采用三智能体LLM流水线，需建模Python语义、推断命令式PBT中的逻辑属性并处理依赖类型编程。所有抓取代码、智能体代码及数据均已开源，为AI辅助真实软件形式化验证提供基准。

编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

BenchEvolver：以解决方案为中心的进化式前沿任务合成

前沿大语言模型在LiveCodeBench上已饱和，易分题Pass@1超99%，平均超90%。新提出的BenchEvolver框架以解决方案为中心，通过结构化变换自动进化已有编码问题的参考解，再从进化后解推导题目与测试用例，从而可扩展构造更高质量、多样、困难且结果可验证的任务。应用于LiveCodeBench和SciCode后，进化任务难度显著提升。整理出的LiveCodeBench-Plus含91道题，前沿模型Pass@1仅27.5%–62.6%，恢复了强编码模型间的清晰区分。进化任务对生成模型自身也有挑战性，可用于自我提升。基于进化任务的强化学习在gpt-oss-20b上使LCB v6 Hard和LCB-Pro Easy的Pass@1分别提升+8.7和+8.3，超出仅用原始任务训练的增益70.7%和34.8%。

arXiv 数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

LongAttnComp：面向长上下文推理的跨模型族上下文压缩

LongAttnComp 是一种针对长上下文适配的方法，它通过微调一个轻量级跨注意力评分层，并引入了 token 级分块、token 预算 top-p 算法、位置重排和格式无关查询解析器。该方法采用两阶段微调：第一阶段基于 NIAH 风格数据构建通用检索基础，第二阶段通过多跳和推理数据进行扩展。实验表明，在 InfiniteBench Code-Debug 上，LongAttnComp 能够匹配或超越全上下文精度，并显著优于无训练基线。在 LongBench v2 上，两阶段配方在多文档推理任务上有效缩小了性能差距，同时保持了代码调试性能，并可跨三个模型族的四个目标模型进行转移。

arXiv 推理编码论文/研究

07:45

ginobefun@hongming731

48

#BestBlogs 早报 05-31

今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效，指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。

OpenAI 检索增强现象/趋势编码

07:34

Berryxia.AI@berryxia

50

卧槽，牛逼！ CC Switch 已经支持在Codex 中使用，这下方便很多了！赶紧去试试~

Jason Young: http://x.com/i/article/2060576148472676352

产品更新编码

03:34

AYi@AYi_AInotes

50

推文探讨了使用AI的两种范式：一是"agent型"（如Claude Code、Codex），自主执行；二是"实习生型"（如Cursor），需人协作判断。作者认为后者才是真正的"以术入道"过程，能磨练个人判断力。为解决Cursor等工具需人在场的瓶颈，作者推荐了网易"UU远程"，其支持手机远程连接Mac，提供4K 144帧流畅体验及原生终端。核心观点是：AI发展的关键不在于更强大的模型，而在于建立一种随时能与AI共同思考的连接方式，最终助人成为更优秀的提问者。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

智能体大佬观点编码

00:46

TechCrunch：AI（RSS）

58

"开玩笑吧"：GitHub Copilot 新的基于 token 的计费模式引发开发者不满

微软旗下 GitHub Copilot 的黄金时代似乎正在终结。其新推出的计费模式改为按 token 计量，这一变化引发了开发者的广泛担忧与不满。

编码行业动态

5月30日

22:34

AYi@AYi_AInotes

72

Codex平台模型选择指南

本文介绍了Codex平台的四个模型及其选择策略。其中，gpt-5.4-mini（输入$0.75、输出$4.50/百万tokens）是性价比首选，适合日常编码与内容整理；gpt-5.5（输入$5.00、输出$30.00/百万tokens）为旗舰，用于复杂推理与编码；gpt-5.4-nano专攻简单批量任务。核心建议是：大多数任务优先使用gpt-5.4-mini，仅在遇到复杂需求时升级至gpt-5.5，并用gpt-5.4-nano处理末端轻量工作，以此构建成本最优的流水线。

OpenAI 教程/实践编码

18:49

Peter Steinberger 🦞@steipete

66

我一直用Codex做这个。让它审查代码找bug，它会说一切正常；告诉它有bug，它就会反复循环，然后找出问题。

Lea Verou, PhD: 💡Recent insight: gaslighting @claudeai seems to improve code quality >90% of the time. "You overengineered this, there ...

Anthropic OpenAI 教程/实践编码

18:44

The Decoder：AI News（RSS）

65

OpenAI的Codex现已可在你的Windows PC上自主运行，独立寻找漏洞并测试应用

OpenAI的Codex应用现已在Windows 11上支持“Computer Use”功能。该功能允许AI自主控制计算机程序，独立进行应用测试和漏洞查找。当电脑无人值守时，用户可通过ChatGPT移动应用远程启动并监控这些任务。

智能体 OpenAI 产品更新编码

18:34

Berryxia.AI@berryxia

70

Grok-build-0.1 现已支持使用X AI的 API了。看了一下价格，输入：百万Token花费 1美金左右。输出：百万Token花费 2美金左右。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

xAI 模型发布编码

17:44

The Decoder：AI News（RSS）

56

Salesforce声称AI代理将231天的迁移缩短至13天，且事故更少

Salesforce宣布已将整个开发组织迁移至Anthropic的Claude Code，并取消了token限制。其2026年4月报告显示，每位开发者的pull request数量增加了79%，生产事故减少了5%。这些数字未经独立验证。此次迁移突显了编码领域对智能体化转型的巨大分歧：这究竟是真正的革命，还是前所未有的技术债务积累？

智能体 Anthropic 现象/趋势编码

17:19

凡人小北@frxiaobei

38

现在好像没有 cv 工程师了，都是 accept 工程师或者 yes 工程师了。

现象/趋势编码

15:21

IT之家（RSS）

46

Linux 应用商店 Flathub 将禁止新提交应用使用 AI 生成代码，维护者直言"我受够了"

开源生态编码行业动态

14:38

Elon Musk@elonmusk

40

xAI 持续更新其智能体编码工具 Grok Build，最新版本为 v0.2.11。本次更新重点包括：集成了 X 搜索和更快的网页搜索；新增了 `/export`、`/login` 等多个命令。平台支持扩展至 Windows ARM64 和 macOS x86_64。在智能体方面，子智能体现在可以共享终端后端与调度器，并增加了主动系统提醒。用户体验上，终端视频播放提升至 30fps，优化了链接交互与计划模式。稳定性方面，默认重试预算增加，并修复了多项渲染问题。该工具正从早期 CLI 快速发展为严肃的智能体编码环境。

X Freeze: xAI has been shipping Grok Build updates non-stop If you have not been keeping track, here is what xAI has rolled out up...

智能体 xAI 产品更新编码

13:41

向阳乔木@vista8

57

AI自动化解决Chrome CDP调试弹窗确认问题

Chrome的CDP调试在使用Codex或Claude Code时，每次调用都弹出确认对话框，尤其在远程服务器或Mac Mini上运行技能时影响自动化执行。由于强制确认且无配置文件调整，用户让Codex编写脚本自动点击确认，虽可能不安全，但个人电脑上可接受。这启发将电脑重复操作脚本化，避免使用Computer Use等方案，因其速度慢且成本高。

教程/实践编码

12:49

Greg Brockman@gdb

22

用 Codex 开发的感觉太棒了

Carol Monroe: Nobody talks about how pleasant building with Codex feels

OpenAI 大佬观点编码

11:40

Tibo@thsottiaux

38

我今天在Codex仪表盘上看到了一个数字，它让我很开心。关于这个数字的更多消息即将公布。👀 感谢所有持续采用Codex的用户。我们仍处于早期阶段。非常早期。

OpenAI 编码行业动态

11:10

meng shao@shao__meng

59

Salesforce 工程如何从 Copilot 走向 Agentic？

Salesforce 分享了工程团队从“Copilot 辅助”演进到“Agentic 工程”的路径，即让智能体承担软件开发生命周期的执行层，工程师专注于目标、规则与验收。关键变革包括：全组织采用 Claude Code 并取消 token 限额、推行“规则即代码”（Markdown 规则+参考实现）、以及自治与并行。一个原估 231 人天的 API 迁移案例，仅用 13 天完成。变革成果体现在：PR 数量增加 79%，有效产出增加 151%，事故减少 5%。真正的信号是下游流程也被智能体接住，避免了“代码洪水”。工程师的核心能力转变为设计智能体工作流与沉淀规则库等复利资产。

Boris Cherny: Salesforce published a detailed writeup on going agentic with Claude Code. A couple things jumped out. A migration they'...

智能体 Anthropic 现象/趋势编码

11:10

Hacker News 热门（buzzing.cc 中文翻译）

64

Hacker News上一篇题为“MCP 死了？”的文章引发讨论，获得了103分。文章来自quandri.io，发布于2026年5月29日，但未提供关于MCP（模型上下文协议）现状的具体论述或结论。

MCP/工具现象/趋势编码

11:10

宝玉@dotey

47

为啥 Codex App 上一个版本要隐藏上下文用量？！现在新版本加回来了，但是得主动去设置打开！

产品更新编码

10:40

宝玉@dotey

57

Codex 现在可以自己管理自己的会话了。创建会话、搜索会话、整理归档、置顶重要的、还能为并行任务拉起独立的 worktree，全都可以通过对话指令完成。 Codex 开始操作自己的界面了。

Guinness Chen: If you ever get tired of managing your Codex threads, just let Codex manage itself! Codex can now create threads, search...

智能体 OpenAI 产品更新编码

10:10

宝玉@dotey

71

数据库接入AI Agent的Token消耗优化方案

指出将工作流写入Memory方案的根本问题在于Agent需每次重新理解意图，导致token消耗大且不稳定。最佳实践是采用“Agent技能+脚本”架构：LLM仅负责将自然语言转译为SQL，所有确定性步骤由脚本执行。此方案可大幅降低token消耗。

智能体教程/实践编码

10:10

宝玉@dotey

44

冷知识：GitHub Copilot 里面的 Gemini 3.5 Flash Token 消耗按 14 倍算，与之相对的： - Claude Sonnet 4.6 （1x） - Claude Opus 4.8 （15x） - Gemini 3.1 Pro （1x） - GPT-5.5 （7.5x）

GitHub 产品更新编码

09:39

宝玉@dotey

71

最新版 Codex 可以看到 Token 用量

jason: 10h 45m was codex picking the 5.5 party guests codex > settings > profile

OpenAI 产品更新编码

09:21

IT之家（RSS）

74

你的手机变遥控器，OpenAI 扩展 Codex 远程控制支持 Win10/Win11

MCP/工具 OpenAI 产品更新编码

关联讨论 3 条X：OpenAI Developers (@OpenAIDevs)X：OpenAI (@OpenAI)X：Berry Xia (@berryxia)

08:10

Hacker News 热门（buzzing.cc 中文翻译）

58

人工智能时代的专长

在人工智能时代，专业能力面临重新定义。AI改变了专业知识的实践方式，但系统化的知识、经验积累与实践智慧仍然是专业能力的核心。真正的专长在于提出正确问题、进行创造性整合与做出关键判断，而AI在这些方面目前仍是辅助工具。专业价值正从单纯的信息处理，转向对复杂情境的解读与引导。

现象/趋势编码

07:50

🚨 AI News | TestingCatalog@testingcatalog

54

Codex在设置中新增了个人资料标签页，包含详细的token消耗统计。 Tokenflexing 👌

Andrew Ambrosino: tokens

OpenAI 产品更新编码

07:50

🚨 AI News | TestingCatalog@testingcatalog

78

xAI在API控制台公开发布了grok-build-0.1模型，该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1，输出价格为每百万token $2。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

智能体 xAI 模型发布编码

关联讨论 4 条X：xAI (@xai)X：Elon Musk (@elonmusk, xAI)X：阿易 AI Notes (@AYi_AInotes)xAI：News（网页）

07:39

Tibo@thsottiaux

62

没人比Codex更了解它自己

Guinness Chen: If you ever get tired of managing your Codex threads, just let Codex manage itself! Codex can now create threads, search...

智能体 OpenAI 产品更新编码

06:49

Greg Brockman@gdb

精选75

Codex用于管理Codex界面：【引用 @guinnesschen】：如果你厌倦了管理Codex对话线程，就让Codex自己管理自己吧！Codex现在可以创建对话线程、搜索它们、整理它们、固定重要的线程，并为并行任务启动工作树。

Guinness Chen: If you ever get tired of managing your Codex threads, just let Codex manage itself! Codex can now create threads, search...

OpenAI 产品更新编码

推荐理由：Codex 能自己管理线程、搜索、组织了，长期在终端里干活的开发者会明显减少上下文切换，这是把 AI 助手往主动管理推了一步。

06:16

TechCrunch：AI（RSS）

60

程序员拒绝在没有AI的情况下工作--这可能会反噬他们

研究人员警告，虽然AI正在帮助程序员更快地编写代码，但其产出的代码质量未必更高。这种依赖可能在未来给程序员自身带来问题。

现象/趋势编码

05:55

OpenAI Developers@OpenAIDevs

54

为使用 Codex 的开发者带来两项体验优化： Codex 后台智能体现在拥有稳定的像素化身份标识。当同一个智能体出现在不同标签页、提及、对话记录和线程面板中时，现在更容易一眼识别。

OpenAI 产品更新编码

05:48

MarkTechPost（RSS）

59

阶跃星辰发布 Step 3.7 Flash：一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

阶跃星辰发布 Step 3.7 Flash，这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力，支持 256k 上下文窗口，并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。

多模态模型发布编码

04:55

OpenAI Developers@OpenAIDevs

54

Builders Unscripted with @0xmts Matias与@romainhuet探讨了将Codex应用于工作和副项目工作流。 00：58 Codex在Alchemy的应用 01：51 代码审查捕获错误 08：04 使用Codex进行副项目 18：51 Codex App Server项目 24：01 计算机使用、GPT-5.5、SnapCat

智能体 OpenAI 教程/实践编码

03:39

宝玉@dotey

33

我就不理解为什么 Codex 在普通模式下一直不支持 ask__user_question tool，有时候回复 Agent 的问题要手动去写就很烦！

jason: did you wish codex ask__user_question tool was available outside of plan mode

智能体 OpenAI 大佬观点编码

1…31 323334 35…50