AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2087 条
全部一手资讯X论文
标签「编码」清除
宝玉@dotey · 5月30日71

最新版 Codex 可以看到 Token 用量

🚨 AI News | TestingCatalog@testingcatalog · 5月30日54

Codex got a new Profile tab in settings with detailed token consumption stats. Tokenflexing 👌

译Codex在设置中新增了个人资料标签页,包含详细的token消耗统计。 Tokenflexing 👌

🚨 AI News | TestingCatalog@testingcatalog · 5月30日78

xAI released grok-build-0.1, the model powering Grok Build CLI, on the API console in public beta. > $1/m input and > $2/m output

译xAI在API控制台公开发布了grok-build-0.1模型,该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1,输出价格为每百万token $2。

Tibo@thsottiaux · 5月30日62

Nobody knows Codex better than itself

译没人比Codex更了解它自己

Greg Brockman@gdb · 5月30日75

codex for managing the codex UI:

译Codex用于管理Codex界面: [引用 @guinnesschen]:如果你厌倦了管理Codex对话线程,就让Codex自己管理自己吧!Codex现在可以创建对话线程、搜索它们、整理它们、固定重要的线程,并为并行任务启动工作树。

OpenAI Developers@OpenAIDevs · 5月30日54

2 quality-of-life improvements for developers working with Codex today: Codex background agents now have stable pixel identicons. When the same agent shows up across tabs, mentions, transcripts, and the thread panel, it’s easier to recognize at a glance.

译为使用 Codex 的开发者带来两项体验优化: Codex 后台智能体现在拥有稳定的像素化身份标识。 当同一个智能体出现在不同标签页、提及、对话记录和线程面板中时,现在更容易一眼识别。

OpenAI Developers@OpenAIDevs · 5月30日54

Builders Unscripted with @0xmts Matias talked to @romainhuet about bringing Codex to work and into side-project workflows. 00:58 Codex at Alchemy 01:51 Code review catches bugs 08:04 Side projects with Codex 18:51 Codex App Server projects 24:01 Computer use, GPT-5.5, SnapCat

译Builders Unscripted with @0xmts Matias与@romainhuet探讨了将Codex应用于工作和副项目工作流。 00:58 Codex在Alchemy的应用 01:51 代码审查捕获错误 08:04 使用Codex进行副项目 18:51 Codex App Server项目 24:01 计算机使用、GPT-5.5、SnapCat

宝玉@dotey · 5月30日33

我就不理解为什么 Codex 在普通模式下一直不支持 ask__user_question tool,有时候回复 Agent 的问题要手动去写就很烦!

宝玉@dotey · 5月30日66

对于 Claude Design 和实际代码的版本同步问题,我目前是这么处理的: 首先要有一个唯一源,就是把 Claude Design 的结果当做设计唯一的源,以它为准 然后在更新design的时候会让它写一个changelog,让 Claude Code 去根据Changelog 同步 尽可能先改 Claude Design 的设计再改代码。有时候临时在代码中修改了,时候去 Claude Design 那边同步一下。 如果有更好的办法也欢迎分享

译针对后续UI改动可能导致Claude Design与实际代码不一致的问题,分享的实践方法是:始终将Claude Design作为唯一设计源,并在更新时生成changelog供Claude Code同步。遵循先修改设计再改代码的原则,若临时修改了代码,事后也应同步回Claude Design。

OpenCode@opencode · 5月30日59

trillions of tokens per day in OpenCode Go which model do you think is the pink one?

译OpenCode Go每天处理万亿token 你觉得粉色的是哪个模型?

OpenAI Developers@OpenAIDevs · 5月30日72

Codex now supports more of the Windows developer loop. With Computer use on Windows, Codex can test apps, debug flows, and review work where your project context lives. Codex in the ChatGPT mobile app lets you connect to Windows machines and keep steering from your phone.

译OpenAI 的 Codex 现已增强对 Windows 开发流程的支持。其“电脑操作”功能可在 Windows 上直接测试应用、调试流程和审查代码,让任务在项目上下文环境中运行。此外,ChatGPT 移动应用中的 Codex 也支持 Windows,允许用户从手机端发起、审核和引导任务,同时工作在 Windows 机器上持续进行。这标志着 Codex 在跨设备无缝协作方面的早期进展。

Greg Brockman@gdb · 5月30日71

Significant upgrades for Codex users on Windows:

译Codex 用户在 Windows 上迎来重大升级: 现在计算机操作功能已在 Windows 上可用,Codex 可以在你的 Windows 电脑上执行操作。 同时,ChatGPT 移动应用中的 Codex 也支持 Windows,让你可以随时随地启动、审查和引导任务,而工作则在你的 Windows 机器上继续进行。 这是一次早期体验,但我们正在努力提供更多方式,让你无论身在何处都能保持工作推进。

Chubby♨️@kimmonismus · 5月30日63

Codex can now control and work on Windows computers, including through the ChatGPT mobile app, so users can start, monitor, and steer coding tasks remotely while work continues on their PC.

译Codex现在可以控制和操作Windows电脑,包括通过ChatGPT移动应用,这样用户就可以在PC上继续工作的同时,远程启动、监控和引导编码任务。

MiniMax (official)@MiniMax_AI · 5月30日43

MiniMax M2.7 + CyOps = the scorecard speaks for itself 💪

译MiniMax M2.7 + CyOps = 评分说明一切 💪

Replit ⠕@Replit · 5月30日34

Here's everything you need to know about Replit in 60 seconds ⭐️ → Plain English prompts turned into real working software → End-to-end workflow from UI to deployment → Real-time team collaboration with just a link → Parallel AI agents building different parts of your app at once

译这是你需要在60秒内了解的关于Replit的一切 ⭐️ → 简单的英文提示词即可生成真实可用的软件 → 从UI到部署的端到端工作流 → 仅需一个链接即可实现实时团队协作 → 并行AI智能体同时构建应用的不同部分

Google AI Developers@googleaidevs · 5月30日43

We love this use of Managed Agents in the Gemini API by the team at @wandb. Silent bugs don't stand a chance. 🐛⬇️

译我们很欣赏@wandb团队在Gemini API中使用托管智能体的方式。隐蔽的bug无处遁形。🐛⬇️

宝玉@dotey · 5月30日68

借助 AI 去写 Mac App 完全没问题的。几点经验分享: 1. 尽可能选 AppKit 而不是 SwiftUI,SwiftUI 不如 AppKit 强大,做出来的界面也不好看。SwiftUI 相比 AppKit 的优势是开发简单,但这条已经被 AI 弥补了 2. 先用 Claude Design 去打磨 UI 设计和 UX 交互再去写代码可以事半功倍 3. Opus 比 GPT-5.5 做出来的 UI 要好看 4. Codex 有个官方 Plugin 叫 “Build macOS Apps”,可以用

译一位开发者分享了借助AI开发Mac应用的四点经验:建议优先使用AppKit而非SwiftUI,因后者界面较弱,而AI已弥补了AppKit开发复杂度高的短板;推荐在编码前先用Claude Design打磨UI与UX;指出Opus模型生成的UI优于GPT-5.5;并提到Codex提供了一个名为“Build macOS Apps”的官方插件可供使用。

Replit ⠕@Replit · 5月30日73

Did you try the new Replit Canvas yet? - Explore multiple design directions - Tweak designs by chatting with design frames - Design UI prototypes and convert them into apps - Create marketing assets for social media

译你试过新的 Replit Canvas 了吗? - 探索多种设计方向 - 通过与设计框架对话来调整设计 - 设计 UI 原型并将其转换为应用 - 为社交媒体创建营销素材

OpenRouter@OpenRouter · 5月30日72

OpenRouter now supports "apply_patch," a server tool that lets any model propose file edits using V4A diffs through the Responses API. The model generates a patch (create, update, or delete a file). OpenRouter validates the diff syntax server-side.

译OpenRouter 现已支持 "apply_patch",这是一个服务器工具,允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议。 模型生成一个补丁(创建、更新或删除文件)。OpenRouter 在服务器端验证 diff 语法。

Replit ⠕@Replit · 5月30日62

What's New in Canvas + Customizable Sign-In with Clerk https://x.com/i/broadcasts/1pJdRRzreMRKW

译Canvas 新功能 + 使用 Clerk 自定义登录 https://x.com/i/broadcasts/1pJdRRzreMRKW

Boris Cherny@bcherny · 5月30日62

Salesforce published a detailed writeup on going agentic with Claude Code. A couple things jumped out. A migration they'd scoped at 231 days shipped in 13. One PR delivered 21 endpoints at 100% test coverage.

译Salesforce发布了一篇关于使用Claude Code实现智能体化的详细文章。有几点引人注目。 他们曾评估需要231天的迁移工作,在13天内完成。其中一个PR交付了21个端点,测试覆盖率达到100%。

xAI@xai · 5月30日73

grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI and excels at agentic coding. Priced at $1/m input and $2/m output, it’s extremely cost effective, intelligent, and fast.

译grok-build-0.1 现已通过 xAI API 提供公开测试版。 这是驱动 Grok Build CLI 的同一模型,擅长智能体编码。 定价为输入 $1/m,输出 $2/m,极具成本效益、智能且快速。

Peter Steinberger 🦞@steipete · 5月29日41

“clanker” is not a slur. “vibe coding” is.

译“clanker”不是贬义词。“vibe coding”才是。

Peter Steinberger 🦞@steipete · 5月29日57

No LLMs for finding bugs even?

译多个知名开源项目正在全面禁止AI/大语言模型相关的代码贡献。QEMU的政策是拒绝任何被认为包含或源自AI生成内容的贡献;NetBSD将AI生成的代码推定为污点代码,不得提交;Zig对AI实施完全禁令,明确禁止使用大语言模型生成内容、翻译、查找bug,甚至禁止讨论使用聊天机器人/大语言模型服务;OBS Studio则要求代码必须由人类编写。

Ethan Mollick@emollick · 5月29日57

Reconstructing software engineering around AI is going to take work (even as the ability of AI to code increases at a rapid rate). Organizations are ideally spending tokens for two things: 1) building stuff 2) experiments to figure out best practices (which involves failure)

译围绕AI重构软件工程仍需努力(即使AI的编码能力正以极快的速度增长)。 理想情况下,组织应将token用于两件事: 1) 构建产品 2) 探索最佳实践的实验(这必然包含失败)

🚨 AI News | TestingCatalog@testingcatalog · 5月29日62

OPENAI 👀: Codex in ChatGPT now supports Side Conversions, allowing users to ask side questions without disrupting the main thread. /Side testing 🤖

译OPENAI 👀:ChatGPT中的Codex现在支持侧边对话,允许用户在不打断主线程的情况下提出旁支问题。 /Side测试 🤖

meng shao@shao__meng · 5月29日61

Grok Build 0.1 在 Cursor 中已经可用了!

AYi@AYi_AInotes · 5月29日52

今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的——真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思考。 这段话最近反复在我脑子里出现, 但我觉得他还少说了一句: 这个认知,到底从哪来? 首先肯定不是看几本书、刷几条推就能来的, 我觉得至少得是你自己上手干过、踩过坑、改过错,这个认知才能慢慢长出来, 这就是以术入道。 就像做菜,你得自己掌过勺,才知道一道菜真正的好坏在哪,AI 也一样,你得先用过、踩过坑、改过错,才能判断它给你的建议到底对不对。 我现在的判断是,AI 工具大概率会分成两条路。 一条是 agent 型,Claude Code、Codex、Hermes 那种,你给个目标它自己跑,你睡觉时它也跑,手机戳一戳继续跑,像一辆自动驾驶汽车。 另一条是 实习生型,典型代表是 Cursor, 每一步都要你判断:diff 改对了吗? 这个建议要不要采用?要不要切 MAX 模型重跑一次? 它有判断力,但没有自主决策权,你不在跟前盯着,它就停下来。 agent 是替你思考,实习生是和你一起思考,而只有后者,才是真正以术入道的过程。 agent 型工具的核心是省时间,你用它做事,实习生型工具的核心是磨判断力,你用它的过程,就是你长出自己那个道的过程。 但实习生型工具有个致命瓶颈——你不在跟前,它就停了。 自从被官方投喂 $10000 额度之后,我现在是个 Cursor 重度用户, 家里专门放了一台 Mac 跑 Cursor, 结果它就变成一个必须我在场才能用的稀缺资源。 直到最近朋友给我推了 UU 远程,网易做的,都免费两年了,而且没广告没会员,一开始我都有点不敢相信。 试了下发现真香,手机一打开就能接进家里那台 Mac,4K 144 帧,几乎感觉不到延迟, 看 Cursor 实时 diff、处理报错、切模型,跟坐电脑前没区别。 最让我惊喜的是,手机能直接开终端, 以前出门想登家里 Mac 跑命令行, 得 Tailscale 再 ssh 再 tmux,折腾半天, 还原生支持一个完整终端,跟敲 zsh 没区别, Cursor 跑一半要 git status、kill 进程、npm install, 手机抬手就办了,特别方便。 更新版本的时候我才发现,UU 远程刚好做到第二年, 周年庆重申不收费,继续打磨产品给大家免费用,还预告了几个新功能:安卓屏幕共享、小窗模式、精细化权限管理、文件夹共享、笔记本设备性能优化。 一个免费做了两年、还在持续往里砸功能的产品,我觉得是真有长期主义、想把产品做好的。 话说回来,AI 发展到这个阶段,我们真正需要的,我理解已经不是更厉害的 AI了,而是一种能让你随时和你的 AI 一起思考的连接方式。 目前看,Cursor和UU 远程这类体验和功能都做的非常丝滑极致的产品, 对我来说就是这个连接方式, 把我和家里那个顶级实习生之间的物理距离消除了, 让我能在任何地方,磨我自己的那个道。 毕竟 AI 工具的尽头,不是替我们做事,是把我们磨成那个,值得被它认真回答的提问者, 以上和大家共勉,一起在学习和使用AI的这条路上,达到以术入道,以道御术的境界。

译本文探讨了使用AI的两种核心路径:以Claude Code、Codex为代表的AI智能体型工具,可自主执行任务;以及以Cursor为代表的实习生型工具,需用户监督判断,后者是磨练判断力(以术入道)的关键。但Cursor依赖本地运行,限制了使用场景。作者通过UU远程(网易出品,免费)解决了这一问题,其手机端可实现4K 144帧低延迟连接,并原生支持完整终端,方便在移动端操作Cursor,实现了与AI实习生的随时连接。核心观点是AI工具的尽头是磨练我们成为值得被认真回答的提问者。

歸藏(guizang.ai)@op7418 · 5月29日67

Cursor 发布了一份开发者报告,里面有些数据很有意思 挑几个比较重要的点来说: 头部用户的 AI 代码产出、token 消耗、PR 合并量都远高于中位数,而且差距还在扩大。 AI 写代码前读得越来越多,input/output token ratio 大幅上升。真正贵是理解一个代码库和任务。 缓存变得非常重要,如果每次 agent 都从零读上下文,成本会爆炸。这意味着未来 coding agent 的竞争力很可能在上下文缓存、增量理解、长期记忆这些地方。 放权越来越多,手动 diff acceptance 变少,更多 AI 改动直接进入 commit 流程。 PR 变大,工作颗粒度变大,报告里说单个 PR 的新增行数、1000 行以上的大 PR 占比都在上升。副作用是 review、测试、架构边界会更重要。

译Cursor发布开发者报告,基于全球最全面的AI编程数据集指出:头部AI用户的代码产出、token消耗和PR合并量远高于中位数且差距持续扩大。报告关键发现是AI在生成代码前“阅读”(理解上下文)的成本急剧上升,input/output token ratio显著增加,表明真正的成本在于理解代码库与任务。这凸显了上下文缓存、增量理解和长期记忆等技术将成为未来智能体的核心竞争力。此外,AI自主性提高,手动确认减少,更多改动直接进入代码流程;同时PR规模变大,对代码审查和测试要求更高。

meng shao@shao__meng · 5月29日48

Coding Agent 在开发之外能做什么,这个问题昨晚我有了一些新的认识 昨天全天我的🪜都有问题,X Google ChatGPT Cursor 都没问题,就是 Codex 一直连接不上。。。 就让 Cursor 帮我分析我🪜的问题,以让 Codex 能正常跑起来为目标,几分钟时间,它分析了代理的实现,做了一些测试,帮我改了代理方式,又自己 CLI 调用 Codex 跑通了测试。 到这还没完,为了让我在🪜出问题时还能用 Codex,还给我接通了 DeepSeek API (我之前在 Cursor 给过 API Key),给我做了一键在 Codex 切换为 DeepSeek 的选项。 确实太贴心了,我都想给它🧎🏻‍♂️一个了。

译推文作者全天遭遇网络代理(🪜)问题,导致Codex连接失败。他使用Cursor分析代理设置,Cursor在几分钟内分析了代理实现、执行测试并修复了代理方式,随后亲自调用CLI测试Codex以确认修复。为预防未来问题,Cursor还集成了用户此前提供的DeepSeek API密钥,创建了一键切换至DeepSeek的选项,确保了服务可用性。

数字生命卡兹克@Khazix0918 · 5月29日72

http://x.com/i/article/2060199048204926976 # 实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。 大半夜的,刚准备早睡一下。 然后,我的AIHOT就突然弹了个消息,Claude Opus 4.8上线了。 除此之外,又发了另一个消息。 完成了新一轮650亿美元的融资,估值逼近一万亿美元。。。 前有港股智谱7000亿市值,后有Anthropic估值7万亿人民币。 果然AI行业的造富神话,比鬼故事还要鬼故事。 但是说实话,距离4月17号Opus 4.7上线,仅仅才过去42天,一个半月,又一个新模型扔出来,在Cluade的发布历史上,从来没有过。 看来确实GPT-5.5和Codex给的压力确实太大了,Opus 4.7的口碑确实把自己也给拉完了,所以没办法,要最快速度把Opus 4.8拉出来救火,要不然真的可能被Codex偷家偷疯了。 在模型的本身参数比如最大上下文、输出长度、知识库时间啥的,跟Opus 4.7几乎是一样。 价格也没变,$5/M输入、$25/M输出。 所以基本上用的也是Opus 4.7的基模上直接又调了一下。 然后,我就反应过来了一件事,我靠,你Opus 4.8上了,你不会要把我的Opus 4.6给顶掉了吧。 因为Opus 4.5在内容创作上是我觉得的巅峰,Opus 4.6比Opus 4.7差了一点,但是我觉得还能用,而Opus 4.7是我完全觉得不可用的状态。 按照claude在过去网页端只保留两代模型的优良传统,Opus 4.6可能会被顶掉。 我抱着忐忑的心情一看。 Claude我服了。。。。 行吧,只能接受,说不定Opus 4.8,在内容创作上更好呢?(虽然我几乎不对这个事情抱有期待了。) 说回Claude Opus 4.8。 不废话,先看跑分截图吧。 跑分我真的不想多聊了,很没劲,反正就是赢学。 数字又高了一点,大概就是这样。 唯一一个在上面穷尽洪荒之力还是没跑过GPT-5.5的类别,是Terminal-Bench 2.1。 这玩意是一个Agentic基准,大概就是用来评估Agent在真实命令行环境里干活的能力,考的就是把模型直接扔进一个沙盒终端里,让它自己去查文件、敲命令、看报错、调试等等,看看能不能跨多个步骤把一个任务做完。 这个是在Claude口径里,唯一一个跑不过GPT-5.5的,而且这个还挺要命的。 因为Terminal-Bench基本代表着Agent开发能力的最高峰,穷尽了洪荒之力也没干过GPT-5.5,那这过两天GPT-5.6出来,那还玩个屁啊。 这也从侧面说明了,GPT-5.5的开发能力,是真的强。。。 然后再说一说这次更新的一些特性。 1. 思考强度给所有人开放 这次 4.8 上线,同时把一个叫 effort(努力程度)的控制,开放给所有人了,也就是你在Chat模式下,也可以调整模型的努力程度了,所有套餐都有,免费用户也有。 Claude Code和Cowork用户对这个东西肯定很熟悉。 位置就在模型选择那个地方旁边。 上面那个从Low到Max,就是努力等级。 下面那个自适应思考记得别关,还是开着,组合起来用就行。 我自己其实常年喜欢默认开着Extra,然后开大活就上Max的,因为Opus 4.7只有自适应思考,不是很好用,Opus 4.8终于给弄回来了。 2. 变得更精确但也更不主动了 Opus 4.8更新以后,有一个明显的感觉,就是它更加的精确了,有一点GPT-5.5的感觉,指哪打哪。 更加的遵循你的指令,这确实对于专业的开发者来说,是件好事。 但是同时也带来一个弊端,就是他的主动性,会变弱。 就是你让它干A,它现在就只干A,绝不会自作主张觉得诶你这意思是不是顺便也想要B然后把B也顺带手给你办了。 我自己现在就遇到了,晚上测试的时候,习惯性的没跟它说一定要去看线上数据不要只看本地代码,但是在Opus 4.6和4.7的时候,他们都还是会主动的去用我的skill连接线上服务器,看生产环境的数据的,但是Opus 4.8却两次都没主动去看,给我的方案,都是基于本地的,这反而给我带来了一些麻烦,重新调整了一下文档和记忆,才好一点。 对于一个设计好了自己Harness的环境的专业开发者,我觉得会感觉到非常得劲,那其实能感觉到,它的错误率和幻觉率,都在降低,很精准。 但是如果把这个群体,推衍到整个Vibe Coding群体,我其实觉得,不一定是个好事。 我们视频组同事今晚在用Opus 4.8来测他们的用Skill来做视频动效的工作流,发现效果反而变差的,有一个很形象的描述就是。 而且你能明显的感觉到,更加自信,在过程中跟你确认的时刻变少了。 比如这个,优化方案出来,直接不确认,直接就自己干了。 因为我们其实很多非专业者,在用AI的时候,是靠着AI的主动性去往前走的,就是真的有的时候会用习惯了那种你懂我意思的爽感。 你含含糊糊扔一句话过去,它就能猜到你心里那个完整的需求,然后问你是不是,在帮你直接搞出来,这种被理解的感觉,其实还挺上头的。 当然这个爽感,是有代价的,就是模型的主观性太强,代价就是不可控。 它猜对了你舒服,它猜错了呢,它就拿着一个你压根没提的需求,吭哧吭哧给你干一堆活,最后还得你来擦屁股,这种出发点是好的但是结果是拉的,在长时Agent任务中,尤其要命。 所以,未来再跟Opus 4.8协同的时候,可能需要,对大家需求表达能力,要求的更高了。 3. 变得更加诚实了 这个点更上面有点像,也是Anthropic自己拎出来放在博客核心位置的点。 过去大家一定遇到过,就比如说Claude帮你写个功能,它噼里啪啦给你写了一大段,然后特别自信地跟你说,搞定了,没问题,可以跑了。 你信了,你一跑,你才发现,另一个地方崩了。 你回去问它,它又特别自信地说,哦抱歉,问题找到了,对不起我没有发现,我再改一下,这下绝对没问题了。 你又信了,你又跑,然后你又报错了。 很多时候经常会出现。 你要知道,它每一次都那么斩钉截铁,每一次都那么言之凿凿,但每一次,它其实自己心里也没底,AI,很多时候,只是被训练得看起来很有把握而已,这个毛病,几乎是所有大模型的通病。 这次Opus 4.8,就在这个问题上做了重点的优化。 官方公告对外说的数字是,4.8让自己写的代码里的瑕疵蒙混过关的概率,比上一代低了大概4倍。 我又去翻了下这次Opus 4.8的系统卡。 然后发现了更牛逼的东西。 在偷懒这个问题上,Opus 4.8,好像是唯一一个,能做到0%不良率的模型。 在我夜里几个小时的测试与开发中,我也能感觉到,这是真的不偷懒啊,思考的是真细啊。。。 比如我有一个AIHOT的数据分析页面,之前Opus 4.7实现的比较粗糙,最大的问题就卡,点一下反应个十几秒才动弹,问原因就说是这样的啦,改不了啦,你实时查询就是这个速度啦。 之前有次都给我干生气了。 Opus 4.8明显靠谱很多,非常详细的在全面审查我的代码,找尽可能需要优化的地方。 我同事的反馈也是这样。 基本上大家的感觉都差不多。 Opus 4.8在开发上总体的感觉,是有大进步的。 4. 创作能力 同样的Skill,同样的创作,比Opus 4.7是有进步的,但是依然比不上Opus 4.6。 比如我把我我之前写的AI时代的6个人才特质给抽离出来了,让Opus 4.8用我的写作Skill去写,写出来的一些句子,是这样的。 Opus 4.6+我的Skill是绝对不会写出这种话的,不是XX、而是XX,这是明确的禁用词,直接给我改成不再是来去规避,真的是耍小聪明。 还有那个奇怪的比喻,为什么要把靠谱特质的人,比喻成“高速运转的机器里那点润滑油”,我是真的有点不理解,这是有什么奇怪的癖好吗。 还有这段,非要把一个人,给比喻成一个物化的锚??? 还有模型奇妙的大段的无意义的排比,把所谓的AI味的禁忌都犯了个遍。 让它根据《流浪地球2》的故事,续写一个新的地下城的1000字的小故事。 写的也挺刻板印象的。 比4.7好,但是确实没好多少。 整体的人机味还都挺重的。 5. 其他更新 这次Opus 4.8还迭代了下快速模型,官方叫fast mode。 之前其实就有,你再Claude Code里输入/fast就有。 只是之前是Opus 4.7的fast就是比较贵,2.5倍的速度,但是是6倍的价格。 普通版本价格一直是百万输入5美元、百万输出25美元,然后Opus 4.7 fast模式的价格是输入30美元、输出150美元。 但是这次做了一个还不错的升级,速度直接达到了标准版的2.5倍的速度,价格却只有之前版本fast的三分之一,降到了输入10美元,输出50美元。 从标准版的6倍价格,变成了标准版的2倍价格,但是速度没变。 也能侧面看出来马斯克的算力确实是给到位了,Claude一下子就财大气粗了。 然后还有一个东西,也挺有意思的,是Claude Code的dynamic workflows功能。 翻译过来叫动态工作流。 大概作用就是,让Claude自己写一套编排脚本,在一次任务里,一口气拉起几十个、甚至上百个子agent并行开干,干完它还会先自己验一遍,确认 没问题了,然后把结果交给你。 原话是:“有些问题过于庞大,单次单代理处理难以胜任,尤其是在复杂、遗留的代码库中:跨整个服务的缺陷排查、涉及数百个文件的迁移、或是在最终决策前需要从多角度进行压力测试的方案。动态工作流能够端到端地处理所有这些任务。” 触发方式有两种。 第一种是直接跟Claude Code说,创建一个动态工作流balbalbala。 第二种是,把努力级别调整成一个特殊的选项Ultracode,这个设置会自己会将努力级别调至xhigh,同时让Claude自动判断何时使用工作流来处理你的任务。 这次Opus 4.8的更新总结,大概就是这样。 我自己还是比较喜欢的,因为在开发上确实有不错的加成,整体确实变好用了。 但是在创作上,我还是有点失落的,因为把我的Opus 4.6给顶掉了。。。 未来为了适配Opus 4.8,可能我们的很多跟内容相关的Prompt和Skill全都得重写了,因为这玩意牵扯的东西太多了,调研、历史文献撰写、分镜撰写、特效生成啥的,全都是内容。。。 就很烦,好不容易都在Opus 4.6上跑通了,又得全部重新来。 哎。 哦对了,Anthropic 这次还留了个更大的钩子。 除了Opus这条线,它们手里那个还攥了很久的,比Opus智能还要更高一档的新模型,代号Mythos,说是过几周,就能给所有客户用上了。 到时候,我想看看这个号称最牛逼的模型。 到底是个什么光景。 AI啊,真好玩。

译Anthropic发布Claude Opus 4.8,距上代4.7发布仅42天。价格($5/M输入、$25/M输出)与参数均不变。模型在多数基准跑分有所提升,但Terminal-Bench 2.1仍是唯一未超越GPT-5.5的类别。此次更新将思考强度(effort)控制开放给所有用户。核心变化是模型变得更精确、更遵循指令,代码瑕疵概率比上代低约4倍,且在防“偷懒”测试中达到0%不良率。然而,这带来了主动性降低的副作用,模型不再主动推测用户隐含需求。此外,其内容创作能力虽优于4.7,但被认为仍不及4.6版本。同时,快速模式(fast mode)升级,速度达标准版2.5倍,价格从标准版6倍降至2倍。Claude Code还推出了可并行调用数十至上百个子Agent的动态工作流功能。

OpenRouter@OpenRouter · 5月29日69

Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 196B params. Tuned for coding, agentic workflows, and structured outputs, with selectable reasoning levels to trade off speed, cost, and depth.

译阶跃星辰的Step 3.7 Flash已在OpenRouter上线。 这是一个多模态(图像/视频/文本)MoE模型,196B参数中仅激活11B。针对编码、智能体工作流和结构化输出进行了调优,并提供可选的推理级别,以权衡速度、成本和深度。

歸藏(guizang.ai)@op7418 · 5月29日69

相较于 Opus 4.8,昨晚动态工作流(Dynamic Workflows)的发布,我感觉意义更重大一些。 它延续了那套并发的 Subagent 逻辑,但启动的 Subagent 可能多达数百个,能帮你完成一些非常重、规模非常大的任务。比如: 1. 调研你整个代码库的问题 2. 快速收集并生成一份庞大的调研报告 看起来官方并不太建议拿它直接去改动代码,而是用它处理一些比较基础但工作量巨大的任务,通过并发的形式来大幅加快处理速度。 触发方式: 1. 更新以后,只要提示词里带 workflow 就会触发。 2. 启动 Ultra Code 模式。启动后,任何任务都会帮你规划一个动态工作流。 注意:Ultra Code 模式启动后,仅在当前单次对话生效。如果重启,系统会退回到 X-HIGH 的推理模式。

译Claude Code 近期推出实验性动态工作流(Dynamic Workflows)功能。该功能延续并发子代理(Subagent)逻辑,可启动数百个子代理,用于处理代码库调研、生成大型报告等大规模任务。官方定位是加速处理基础但工作量巨大的任务,而非直接修改代码。触发方式有两种:在提示词中使用“workflow”一词,或启动 Ultra Code 模式(该模式仅当前对话生效)。

Berryxia.AI@berryxia · 5月29日72

兄弟们! 现在已经可以在 ZenMux 上免费体验 Claude Opus 4.8 了! 我第一时间用它跑了那个Hugging Face大佬M 硬核的「Three.js 纯图元造飞机测试」,要求只用内置几何体(Box、Cylinder、Cone、Sphere…),不准用任何模型加载器,纯手搓一架高细节波音 747-400。 (见视频-Prompt 见评论区) Opus 4.8 从输入提示词到生成完整可运行的 HTML 网页(后掠机翼 ~35°、四台发动机精准吊装、驼峰上层客舱、可收放起落架动画、翼梢小翼、导航灯频闪),一次成型! 整体效果非常惊艳:比例严谨到离谱、从正面/侧面/俯视/3/4 视角一眼就是 747、连发动机吊架的角度都对! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发,并且限时免费额度体验! Anthropic 旗舰刚发布,现在立刻就能通过 API 调用! 另外平台 还“有赔付保障的生产级 AI Gateway”,统一接入 + 路由 + 可用性 + 赔付保障,快速尝鲜首选 复杂空间推理 + 一次成型的工程代码能力是真的没话说,几乎不用返工。 专为 Agent 与长程编码设计,在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单直接拿下第一! 代码与多模态理解全面超越上一代,复杂三维结构、物理比例、动画时序都拿捏得死死的。 完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 Promot直接体验见评论区:

译Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中,该模型根据提示词一次生成可运行的 HTML 网页,仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400,比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一,代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型,并提供限时免费额度。

Berryxia.AI@berryxia · 5月29日66

制作飞机的提示词👇🏻 PROMPT: Write a complete single-file HTML document using Three.js (include via CDN) that renders a highly detailed Boeing 747-400 aircraft. Rules (must follow strictly): - Use ONLY built-in Three.js primitive geometries (BoxGeometry, CylinderGeometry, ConeGeometry, SphereGeometry, etc.). NO external model loaders, no GLTFLoader, no imported assets. - Pay extreme attention to accurate real-world proportions, swept wing angle (~35°), engine positions (4 engines under wings, correct size and spacing), tail configuration (horizontal + vertical stabilizer), cockpit windows, landing gear (retractable), fuselage curvature, winglets, etc. - Make the model instantly recognizable as a Boeing 747 from front, side, top, and 3/4 views. - Add realistic lighting (directional + ambient + point lights), soft shadows, OrbitControls for rotation, and a simple background (sky gradient or grid). - Include a short animation (e.g. slow rotation or landing gear deployment) or make it fully interactive. - Output the complete, ready-to-run HTML code in one block. Start coding now.

译Anthropic发布Claude Opus 4.8,其复杂空间推理与代码生成能力受到关注。有用户使用其测试生成一架高细节波音747-400的Three.js模型,要求仅使用内置几何体,生成完整的单文件HTML。Claude Opus 4.8一次生成了可运行代码,模型具有后掠机翼约35度、四发动机、可收放起落架等细节,比例严谨。ZenMux平台现已支持该模型的API调用与免费体验。据称,Claude Opus 4.8在SWE-bench、Terminal-Bench、Agentic Coding等榜单排名第一。

歸藏(guizang.ai)@op7418 · 5月29日72

没想到 Opus4.8 这就发布了,所有能力相较于 4.7 都有提升。 比较重要的是他在发现自己问题的能力上相较于 4.7 提升非常多,原来的话你让他自己 review 自己的代码基本没用。

meng shao@shao__meng · 5月29日75

Cursor 最新发布「开发者习惯报告」 AI Coding 已经不再只是“写代码更快”,它正在强烈改变软件开发的工作形态:开发者提交更大的变更,Agent 做更深的任务,更多 AI 代码进入代码库并保留下来,下一步会从个人辅助工具走向自动化开发基础设施。 https://cursor.com/insights # Cursor 团队报告中最重要的 5 个发现 1. 代码产出速度明显提高:每位开发者每周新增代码行从 2025 年初约 3.6K,升到 2026 年 5 月的 8.6K;PR 的 p75 新增代码行也从约 126 行升到约 345 行。 2. 开发单位变大了:1000 行以上的“大 PR”占比从约 8% 升到 13.8%。这说明 AI 不只是在补全局部代码,而是在让开发者一次处理更大的任务。 3. Agent 正在做更复杂的工作:过去两个月,单次 Agent 会话的平均工具调用数上升约 30%,说明它们在更多地读文件、改文件、搜索代码、运行命令、访问网页。 4. AI 生成代码的“留存”在提高:被接受的 AI 代码在 60 分钟后仍然存在的比例,从 2026 年初约 76% 升到约 81%。这比单纯统计生成量更有意义,因为它接近“代码是否被开发者认可并进入实际工作”的信号。 5. 少数高水平用户获得了更大的收益:AI 使用非常集中,AI 代码行、花费、token 使用的 Gini 系数分别为 0.77、0.75、0.72;P99 用户的 AI 代码行是中位数用户的 46 倍,合并 PR 数是 15 倍。

译报告显示,AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行,更大规模的PR(千行以上)占比上升。AI智能体在单次会话中的工具调用数增加约30%,正在处理更复杂的任务。同时,被接受的AI代码在60分钟后的留存率从约76%提升至约81%,表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具,演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。

meng shao@shao__meng · 5月29日65

活人开发者的注意力是整个 AI Coding 系统里最稀缺、最慢、最不能并行的资源! 启动 Agent 很容易,但理解结果、判断质量、处理冲突、决定能不能合并,仍然必须由人完成。Agent 可以并行工作,但人的判断不能并行。所以真正限制产出的,不是 Agent 数量,而是人的审查与决策能力。 @addyosmani 把这个问题称为 Orchestration Tax,可以理解为“编排成本”或“调度成本”。 你启动 10 个、20 个 agent,看起来很忙,界面上也有很多任务在跑。但这些任务最后都会排队等待你: · 看结果是否正确 · 判断是否符合架构 · 检查代码质量 · 处理不同 Agent 之间的冲突 · 决定哪些可以合并 这一步无法完全交给机器,因为它涉及系统理解、工程判断和长期维护责任。 所以,多 Agent 并不等于多了几个“你”。最后真正承担责任的,还是一个人。 最关键的工程类比 第一是 Python 的 GIL。线程可以很多,但真正执行关键部分时,要经过一个单线程限制。Addy 说,人就是 AI Agent 系统里的 GIL。Agent 可以同时跑,但一到需要理解、判断、合并时,都要等你。 第二是 Amdahl’s Law。系统加速的上限,取决于仍然无法并行的那部分。在 AI 编程里,无法并行的部分就是人的判断。Agent 数量增加,只是让等待你审查的任务变多,不会自动提高最终交付质量。 这也是文章最重要的技术含义:优化非瓶颈部分,不会提高系统吞吐量。 如果瓶颈是审查和判断,继续增加 Agent,只会制造更多待处理工作。 为什么“忙”不等于“高产” Addy 反复强调:现在的工具确实让人更有生产力,但也让人更累。 原因是,多 agent 工作会带来大量上下文切换。你每次去看一个 agent 的结果,都要重新加载它的任务背景、改动范围、相关代码和潜在风险。CPU 的上下文切换很快,但人的上下文切换很慢,而且恢复不完整。 所以 5 个 agent 不是 5 倍产出,而可能是: · 5 次重新进入不同问题 · 5 组需要审查的改动 · 持续担心哪个任务正在出错 · 更容易降低审查标准 最危险的情况是,人因为太累,开始接受自己并没有真正理解的代码。短期看似推进了,长期会损害对系统的理解。 所以真正成熟的 AI 编程能力,不是同时开更多 agent,而是知道: · 哪些任务适合交给 agent · 哪些任务必须自己深度参与 · 什么时候应该批量审查 · 什么时候应该停止调度,专心思考一个复杂问题 · 哪些验证可以让机器先完成,减少人的负担 Addy 给出的实践原则 第一,Agent 数量要按你的审查能力来定,而不是按工具界面能开多少来定。多数人真正能认真审查的并行任务,可能只是个位数。 第二,把任务分层。隔离、明确、低耦合的任务适合放给后台 Agent;复杂 bug、架构设计、关键重构,不适合同时并行太多,因为这些任务本身就需要人的判断。 第三,批量审查。频繁来回查看不同 Agent,会消耗大量注意力。让 Agent 多跑一段时间,然后集中审查,比不断切换更有效。 第四,把人的注意力留给真正需要判断的部分。测试、截图、格式检查、基础验证,可以要求 Agent 自己先完成。人主要看关键设计、边界条件、风险和可维护性。 第五,保护深度思考时间。有些时候最高价值的动作不是继续管理 Agent,而是停止多线程工作,完整地思考一个核心问题。

译AI编程系统中,人类开发者的注意力是不可并行的稀缺资源。智能体可并行工作,但其结果必须由人审查、判断和决策,这一过程无法并行,被称为“编排成本”,类比于Python的GIL。盲目增加智能体数量不会提升最终质量,反而因大量上下文切换增加审查负担。成熟的AI编程能力在于合理分配注意力:按自身审查能力控制智能体数量,将深度思考时间留给最关键的架构与决策环节。

Berryxia.AI@berryxia · 5月29日36

大家越来越叼了! 从原来的Coding软件已经无法满足大家的胃口了,现在都是开始自然文本-3D CAD 来Coding了。

译大家越来越厉害了! 从原来的编程软件已经无法满足大家的需求了,现在都开始用自然语言文本-3D CAD来编程了。

Rohan Paul@rohanpaul_ai · 5月29日66

Fast mode for Claude Opus 4.8 is roughly 2.5x the speed while being 3X cheaper than before. AI/ML API (@aimlapi) already integrated it on their platform and now also gives some free access to it for selected users. Their platform provides one API for 500+ AI models.

译Claude Opus 4.8发布快速模式,速度提升至2.5倍,价格变为原来的三分之一。该模型在代码质量上相比4.7版本有显著改进,代码缺陷概率降低约4倍。标准API价格为输入$5/百万token,输出$25/百万token。AI/ML API平台已第一时间集成此模型,提供500+模型的统一API接口,并为部分用户推出限时免费体验活动。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月30日
09:39
宝玉@dotey
71
最新版 Codex 可以看到 Token 用量

jason: 10h 45m was codex picking the 5.5 party guests codex > settings > profile

OpenAI产品更新编码
07:50
🚨 AI News | TestingCatalog@testingcatalog
54
Codex在设置中新增了个人资料标签页,包含详细的token消耗统计。 Tokenflexing 👌

Andrew Ambrosino: tokens

OpenAI产品更新编码
07:50
🚨 AI News | TestingCatalog@testingcatalog
78
xAI在API控制台公开发布了grok-build-0.1模型,该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1,输出价格为每百万token $2。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

智能体xAI模型发布编码
关联讨论 4 条X:xAI (@xai)X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)xAI:News(网页)
07:39
Tibo@thsottiaux
62
没人比Codex更了解它自己

Guinness Chen: If you ever get tired of managing your Codex threads, just let Codex manage itself! Codex can now create threads, search...

智能体OpenAI产品更新编码
06:49
Greg Brockman@gdb
精选75
Codex用于管理Codex界面: 【引用 @guinnesschen】:如果你厌倦了管理Codex对话线程,就让Codex自己管理自己吧!Codex现在可以创建对话线程、搜索它们、整理它们、固定重要的线程,并为并行任务启动工作树。

Guinness Chen: If you ever get tired of managing your Codex threads, just let Codex manage itself! Codex can now create threads, search...

OpenAI产品更新编码

推荐理由:Codex 能自己管理线程、搜索、组织了,长期在终端里干活的开发者会明显减少上下文切换,这是把 AI 助手往主动管理推了一步。
05:55
OpenAI Developers@OpenAIDevs
54
为使用 Codex 的开发者带来两项体验优化: Codex 后台智能体现在拥有稳定的像素化身份标识。 当同一个智能体出现在不同标签页、提及、对话记录和线程面板中时,现在更容易一眼识别。
OpenAI产品更新编码
04:55
OpenAI Developers@OpenAIDevs
54
Builders Unscripted with @0xmts Matias与@romainhuet探讨了将Codex应用于工作和副项目工作流。 00:58 Codex在Alchemy的应用 01:51 代码审查捕获错误 08:04 使用Codex进行副项目 18:51 Codex App Server项目 24:01 计算机使用、GPT-5.5、SnapCat
智能体OpenAI教程/实践编码
03:39
宝玉@dotey
33
我就不理解为什么 Codex 在普通模式下一直不支持 ask__user_question tool,有时候回复 Agent 的问题要手动去写就很烦!

jason: did you wish codex ask__user_question tool was available outside of plan mode

智能体OpenAI大佬观点编码
03:09
宝玉@dotey
66
Claude Design与代码同步的实践方法

针对后续UI改动可能导致Claude Design与实际代码不一致的问题,分享的实践方法是:始终将Claude Design作为唯一设计源,并在更新时生成changelog供Claude Code同步。遵循先修改设计再改代码的原则,若临时修改了代码,事后也应同步回Claude Design。

CanCan: @dotey 这里有一个小问题,后续ui 改动怎们办?先改 claude design,有时候小改动直接改code,但是这样时间长了 design 和 code就 不一致了

智能体教程/实践编码
02:55
OpenCode@opencode
59
OpenCode Go每天处理万亿token 你觉得粉色的是哪个模型?
OpenAI产品更新编码
02:55
OpenAI Developers@OpenAIDevs
72
OpenAI 的 Codex 现已增强对 Windows 开发流程的支持。其"电脑操作"功能可在 Windows 上直接测试应用、调试流程和审查代码,让任务在项目上下文环境中运行。此外,ChatGPT 移动应用中的 Codex 也支持 Windows,允许用户从手机端发起、审核和引导任务,同时工作在 Windows 机器上持续进行。这标志着 Codex 在跨设备无缝协作方面的早期进展。

OpenAI: Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....

智能体OpenAI产品更新编码
关联讨论 4 条X:OpenAI Developers (@OpenAIDevs)IT之家(RSS)X:OpenAI (@OpenAI)X:Berry Xia (@berryxia)
02:49
Greg Brockman@gdb
71
Codex 用户在 Windows 上迎来重大升级: 现在计算机操作功能已在 Windows 上可用,Codex 可以在你的 Windows 电脑上执行操作。 同时,ChatGPT 移动应用中的 Codex 也支持 Windows,让你可以随时随地启动、审查和引导任务,而工作则在你的 Windows 机器上继续进行。 这是一次早期体验,但我们正在努力提供更多方式,让你无论身在何处都能保持工作推进。

OpenAI: Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....

智能体OpenAI产品更新编码
02:45
Chubby♨️@kimmonismus
63
Codex现在可以控制和操作Windows电脑,包括通过ChatGPT移动应用,这样用户就可以在PC上继续工作的同时,远程启动、监控和引导编码任务。
智能体OpenAI产品更新编码
02:26
MiniMax (official)@MiniMax_AI
43
MiniMax M2.7 + CyOps = 评分说明一切 💪

Leo Fan (mainnet arc): I gave the same Go MMRPG backend spec to two coding agents and then asked Claude to judge the performance. CC (with Sonn...

智能体编码评测/基准
02:26
Replit ⠕@Replit
34
这是你需要在60秒内了解的关于Replit的一切 ⭐️ → 简单的英文提示词即可生成真实可用的软件 → 从UI到部署的端到端工作流 → 仅需一个链接即可实现实时团队协作 → 并行AI智能体同时构建应用的不同部分
智能体教程/实践编码
02:15
Google AI Developers@googleaidevs
43
我们很欣赏@wandb团队在Gemini API中使用托管智能体的方式。隐蔽的bug无处遁形。🐛⬇️

Weights & Biases: The scariest bug from a coding agent isn't the one that crashes. It's the one that runs cleanly, passes tests, and quiet...

智能体Google教程/实践编码
01:39
宝玉@dotey
68
用AI开发Mac应用的几点实用经验分享

一位开发者分享了借助AI开发Mac应用的四点经验:建议优先使用AppKit而非SwiftUI,因后者界面较弱,而AI已弥补了AppKit开发复杂度高的短板;推荐在编码前先用Claude Design打磨UI与UX;指出Opus模型生成的UI优于GPT-5.5;并提到Codex提供了一个名为“Build macOS Apps”的官方插件可供使用。

卫斯理: 今天想到一点,我是否可以去做 mac app? 理由如下 - 会 objective-c/swift 我是国内比较早进入 iOS 开发的那批人 - 正好有个 idea - 正好有 claude code ,以前总觉得 appkit 很难用,...

教程/实践编码
00:56
Replit ⠕@Replit
同事件精选73
你试过新的 Replit Canvas 了吗? - 探索多种设计方向 - 通过与设计框架对话来调整设计 - 设计 UI 原型并将其转换为应用 - 为社交媒体创建营销素材
产品更新编码
同一事件,精选展示《Replit Canvas:智能体设计工具发布》
推荐理由:Replit 这次把设计到代码的链条打通了,虽然不是革命性突破,但对用 Replit 做产品的开发者来说,省掉了从 Figma 到代码的来回折腾,可以试试。
00:36
OpenRouter@OpenRouter
精选72
OpenRouter 现已支持 "apply_patch",这是一个服务器工具,允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议。 模型生成一个补丁(创建、更新或删除文件)。OpenRouter 在服务器端验证 diff 语法。
智能体MCP/工具产品更新编码

推荐理由:OpenRouter 这个 apply_patch 解决了多模型文件编辑的碎片化,任何模型接上就能出 diff,做 coding agent 的可以少写一堆适配代码。
00:26
Replit ⠕@Replit
62
Canvas 新功能 + 使用 Clerk 自定义登录 https://x.com/i/broadcasts/1pJdRRzreMRKW
产品更新编码
00:25
Boris Cherny@bcherny
62
Salesforce发布了一篇关于使用Claude Code实现智能体化的详细文章。有几点引人注目。 他们曾评估需要231天的迁移工作,在13天内完成。其中一个PR交付了21个端点,测试覆盖率达到100%。
智能体Anthropic教程/实践编码
00:09
xAI@xai
同事件精选73
grok-build-0.1 现已通过 xAI API 提供公开测试版。 这是驱动 Grok Build CLI 的同一模型,擅长智能体编码。 定价为输入 $1/m,输出 $2/m,极具成本效益、智能且快速。
xAI模型发布编码
同一事件,精选展示《Grok Build 0.1 on API》
推荐理由:xAI 把 Grok Build 底层模型开放 API 了,定价比竞品便宜一个量级,做 agentic coding 的可以低成本试一下,速度也不错。
5月29日
22:49
Peter Steinberger 🦞@steipete
41
"clanker"不是贬义词。"vibe coding"才是。

Armin Ronacher ⇌: More musings after some people got upset about the word clanker. https://lucumr.pocoo.org/2026/5/26/clankers/

大佬观点编码
22:19
Peter Steinberger 🦞@steipete
57
多个知名开源项目正在全面禁止AI/大语言模型相关的代码贡献。QEMU的政策是拒绝任何被认为包含或源自AI生成内容的贡献;NetBSD将AI生成的代码推定为污点代码,不得提交;Zig对AI实施完全禁令,明确禁止使用大语言模型生成内容、翻译、查找bug,甚至禁止讨论使用聊天机器人/大语言模型服务;OBS Studio则要求代码必须由人类编写。

The Lunduke Journal: While the Linux Kernel is quickly becoming "Vibe Coded", many other Open Source projects are outright banning all AI / L...

大佬观点开源生态编码
22:14
Ethan Mollick@emollick
57
围绕AI重构软件工程仍需努力(即使AI的编码能力正以极快的速度增长)。 理想情况下,组织应将token用于两件事: 1) 构建产品 2) 探索最佳实践的实验(这必然包含失败)
大佬观点编码
21:50
🚨 AI News | TestingCatalog@testingcatalog
62
OPENAI 👀:ChatGPT中的Codex现在支持侧边对话,允许用户在不打断主线程的情况下提出旁支问题。 /Side测试 🤖

Thomas Ricouard: If you update to the latest ChatGPT iOS app version we have a few cool new things for Codex Mobile, including /side to a...

OpenAI产品更新编码
21:10
meng shao@shao__meng
61
Grok Build 0.1 在 Cursor 中已经可用了!

eric zakariasson: grok build is available in cursor, try it out!

xAI产品更新编码
20:34
AYi@AYi_AInotes
52
今天,把一件关于 AI 很底层的事,彻底想透了。

本文探讨了使用AI的两种核心路径:以Claude Code、Codex为代表的AI智能体型工具,可自主执行任务;以及以Cursor为代表的实习生型工具,需用户监督判断,后者是磨练判断力(以术入道)的关键。但Cursor依赖本地运行,限制了使用场景。作者通过UU远程(网易出品,免费)解决了这一问题,其手机端可实现4K 144帧低延迟连接,并原生支持完整终端,方便在移动端操作Cursor,实现了与AI实习生的随时连接。核心观点是AI工具的尽头是磨练我们成为值得被认真回答的提问者。

智能体大佬观点编码
19:42
歸藏(guizang.ai)@op7418
67
Cursor开发者报告揭示AI编程五大趋势

Cursor发布开发者报告,基于全球最全面的AI编程数据集指出:头部AI用户的代码产出、token消耗和PR合并量远高于中位数且差距持续扩大。报告关键发现是AI在生成代码前“阅读”(理解上下文)的成本急剧上升,input/output token ratio显著增加,表明真正的成本在于理解代码库与任务。这凸显了上下文缓存、增量理解和长期记忆等技术将成为未来智能体的核心竞争力。此外,AI自主性提高,手动确认减少,更多改动直接进入代码流程;同时PR规模变大,对代码审查和测试要求更高。

Cursor: Introducing the Cursor Developer Habits Report. We're sharing some of our findings on how software development is changi...

智能体现象/趋势编码
15:10
meng shao@shao__meng
48
Cursor不只是编程助手:它解决了我的网络问题

推文作者全天遭遇网络代理(🪜)问题,导致Codex连接失败。他使用Cursor分析代理设置,Cursor在几分钟内分析了代理实现、执行测试并修复了代理方式,随后亲自调用CLI测试Codex以确认修复。为预防未来问题,Cursor还集成了用户此前提供的DeepSeek API密钥,创建了一键切换至DeepSeek的选项,确保了服务可用性。

智能体MCP/工具教程/实践编码
11:54
数字生命卡兹克@Khazix0918
72
实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。

Anthropic发布Claude Opus 4.8,距上代4.7发布仅42天。价格($5/M输入、$25/M输出)与参数均不变。模型在多数基准跑分有所提升,但Terminal-Bench 2.1仍是唯一未超越GPT-5.5的类别。此次更新将思考强度(effort)控制开放给所有用户。核心变化是模型变得更精确、更遵循指令,代码瑕疵概率比上代低约4倍,且在防“偷懒”测试中达到0%不良率。然而,这带来了主动性降低的副作用,模型不再主动推测用户隐含需求。此外,其内容创作能力虽优于4.7,但被认为仍不及4.6版本。同时,快速模式(fast mode)升级,速度达标准版2.5倍,价格从标准版6倍降至2倍。Claude Code还推出了可并行调用数十至上百个子Agent的动态工作流功能。

智能体Anthropic模型发布编码
11:06
OpenRouter@OpenRouter
69
阶跃星辰的Step 3.7 Flash已在OpenRouter上线。 这是一个多模态(图像/视频/文本)MoE模型,196B参数中仅激活11B。针对编码、智能体工作流和结构化输出进行了调优,并提供可选的推理级别,以权衡速度、成本和深度。
智能体多模态模型发布编码
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)
10:42
歸藏(guizang.ai)@op7418
69
Claude Code 动态工作流发布,意义或超 Opus 4.8

Claude Code 近期推出实验性动态工作流(Dynamic Workflows)功能。该功能延续并发子代理(Subagent)逻辑,可启动数百个子代理,用于处理代码库调研、生成大型报告等大规模任务。官方定位是加速处理基础但工作量巨大的任务,而非直接修改代码。触发方式有两种:在提示词中使用“workflow”一词,或启动 Ultra Code 模式(该模式仅当前对话生效)。

ClaudeDevs: New in Claude Code (research preview): dynamic workflows. Claude writes an orchestration script on the fly, then spins u...

智能体Anthropic教程/实践编码
10:32
Berryxia.AI@berryxia
72
Claude Opus 4.8 在 ZenMux 平台开启免费体验

Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中,该模型根据提示词一次生成可运行的 HTML 网页,仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400,比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一,代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型,并提供限时免费额度。

Anthropic多模态编码评测/基准
10:32
Berryxia.AI@berryxia
66
Anthropic发布Claude Opus 4.8,一次性生成可运行的Three.js波音747模型

Anthropic发布Claude Opus 4.8,其复杂空间推理与代码生成能力受到关注。有用户使用其测试生成一架高细节波音747-400的Three.js模型,要求仅使用内置几何体,生成完整的单文件HTML。Claude Opus 4.8一次生成了可运行代码,模型具有后掠机翼约35度、四发动机、可收放起落架等细节,比例严谨。ZenMux平台现已支持该模型的API调用与免费体验。据称,Claude Opus 4.8在SWE-bench、Terminal-Bench、Agentic Coding等榜单排名第一。

Berryxia.AI: 兄弟们! 现在已经可以在 ZenMux 上免费体验 Claude Opus 4.8 了! 我第一时间用它跑了那个Hugging Face大佬M 硬核的「Three.js 纯图元造飞机测试」,要求只用内置几何体(Box、Cylinder、Co...

Anthropic模型发布编码
09:42
歸藏(guizang.ai)@op7418
72
没想到 Opus 4.8 这就发布了,所有能力相较于 4.7 都有提升。 比较重要的是他在发现自己问题的能力上相较于 4.7 提升非常多,原来的话你让他自己 review 自己的代码基本没用。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布编码
09:39
meng shao@shao__meng
精选75
Cursor 团队发布《开发者习惯报告》

报告显示,AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行,更大规模的PR(千行以上)占比上升。AI智能体在单次会话中的工具调用数增加约30%,正在处理更复杂的任务。同时,被接受的AI代码在60分钟后的留存率从约76%提升至约81%,表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具,演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。

Cursor: Introducing the Cursor Developer Habits Report. We're sharing some of our findings on how software development is changi...

智能体现象/趋势编码

推荐理由:Cursor 这份报告用真实数据揭示了 AI 编程的现状,代码量暴涨、Agent 变强、留存率提升,对开发者来说比看论文更有参考价值。
09:39
meng shao@shao__meng
65
人类开发者的注意力是AI编程系统的核心瓶颈

AI编程系统中,人类开发者的注意力是不可并行的稀缺资源。智能体可并行工作,但其结果必须由人审查、判断和决策,这一过程无法并行,被称为“编排成本”,类比于Python的GIL。盲目增加智能体数量不会提升最终质量,反而因大量上下文切换增加审查负担。成熟的AI编程能力在于合理分配注意力:按自身审查能力控制智能体数量,将深度思考时间留给最关键的架构与决策环节。

Addy Osmani: http://x.com/i/article/2059839454370828288

智能体大佬观点编码
09:32
Berryxia.AI@berryxia
36
大家越来越厉害了! 从原来的编程软件已经无法满足大家的需求了,现在都开始用自然语言文本-3D CAD来编程了。
现象/趋势编码
09:14
Rohan Paul@rohanpaul_ai
66
Claude Opus 4.8发布快速模式,速度提升至2.5倍,价格变为原来的三分之一。该模型在代码质量上相比4.7版本有显著改进,代码缺陷概率降低约4倍。标准API价格为输入$5/百万token,输出$25/百万token。AI/ML API平台已第一时间集成此模型,提供500+模型的统一API接口,并为部分用户推出限时免费体验活动。

AI/ML API: Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...

Anthropic产品更新推理编码
‹ 上一页
1…2223242526…50
下一页 ›