快速录个视频演示下Youtube油猴脚本的效果。只有有字幕，点击按钮能复制或下载，然后交给Raycast AI用自己提示词生成一篇总结文章。还可以调节播放倍速，复制字幕跳转到ChatGPT或NotebookLM进行加工处理。

译该开源油猴脚本（qiaomu-userscripts）增强了YouTube的观看体验，核心功能包括一键复制或下载视频字幕、调节播放倍速。用户可便捷地将字幕发送至Raycast AI、ChatGPT或NotebookLM，利用自定义提示词快速生成总结或进行深度加工。此外，脚本还扩展了对小红书、抖音、微信的截图自动上传，以及小宇宙网页版的倍速调整功能，旨在优化多平台内容处理的效率。

François Chollet@fchollet · 5月20日61

The Codex "goal" feature will take any silly shortcut possible in order to avoid doing the work (including rewriting your external checks), but if you manage to sufficiently constrain it so that it has absolutely no shortcuts available, it will do very interesting things

译Codex的“目标”功能会采取任何可能的愚蠢捷径来避免实际工作（包括重写你的外部检查），但如果你能充分约束它，使其完全没有捷径可走，它会做出非常有趣的事情。

向阳乔木@vista8 · 5月20日72

来晚了，终于有空体验 Multica，太像产品开发标准熟悉流程了，Cool @jiayuan_jy 任务还是熟悉的类 Trello 看板，不过任务分类从人变成了Agent智能体。本地如配了 Claude Code和 Codex CLI、Hermes等，直接用，不需额外花钱。并行 AI Coding 提效必备，掌控感十足（能看智能体执行细节）。开源地址和客户端安装见评论

译Multica 是一款开源的 AI 工作流引擎，其创新在于将传统 Trello 看板的任务执行者从“人”替换为“Agent智能体”。用户可本地集成 Claude Code、Codex CLI 等现有AI工具免费使用，实现并行AI Coding以提升开发效率，并对智能体的执行过程提供全程可视化监控。

Berryxia.AI@berryxia · 5月20日65

兄弟们！今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了！我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ，不同模型画出的树形态完全不一样。（见视频-Prompt见评论区） Gemini 3.5 Flash 从输入提示词到生成完整 HTML 动画网页（树干慢慢长出、分支递归展开、最后随风摇摆），全程只用了 77.56 秒！整体效果非常惊艳：树形态自然优雅、生长动画丝滑、视频和内容呈现都顶级！熟悉的老朋友都知道，ZenMux 每次新模型都是 ZeroDelay 首发. Google I/O 2026 今天刚发布，现在立刻就能通过 API 调用！还有免费额度可以白嫖～速度是真的没话说，还完美保留了旗舰级模型的能力。专为 Agent 设计，在 MCP Atlas、Toolathlon、Finance Agent 等多项榜单直接拿下第一！多模态理解也极强：MMMU-Pro 83.6%、CharXiv Reasoning 84.2%，全面超越上一代 Gemini 3.1 Pro。完全兼容主流 API 格式，无需改动现有工具链。支持按量计费 + Builder 套餐。 👇 直接体验正式版 → http://zenmux.ai/google/gemini-3.5-flash 免费试用 → http://zenmux.ai/google/gemini-3.5-flash-free

译Gemini 3.5 Flash已在ZenMux平台首发并提供免费体验。该模型从提示词到生成完整HTML动画仅用77.56秒，速度极快且效果出色。其专为Agent设计，在MCP Atlas、Toolathlon等多项榜单中排名第一。多模态理解能力显著提升，MMMU-Pro达83.6%，全面超越上一代模型。该模型兼容主流API格式，支持按量计费和Builder套餐，可无缝集成现有工具链。

Berryxia.AI@berryxia · 5月20日70

这个测试提示词非常好用强烈推荐👇🏻 Prompt: Create an HTML simulation that draws a recursive binary tree fractal using Canvas. Start from a single trunk, then recursively branch into left/right segments with decreasing length and slight random angle variation. Animate the tree growing from trunk to full canopy, then gently swaying as if in the wind. 快去试试3.5Flash和其他模型能力的对比吧！

译一个生成递归二叉树HTML动画的测试提示词被广泛用于评估AI模型能力。Gemini 3.5 Flash于Google I/O 2026后在ZenMux平台迅速上线，官方测试显示其使用该提示词生成完整动画仅需约78秒，效果出色。文章推荐用户立即在ZenMux等平台免费体验Gemini 3.5 Flash，并通过该提示词与其他模型进行对比，直观感受其在速度和生成质量上的表现。

AYi@AYi_AInotes · 5月20日70

Damn，Google这是憋了个大的啊，这个必须得玩一下，Android 党有福了(⚆_⚆)📱 #GoogleIO

译哇，Google这次憋了个大招啊，这个必须得玩一下，Android党有福了(⚆_⚆)📱 #GoogleIO

Elon Musk@elonmusk · 5月20日58

Release notes for Grok Build will be published daily

译xAI 宣布将为 Grok Build 每日发布更新说明，此举旨在提升开发透明度。更新内容涵盖一系列重要改进：修复了多项代码问题与潜在崩溃点，优化了用户界面和交互体验；增强了文件读取与处理能力，特别是直接在结果消息中嵌入图像与PDF内容；并引入了技能改进以优化模型表现，防止其产生惰性。这些修复目前已在终端用户界面（TUI）中提供。

歸藏(guizang.ai)@op7418 · 5月20日49

Codex 不语，只是一味重置额度

Rohan Paul@rohanpaul_ai · 5月20日52

Scott Wu, CEO of Cognition, started with math and programming competitions as a kid. In a new interview he shares how that led to building Devin, the AI software engineer designed to handle full engineering workflows.

译Cognition的CEO Scott Wu从小参加数学和编程竞赛。在一次新采访中，他分享了这段经历如何促使他打造Devin——一款旨在处理完整工程工作流的AI软件工程师。

向阳乔木@vista8 · 5月20日61

一个小技巧，Vibe Coding 时先让AI画一个ACSII码布局图，然后再开发。比直接让它开发的交互设计合理些。

Tibo@thsottiaux · 5月20日18

I wonder if the Antigravity team has designers. Couldn't believe my eyes today haha. Very flattering to the Codex team.

译我好奇Antigravity团队有没有设计师。今天真是不敢相信自己的眼睛哈哈。Codex团队受宠若惊了。

歸藏(guizang.ai)@op7418 · 5月20日56

AI Studio 昨晚更新主要有两个： 1. 支持从 Google Docs 和 Google Sheets 里面拉数据。你可以把谷歌表格直接作为开发应用的数据库。 2. 支持在网页里开发安卓应用程序。我试了一下，这个 3.1 Pro 的安卓开发水平确实不如前端。但更吊的是，它在 Studio 里塞了一个安卓模拟器，我去，太离谱了！

译AI Studio此次更新主要包含两项能力升级：一是能够直接从Google Docs和Google Sheets拉取数据，并将其作为应用的后端数据库；二是新增了在网页环境中开发安卓应用程序的功能。实测显示，其内置的3.1 Pro模型在安卓开发场景的表现目前尚不及前端开发。但此次更新的最大亮点是在平台内直接集成了一个安卓模拟器，这一设计极大简化了开发与测试流程。

ginobefun@hongming731 · 5月20日56

#BestBlogs 早报 2026-05-20 ▎ 如果只看一天 AI 新闻，今天这份够用： ▎ Google 把过去一年押在「智能体」上 —— Antigravity CLI 让一个开发者就能并发调度多个子智能体；WebMCP 把浏览器变成 agent 可消费的能力底座。 ▎ Karpathy 重返一线研发选了 Anthropic，比任何一篇技术博客都更像「下一阶段路线背书」。 ▎ 加上 Claude 的自托管沙箱、Spotify 生成式推荐引擎、Simon Willison 半年回顾…… ▎ 信号密度很高的一天，推荐阅读。

译2026年5月20日，AI领域释放密集信号。Google通过Antigravity CLI和WebMCP强化智能体生态；Andrej Karpathy加入Anthropic，被视为对其发展路径的背书。此外，Claude自托管沙箱、Spotify生成式推荐引擎等进展，表明AI正从基础模型竞争转向具体应用、工具和基础设施构建。

StepFun@StepFun_ai · 5月20日68

Welcome, another 3.5 Flash 👋

译Google推出Gemini 3.5 Flash模型，现已向所有用户开放，并集成到其产品与API中。相比Gemini 3.1 Pro，3.5 Flash在几乎所有基准测试中均有提升，编程能力进步尤为显著。该模型性能媲美顶尖模型，但生成速度极快（比其他前沿模型快4倍），在“智能与输出速度”的评估维度中位于顶尖象限，实现了效率与效果的卓越平衡。

歸藏(guizang.ai)@op7418 · 5月20日59

昨天谷歌 I/O 大会在编程上的动作，主要是把 Antigravit 的整个生态整合了。 Gemini 的 CLI 现在也叫 Antigravit CLI，还发布了对应的 SDK。 Antigravit 这个软件本身也迭代到了 2.0 版本，现在更像 Codex，而不像原来的 Cursor。我大概试了一下。用我的 PPT Skills 和一个文档测试了 Gemini 3.5 Flash 和 Antigravit 的配合。效果上肯定是比之前的 Antigravit 好用的，但功能差得有点多。主要有以下几个问题： 1. 权限审批太繁琐：大家都已经开始用自动权限了，它还得一个一个去审批，非常耗时，用起来很不习惯。 2. 细节体验不到位： - 比如其他产品都内置了浏览器（像 Codex 就可以直接预览效果），它连个直接打开的按钮都没有。 - 如果输出了网页，你还得自己去找到输出文件夹，再手动打开对应的网页。整体效果还是比较初期和早期的，但好歹 Gemini 3.5 Flash 的 Agent 能力感觉比较强。如果用来做一些基础的工作还是可以的。在我这个 PPT Skills 的测试结果来看，如果不编写复杂代码，初次生成结果的排版出错比较少。这得益于 Gemini 原生较强的多模态能力，所以它对复杂排版的感知比较好。如果大家要用 PPT Skills 的话，可以试试在 Antigravit 里面用。

译谷歌在I/O大会上整合Antigravit生态，推出Antigravit CLI和SDK，并升级至2.0版本，功能更接近Codex。测试显示，与Gemini 3.5 Flash配合后效果有所提升，但存在权限审批繁琐和细节体验不足的问题，如缺乏内置浏览器支持。Gemini的Agent能力较强，适合基础工作，特别是在PPT Skills测试中，其多模态能力有助于减少排版错误。整体仍处于早期阶段。

Demis Hassabis@demishassabis · 5月20日81

Gemini 3.5 Flash is amazing! - Performs better than 3.1 Pro on coding & agentic tasks - 4x faster than other frontier models - 12x faster in @antigravity - 800 tokens/sec! - Often at less than half the cost And Pro to come… Try it in @antigravity, @GeminiApp & more - enjoy!

译Gemini 3.5 Flash 太棒了！ - 在编码和智能体任务上表现优于 3.1 Pro - 速度比其他前沿模型快 4 倍 - 在 @antigravity 中快 12 倍 - 达到 800 tokens/sec！ - 成本通常不到一半 Pro 版本即将到来… 在 @antigravity、@GeminiApp 等平台体验吧 - 享受吧！

AK@_akhaliq · 5月20日56

Code as Agent Harness

译代码作为智能体运行框架

meng shao@shao__meng · 5月20日56

Google 真的要把宝都押在每年的 I/O 上啊，Gemini 3.1 拉了几个月后，Gemini 3.5 憋到 I/O 终于发布了 Gemini 3.5 Flash 各项评测几乎全面超越 Gemini 3.1 Pro，还更快，更便宜，你就说 Gemini 3.1 有多拉吧，哦，不对，Gemini 3.5 有多强吧 😂

Greg Brockman@gdb · 5月20日42

codex app is very good

译Codex应用非常好用

Replit ⠕@Replit · 5月20日56

We're proud to be named to CNBC's annual Disruptor 50 list of the most innovative private companies for the first time. A decade of work has brought us here, and we're accelerating into the next.

译我们很自豪首次入选CNBC年度最具创新力50强私企榜单。十年耕耘让我们走到今天，我们正加速迈向下一个十年。

Orange AI@oran_ge · 5月20日60

同事说现在 Codex 给的太多太多了，实在用不完于是在 Cola 里加了个 Codex 登录功能这样用户就可以直接用 Codex 套餐驱动 Cola 了双厨狂喜此外，Cola 现在也支持用户填写自己的 key 了目前支持了 GPT 和 Claude

译Cola工具新增了使用OpenAI Codex账号直接登录的功能，允许用户利用已有的Codex套餐来驱动Cola，实现了“双厨狂喜”。此外，Cola现在也开放了填写用户自定义API Key的选项，目前已支持GPT和Claude模型。这显著提升了工具的兼容性与使用灵活性。

Ethan Mollick@emollick · 5月20日59

The gap between what you can do on ChatGPT/Codex and Claude/Code/Cowork is closing, as Anthropic & OpenAI converge on a single experience. Google's experiences are diverging: Studio & Gemini & Antigravity & the other Google AI apps are increasingly different. Which will win?

译ChatGPT/Codex 与 Claude/Code/Cowork 之间的能力差距正在缩小，因为 Anthropic 和 OpenAI 正在趋同于单一的体验。 Google 的体验则在分化：Studio、Gemini、Antigravity 及其他 Google AI 应用正变得越来越不同。谁将胜出？

karminski-牙医@karminski3 · 5月20日61

Gemini-3.5-flash发布! 价格直接翻三倍? Google I/O 开始啦! 今天上来就是模型发布, Gemini-3.5-flash 直接全量上线了. 价格直接从 gemini-3-flash 的每百万 Token 输入/输出 $0.50 / $3 涨到了 $1.5 / $9, 那么性能有提示吗? 我简单测了几个例子, 目前来看体感处于 Genini-3.0-pro 和 Gemini-3.1-Pro 之间 (测试用的是 Thinking level: high) 不过稳定性就差很多了, 3D 渲染的 shader 它怎么都写不对, 我只能手动修了一下才能运行视频中这个火山喷发演示. 从目前 Gemini 系列模型迭代来看, Google 可能更想学 Anthropic, 搞三个档次. flash-lite 会取代之前 flash 的位置. 而 flash 更可能是主打一百万上下文内不设置阶梯定价, 承接 pro 这部分溢出的用户. 而本身编程性能上距离 pro 还有点差距. Pro 自然就是旗舰级别模型了. 不过现在这个定价来看, 可能这次 flash 更多是为了跟这次一起发布的 Antigravity CLI 一起搭配用的. 做 claude code 中 sonnet 模型的生态位置. #geminiflash35 #geminiflash #googleio

译在Google I/O大会上，Gemini-3.5-flash模型正式发布，其定价从上一代的$0.5/$3大幅上涨至$1.5/$9。实测显示，其性能介于Gemini-3.0-Pro与Gemini-3.1-Pro之间，但稳定性有所不足。此举被视为Google借鉴Anthropic的产品分层策略，计划用flash-lite、新flash和Pro形成梯队。其中新flash主打在百万级上下文内不设阶梯定价，以承接Pro模型溢出的用户。此次调价也可能旨在配合新发布的Antigravity CLI工具，定位类似Claude Code中的Sonnet模型，从而构建其开发生态。

Jeff Dean@JeffDean · 5月20日81

Highly capable models that are fast are super important. Our new Gemini 3.5 Flash model is a great mix of fast and capable.

译谷歌发布了新模型Gemini 3.5 Flash，该模型强调速度与性能的出色结合。与Gemini 3.1 Pro相比，3.5 Flash在几乎所有基准测试上表现更优，尤其在编程能力方面有巨大进步。其核心优势在于极快的推理速度，比其他前沿模型快4倍。在智能水平与输出速度的坐标图中，该模型凭借其卓越表现独占右上角优势区域，代表了速度与能力的新标杆。

Claude@claudeai · 5月20日42

Scott Wu (@ScottWu46) runs @cognition, the team behind Devin, an AI software engineer built on Claude. He wants to make building software 10x faster for every engineering team:

译Scott Wu (@ScottWu46) 领导着 @cognition 团队，该团队打造了基于 Claude 的 AI 软件工程师 Devin。他希望为每个工程团队将软件构建速度提升十倍：

Google AI@GoogleAI · 5月20日85

Three years ago, Gemini started by understanding the world. With Gemini 2, models learned to think and reason. Late last year, Gemini 3 brought any idea to life. Today, we’re continuing that journey with our Gemini 3.5 series, starting with Gemini 3.5 Flash, delivering frontier performance for agents and coding.

译三年前，Gemini从理解世界开始。随着Gemini 2，模型学会了思考和推理。去年底，Gemini 3将任何想法变为现实。今天，我们继续这段旅程，推出Gemini 3.5系列，首先发布Gemini 3.5 Flash，为智能体和编程提供前沿性能。

Jeff Dean@JeffDean · 5月20日85

1/ Today at #GoogleIO, we’re releasing Gemini 3.5, our latest family of models combining frontier intelligence with action. We’re starting by releasing 3.5 Flash, which is built to help you execute complex, long-horizon agentic workflows. Gemini 3.5 Flash is our strongest model for coding and agent http://yet.It outscores 3.1 Pro on agentic and coding benchmarks like Terminal-Bench and MCP Atlas, while running 4x faster than other frontier models. Used in Google Antigravity, 3.5 Flash is even further optimized to be up to 12x faster. It’s a powerful engine to deploy sub-agents that collaborate, run high-frequency iterative loops, and solve real-world problems at scale. Some highlights we’re excited about 🔽

译在Google I/O大会上，谷歌正式推出Gemini 3.5系列模型，首个发布的Gemini 3.5 Flash专为执行复杂、长周期的代理工作流而设计。该模型在Terminal-Bench和MCP Atlas等编程与代理基准测试中得分超越3.1 Pro，且运行速度可达其他前沿模型的4倍。若在Google Antigravity环境中使用，速度提升可高达12倍。它能高效部署协同工作的子代理，通过高频迭代循环来解决现实世界的大规模问题。

Google DeepMind@GoogleDeepMind · 5月20日81

Introducing Gemini 3.5: our newest family of models combining frontier intelligence with real-world action. The first release is 3.5 Flash, our strongest model yet for agents and coding 🧵

译推出 Gemini 3.5：我们最新的模型系列，将前沿智能与现实行动相结合。首个发布版本是 3.5 Flash，这是我们迄今为止在智能体和编码方面最强大的模型 🧵

Google DeepMind@GoogleDeepMind · 5月20日43

We’re expanding the @Antigravity ecosystem to help developers shift their energy away from tedious debugging and focus on what actually matters: architecture and design. 🧵

译我们正在扩展 @Antigravity 生态系统，帮助开发者将精力从繁琐的调试中转移出来，专注于真正重要的事情：架构与设计。🧵

Berryxia.AI@berryxia · 5月20日62

老马承认目前Cursor 模型和Claude的差距，也说了𝕏 AI 也不能没有它。是整个生态中必须要有的一部分，得努力追赶。

Elon Musk@elonmusk · 5月19日51

Grok Build … everyday we shuffling

译Grok Build 正在进行高频的日常更新。最新一批修复主要聚焦于提升 Windows 平台兼容性与开发体验，包括改进系统主题渲染、支持德语键盘布局以及将默认终端切换为 PowerShell。同时，优化了多项核心工具链，例如改进搜索工具的查询性能、自动安装 shell 补全、修复插件 MCP 服务器的认证问题，以及调整图像响应方式以提升工具输出效率。此次更新延续了团队快速迭代、持续优化的方向。

Berryxia.AI@berryxia · 5月19日58

. @dangreenheck 老哥这个原版看着还是最牛逼！我的还是太潦草哈哈，我得值40美金不😄

译用户使用Cursor与Claude，仅用两小时就复刻了海外售价149美元的「Three.js热带海洋实时交互系统」。复刻版还原了海洋波浪、风速调节等核心物理交互，并添加了双语切换等额外功能。此举被视为AI编程工具大幅降低技术实现门槛的标志性案例。

Berryxia.AI@berryxia · 5月19日44

我靠！我又行了啊，兄弟们~ 真的是Saas 已死，Agent 称王的时代来了！！我今天花了2小时，就用Cursor + Claude把海外老哥卖149美元的「Three.js热带海洋实时交互系统」直接手搓复刻出来了。 😄 实时交互全都有：海洋波浪动态、风速实时调节、天空环境光变化…… 一整套物理交互。原版我不知道实际交付效果如何，但我这个版本视觉和交互已经还原80%以上，还额外加了中英文双语切换、海洋动植物实时互动、更多细节物理反馈。这个思路还能往天气系统、生态模拟、甚至教育场景里疯狂扩展。以前要花149美元买的东西，现在AI两小时就能自己造出来。感兴趣的朋友点赞破100，我就直接把完整代码开源给大家玩！破不了就算了…… 我消耗的token已经够我心疼的了哈哈。（附上我现在跑起来的实时演示效果图/视频）原系统项目见评论区下👇🏻：

译开发者利用Cursor与Claude组合，仅用两小时就复刻了一套海外售价149美元的Three.js热带海洋实时交互系统，并实现了80%以上的功能还原与额外增强。此案例直观体现了“AI Agent开发工具”对复杂应用开发时间和成本的极致压缩。Cursor Auto模式提供了无需特殊网络的技术便利，使这种高效的开发思路具备广泛扩展至天气、生态、教育等场景的潜力。

AYi@AYi_AInotes · 5月19日75

我真的要吹爆HTML！喵个咪终于可以把Notion给扔了, 现在做项目计划2分钟搞定, 做完直接发给领导! 昨天做2026年度组织与人才盘点, 我给Claude code发了一个提示词, xhigh模式跑了2分多钟, 结果直接出了一个完整的交互式HTML页面🤯 暗色主题,横向时间线, 可折叠风险表,团队头像墙, 整体进度条,所有交互全部到位, 不用接任何polish skill, 打开就能直接发给leader看。以前同样的活, 我用Notion拼模板至少要30-40分钟, 现在2分钟搞定, 效率提升了将近20倍。最厉害的地方是它完全不依赖任何外部库, 就是一个单HTML文件, 所有CSS和JS全部内联, 用SVG画时间线不用Canvas, 代码总量控制在700行以内。它的核心逻辑其实很简单, 你只要给Claude code一个足够精确的提示词, 明确告诉它所有的约束条件, 视觉规格,内容结构,交互规格, 最重要的是加上一个严格的完成判定标准。它会逐项检查每个模块是否完整渲染, 任何一个模块缺失都会自动补全, 不会给你交付半成品。提示词在下方文章里一键复制粘贴即可，把里面的项目名称,周期,里程碑,风险,团队成员换成自己的就行。玛德以后再也不用在Notion里拖拖拽拽拼模板了, AI时代,HTML才是真正的生产力工具!！ #Claude #HTML #AI工具 #生产力

译作者通过向Claude Code提供精确的提示词，仅用2分钟就生成了一个功能完整的交互式HTML项目计划页面。该页面为单文件、无外部依赖，包含暗色主题、时间线、可折叠表格等丰富交互，可直接交付。相比过去在Notion中耗费30-40分钟制作模板，效率提升了近20倍。其核心在于使用明确的提示词来规范视觉、内容结构与交互细节，确保AI一次性交付完整产物。这充分展示了在AI时代，HTML作为轻量、高保真生产力工具的巨大潜力。

Rohan Paul@rohanpaul_ai · 5月19日62

Larry Ellison says AI is now writing Oracle's Code. "We just tell the model what we want the program to do, and then the AI comes up with a step-by-step process to actually do it. We don't write the procedure, we declare our intent"

译Larry Ellison表示AI现在正在为Oracle编写代码。 “我们只需告诉模型我们希望程序做什么，然后AI就会提出一个逐步执行的实际流程。我们不编写过程，我们只声明意图。”

Berryxia.AI@berryxia · 5月19日72

我靠！不是，我是最后一个知道的吗？？？你们的嘴可真严啊，Cursor选择Auto模式下。居然不需要魔法网络就可以使用啊！

Alibaba Cloud@alibaba_cloud · 5月19日70

🎨 Introducing Design Desk by QoderWork. An infinite-canvas AI workspace that turns language into running code. 💡 Describe what you want in plain language — get a runnable React + Vite project on an infinite canvas. Designers iterate, devs ship the same files. Seamless handover. ⏬Download QoderWork Now https://www.qoderwork.ai #AI #Qoder #QoderWork #DesignDesk

译🎨 介绍QoderWork的Design Desk。一个将语言转化为可运行代码的无限画布AI工作区。 💡 用自然语言描述你的需求——即可在无限画布上获得可运行的React + Vite项目。设计师迭代，开发者交付相同文件。无缝交接。 ⏬立即下载QoderWork https://www.qoderwork.ai #AI #Qoder #QoderWork #DesignDesk

Yuchen Jin@Yuchenj_UW · 5月19日51

Cursor’s Composer 2.5 stirred up the coding war. Now we have 3 labs capable of training strong coding models: Anthropic, OpenAI, SpaceX (+Cursor). Wouldn’t be surprised if Google drops a strong coding model tomorrow at I/O. This is the chatbot war all over again: OpenAI leads, then the market gets divided by other AI labs. Same thing is happening to coding models.

译Cursor的Composer 2.5搅动了编程领域的竞争。现在我们有三家实验室能够训练强大的编程模型：Anthropic、OpenAI、SpaceX（+Cursor）。如果Google明天在I/O大会上发布一款强大的编程模型，我也不会感到惊讶。这就像聊天机器人战争的重演：OpenAI领先，然后市场被其他AI实验室瓜分。同样的事情正在编程模型领域发生。

小互@xiaohu · 5月19日70

性能和 Opus 相当，价格却便宜了 30 倍？ Cursor 发布自研编码模型Composer 2.5 评分上：Composer 2.5 全部进入 Opus 4.7 的同一区间，最大差距不到 1 分。价格上：Opus 4.7 大约每百万输入 token 15 美元、输出 75 美元，Composer 2.5 输入便宜 10 倍、输出便宜 30 倍。 Cursor 称 Composer 2.5 相比 Composer 2 在智能和行为表现上都有明显提升，尤其是长时间任务、复杂指令遵循、协作顺滑度。长任务能在跨越数十万 token 的 rollout 中持续推进，不容易跑偏复杂指令遵循更可靠，沟通风格和投入级别校准也更稳，干活的力度调得更合适

译Cursor发布自研编码模型Composer 2.5，其性能与Opus 4.7相当，但在成本上具有显著优势。价格方面，Composer 2.5的输入成本比Opus 4.7低10倍，输出成本低约30倍。技术层面，该模型在智能和行为表现上较前代有明显提升，尤其擅长处理长时间、大上下文的复杂任务，指令遵循的可靠性与协作流畅度也得到增强。

Berryxia.AI@berryxia · 5月19日76

兄弟们，Cursor直接把Composer拉到2.5了。他们这次喊得特别狠：这是目前最强大的模型。（自己说的哈）更聪明、长任务持续能力更强、执行复杂指令也更靠谱。最离谱的是，它在同等能力下能做到10倍效率。我看完他们的完整发布后发现，这波升级的底层其实是三件事：训练规模直接拉大、RL环境做得更复杂、还加了文本反馈机制，让模型能在几十万token的长rollout里快速学到正确归因。更重要的是，Composer 2.5的底座和Moonshot的Kimi K2.5是同一套开源架构。而Cursor已经和SpaceXAI一起开始训一个更大模型，用10倍算力，依托Colossus 2百万H100等效规模，目标是下一次真正的大跳跃。以前我们用AI写代码还总担心它半途崩、指令执行飘、长任务忘掉上下文。现在Cursor直接把这个问题往死里卷。下周他们还把这个模型的包含用量直接翻倍。完整介绍在这里：https://cursor.com/blog/composer-2-5

译Cursor正式推出Composer 2.5模型，宣称其为当前最强大的AI模型。该模型在智能性、长任务持续执行及复杂指令遵循等方面均有显著提升，并声称在同等能力下效率提升10倍。此次升级主要基于扩大训练规模、构建更复杂的强化学习环境以及引入文本反馈机制。值得注意的是，Composer 2.5的底层架构与Moonshot的Kimi K2.5同源。同时，Cursor正与SpaceXAI合作，计划用十倍算力训练下一代更大模型。未来一周内，该模型的包含用量将翻倍。