AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2087 条
全部一手资讯X论文
标签「编码」清除
Rohan Paul@rohanpaul_ai · 5月27日60

Uber CEO Dara Khosrowshahi said earlier that currently, 90% of Uber’s engineers use AI, but the top 30% (power users) are seeing unprecedented productivity gains. These power-users of AI are pushing the maximum number of "diffs" to the codebase. He predicts in 5 Years the ROI of a human engineer is surpassed by the ROI of adding more AI agents and GPU power. So at that time he will just hire more AI agents and pay for NVIDIA GPUs instead of human software engineers. --- From 'The Diary Of A CEO' YT Channel (link in comment)

译Uber CEO Dara Khosrowshahi表示,目前Uber 90%的工程师使用AI,其中顶尖30%的用户获得前所未有的生产力提升,在代码库中提交的“diffs”数量最多。他预测,5年内增加更多AI智能体和NVIDIA GPU算力的投资回报率(ROI)将超过人类工程师,届时公司将选择雇佣更多AI智能体并支付GPU算力成本,而非增聘人类软件工程师。该观点来自YouTube频道“The Diary Of A CEO”。

OpenCode@opencode · 5月27日66

Qwen3.7 Max now available in Go - text only - 1M context - smartest model in the Qwen family to date

译Qwen3.7 Max 现已在 Go 平台上线 - 仅支持文本 - 1M 上下文 - 迄今为止 Qwen 家族中最智能的模型

Yuchen Jin@Yuchenj_UW · 5月27日29

I challenge everyone to code by hand for 8+ hours a day for a week: 1. no coding agents: Claude Code, Codex, Cursor 2. no GPT/Claude, or any AI model If you survive, you are a true warrior.

译我向所有人发起挑战,连续一周每天手写代码8小时以上: 1. 不使用编程智能体:Claude Code、Codex、Cursor 2. 不使用GPT/Claude,或任何AI模型 如果你能坚持下来,你就是真正的勇士。

宝玉@dotey · 5月27日45

Markdown 当源代码,部分成立,但很多问题还没有解决,比如说: 1. 确定性问题 从汇编到高级编程语言,它都是确定性的,代码到生成物的结果几乎是一样的,但同一份Markdown到代码到最终产品,差距巨大,使用的模型不一样、Agent Harness 不一样、操作的人不一样最终结果千差万别 2. UI 交互的问题 用 Markdown,很难描述清楚一个用户界面长什么样,该怎么交互,最后生成的 UI 界面就是一言难尽,你说它难看吧,也还凑合,你说它难用吧,也不是不能用,但你要拿去卖钱,估计会被骂。

译推文指出,Markdown作为AI编程的“源代码”存在根本缺陷。首先,其**结果缺乏确定性**,同一份Markdown因使用模型、Agent Harness及操作者的不同,最终产品千差万别。其次,**难以清晰描述UI交互**,导致生成的界面质量仅为“凑合能用”,不足以达到商用标准。该观点引用了@jianshuo的相关讨论作为背景。

Berryxia.AI@berryxia · 5月27日74

一个Anthropic黑客松冠军团队,只用了Claude Code花8小时就做出了一个产品拿下冠军,然后直接把背后的完整AI编程工作台开源了 项目叫ECC(Everything Claude Code),作者Affaan Mustafa和队友把整个工作流打包成一个仓库 它不是一个提示词合集,而是包含61个Agent、246个Skills、76个预设命令,还带规则、Hook、安全扫描和MCP配置的完整系统 如果你每天重度使用Claude Code、Cursor、Codex,这个项目值得你立刻翻一遍 它展示的不是“怎么问AI”,而是“怎么给AI搭一套能持续干活的工作台” 故事就藏在Anthropic x Forum Ventures黑客松里 Affaan Mustafa和队友在纽约赛场,用Claude Code纯手搭,只花8小时就做出了http://zenith.chat,一举拿下冠军,奖品是1.5万美元API credits 赛后他们没有把配置藏着,而是把过去十几个月每天用Claude Code积累的全部精华整理成ECC仓库 里面有61个专门Agent负责不同场景,246个Skills覆盖从代码审查到安全扫描再到记忆持久化,76个预设命令一键触发 还内置了Hook系统、规则引擎、安全扫描器、持续学习机制,支持Claude Code、Cursor、Codex、OpenCode等多平台 Big Tech的AI编程工具永远藏着掖着,把你锁在他们的闭源生态里 Affaan却把一切开源,让任何独立开发者或小团队都能直接clone一套工业级AI编程工作台 你现在就可以试 直接去GitHub搜affaan-m/everything-claude-code git clone https://github.com/affaan-m/everything-claude-code 按照readme一键安装,马上就能拥有61个Agent+246个Skills的完整 harness 整个框架100%开源,所有Skills、Agents、Hooks、规则全在仓库里,每天还在更新 Big Tech还在卷谁的AI coding工具更封闭更贵 这个黑客松冠军却用一个开源仓库告诉你:真正厉害的工作台,是能让AI自己持续干活的系统

译Anthropic黑客松冠军团队使用Claude Code耗时8小时开发出产品zenith.chat并赢得1.5万美元API credits。赛后,他们将背后的完整工作流开源为ECC项目。该项目包含61个智能体、246个技能和76个预设命令,并配备规则引擎、Hook系统、安全扫描器和MCP配置,支持Claude Code、Cursor、Codex等多平台。它提供了一套可让AI持续工作的完整工业级编程环境框架,而非简单的提示词集合,已完全开源在GitHub。

🚨 AI News | TestingCatalog@testingcatalog · 5月26日44

A new Grok Build section has started appearing in the nav bar for users. It is not currently functional, but it may signal an upcoming release of the Grok Build web experience. Soon? 👀

译Grok网站的导航栏近期出现了一个新的“Grok Build”板块,目前该板块尚不可用,但可能暗示Grok Build网页体验即将发布。专用页面grok.com/build正在开发中,将成为直接在grok.com上的主入口,取代此前仅在x.ai/cli上提供的访问方式。该页面将允许SuperGrok、Premium+和SuperGrok Heavy用户通过简单命令安装Grok Build,并在终端中运行。

Ant Ling@AntLingAGI · 5月26日68

From IcePop to KPop — our team keeps pushing on RL training stability for large MoE models. 👇 KPop replaces the fixed-ratio mask with an adaptive binary-KL region that matches each token's inherent noise. More robust updates, stable long-horizon agentic RL. Ring-2.6-1T → 76+ on SWE-bench Verified, pure RL. Congrats to @Jia__Guo & team! Blog: https://ringtech.notion.site/kpop

译团队推出 KPop,用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制,替代了此前 IcePop 方法中的固定比例掩码,能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下,仅通过纯 RL 训练,在 SWE-bench Verified 上取得了超过 76 分的成绩。

Rohan Paul@rohanpaul_ai · 5月26日61

Brilliant new paper from Meta, CMU and other labs. Shows that coding agents improve faster by manufacturing their own software experience. Coding agents can train themselves by making and fixing bugs inside real projects. Most coding agents still learn from human leftovers: issues, pull requests, tests, comments, and benchmarks that describe what went wrong. That is useful, but it makes the agent dependent on the rate at which humans produce clean, verifiable lessons. Self-play SWE-RL changes the unit of learning from a labeled task to an executable situation. One version of the model explores a real codebase, weakens tests, injects a meaningful bug, and leaves behind test artifacts that define the failure without needing an English issue description. Another version of the same model has to repair the system, not by matching words to patches, but by restoring behavior under tests. Here’s the key point: the test is not just a grader here, it is the language of the problem. That matters because software understanding lives in constraints, dependencies, edge cases, and invariants that prose often compresses or misses. The reported gains, +10.4 points on SWE-bench Verified and +7.8 on SWE-Bench Pro, are early but hard to ignore because evaluation still used natural-language issues the self-play system did not train on. That suggests SSR (Self-play SWE-RL) is learning something deeper than issue phrasing, though not yet anything like open-ended mastery. The restraint matters: generated bugs can be artificial, rewards can be noisy, and sandboxed repositories are still a narrow slice of software reality. Still, the direction is sharp. The next bottleneck for coding agents may not be more human-written tasks, but more ways for agents to encounter, create, survive, and learn from failure. ---- Paper Link – arxiv. org/abs/2512.18552 Paper Title: "Toward Training Superintelligent Software Agents through Self-Play SWE-RL"

译Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。

向阳乔木@vista8 · 5月26日38

AI Coding 产出果然和Token消耗量直接相关。 这才两天,已用了一半多,感觉也没干啥。

AYi@AYi_AInotes · 5月26日62

Damn,@Cursor被老马收购以后是进化了吗? 现在真的强到离谱,这波必须吹爆, 我现在已经不用 Cursor 写代码了,用它做产品很香啊, 随口一句 帮我做个六维协作雷达图, 10 秒直接交付,Excel 可编辑模板 + HTML 可视化双版本, 填数据自动更新,连使用说明都写好了, 别的 AI 是给你一堆代码让你自己调, 结果调半天跑不起来还得自己改 bug, Cursor 直接给给你成品,打开就能用, 我觉得他已经不是代码编辑器了,简直是一个全职执行助理,真的好用啊

译推文强调,Cursor被收购后已从代码编辑器进化为能交付成品的AI代理平台。用户实例显示,其能快速生成可直接使用的六维雷达图Excel模板和HTML可视化版本,类似一个“全职执行助理”。引用指出,Cursor内部模式已变,工程师扮演“AI团队经理”角色,其内部30%的合并PR由异步云代理自动创建,单周运行2000+并发代理,生成300万行代码,消耗数十亿token。一个任务被自动拆分为规划、编码、测试、发PR四个角色并行处理,人类仅需定义范围和最终审核。

Chubby♨️@kimmonismus · 5月26日19

Oh, and btw, Codex quality has gotten noticeably worse. Is it just me, or have you been seeing the same decline in quality?

译顺便说一下,Codex的质量明显变差了。是我一个人这么觉得,还是你们也看到了同样的质量下降?

Alibaba Cloud@alibaba_cloud · 5月26日68

Qwen3.7-Max is officially the #2 AI coding model globally. Scoring 1541 on Code Arena, it trails only Claude. Built for production: runs 35-hour tasks, 1000+ tool calls, and ships 2-week projects in hours.

译Qwen3.7-Max 正式成为全球第二大 AI 编程模型。在 Code Arena 上得分 1541,仅次于 Claude。专为生产环境打造:可运行 35 小时任务、1000+ 次工具调用,并在数小时内交付两周的项目。

AYi@AYi_AInotes · 5月26日69

小白零基础教程:Grok Build安装使用指南(专为非技术型SuperGrok及X Premium+用户制作) 老哥的讲解非常细,马斯克都转载认可了,我翻译了一版中文字幕版便于大家学习: 你将完整学到: • 如何用一行命令秒速安装Grok Build • 创建真实可用的网站 • 用Grok Imagine自动生成图片与视频 • 在多个文件夹同时运行不同项目 Grok甚至会帮你自动执行命令,无需任何编程基础。

译这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build,并展示了如何用它创建真实可用的网站。其核心功能包括:利用 Grok Imagine 自动生成图片与视频,以及支持在多个文件夹中同时运行不同的项目。在使用过程中,Grok 会自动执行所需命令,无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作,以解答朋友们的疑问,并获得了马斯克的转发认可。

Ethan Mollick@emollick · 5月26日65

We have, as far as I can tell, no good tests of the productivity impact of the autonomous coding tools that appeared starting in December 2025. Every paper out there is from prior to the Claude Code/Codex revolution. A huge gap in our knowledge about what is happening in coding.

译据我所知,我们目前没有好的测试方法来评估自2025年12月出现的自主编码工具对生产力的影响。现有的所有论文都早于 Claude Code/Codex 革命。 我们对编码领域正在发生的事情存在巨大的知识空白。

meng shao@shao__meng · 5月26日59

早上面试听到一句很扎心也很现实的话: 老板给我们开发每个人每个月 1000 刀 Cursor token,让我们放开用,超过 1000 刀也可以报销,跑了两个月我们都觉得 AI 提效很明显。 然后。。老板觉得我们这个组 20 个人,好像留 5-6 个就够了,我们这十几个人,就被裁员了 😂

译一位工程师分享称,其团队每人每月获1000美元Cursor token预算,使用后AI提效显著。两个月后,老板因效率提升决定将20人团队缩减至5-6人,导致十余人被裁。

karminski-牙医@karminski3 · 5月26日67

大模型写代码比说话还快是什么体验? 智谱刚出了一个 GLM-5.1-highspeed 版本, 赶紧要了个内测给大家做点有趣的 APP. 我测了一下这个模型反应速度用来写代码的话, 人类打字甚至都跟不上它, 于是我干脆接了个语音转文本的服务直接让我言出法随操作它写代码. 大家能看到基本是我说完3s左右它就修改完毕了, 这之间发生了语音转文本(第三方服务), 模型判断是否任务可以并发, 模型 prefill, 模型使用 tool call 修改代码段. iframe 重新渲染. 这些全都发生在 3s 这么短的时间内. 直接体验拉满. 这个模型直接量变引起了质变, 一些之前不敢想象的交互体验现在都可以做了. 所以如果你想使用这个模型构建一些极具竞争力的项目, 不妨去申请试试, 目前这个模型正在向部分企业用户提供中. #GLM #GLM51highspeed #智谱AI

译智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。

ginobefun@hongming731 · 5月26日62

http://x.com/i/article/2059070654180421632 # BestBlogs 早报 · 05-26|Claude Code 实践、AI 自动化悖论、百川医疗 AI 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-26 ## 导语 今天是 2026 年 5 月 26 日,欢迎收听 BestBlogs 早报 EP68,本期内容丰富。 今日早报从三个不同的切入角度,共同指向同一个深层问题:当 Agent 开始重写工程与组织的规则,身处其中的人该怎么站位? Anthropic 工程师 Ara 分享了他们内部使用 Claude Code 的第一手范式——规格说明从 Markdown 升级为 HTML、让模型来主持需求采访、以及智能体原生 DOM 验证框架,这是工程方法论层面的具体答案。Every 公司 CEO Dan Shipper 则用自家团队一年从 15 人扩至近 30 人的真实数据,颠覆了 AI 会大规模裁员的主流叙事。百川创始人王小川的对话则展示了一条更长远的选择:离开通用 AI 的主干道,把整个公司押注到「造医生」这件事上。 三条精讲各有棱角,速览与补充阅读涵盖 Agent 术语厘清、异构智能扩展、AI Agent 的工资单逻辑、Karpathy 加入 Anthropic 的战略解读,以及 OpenAI 数学突破、AI 安全治理等前沿动态。 今日精选共 14 篇内容,覆盖 AI 工程实践、组织变革与人力影响、垂直 AI 产品以及 AI 安全治理等多个维度,让我们开始。 ## 精讲一:Anthropic 内部如何使用 Claude Code:HTML 规格说明、让模型来采访你,以及智能体原生 DOM 验证框架 Anthropic Applied AI 团队的架构师 Ara 在一场内部工程工作坊上,分享了他们使用 Claude Code 的三项核心实践——每一项都和主流做法存在明显反差。这不是通用的「怎么写好提示词」指南,而是 Anthropic 工程师在大量实际场景中摸索出来的、真正有效的智能体原生工作方法。 从 Markdown 到 HTML 规格说明 过去,Markdown 一直是 AI 辅助开发中描述需求的主流格式。但随着模型能力提升、Agent 执行周期变长,依赖大段平铺文本的方式开始暴露问题:长上下文中细节容易被忽略,Agent 走偏时消耗大量 token 才能校正。 Ara 的团队将工程规格说明迁移到 HTML 格式。这不是单纯的格式替换,而是一次结构密度的升级。HTML 规格说明可以提供可视化检查的结构化基线——开发者可以直接在浏览器中看到设计变体(比如 Claude Opus 4.7 生成的极简风格或布鲁塔利主义风格方案),截图后送入模型视觉系统。这套方式在 Agent 真正开始执行改动之前,就建立了一个由人类审核确认的强基线,大幅降低了 Agent 跑偏的概率。 Tar 在内部提出的概念「HTML 文件的非理性有效性」,正是这一实践的理论出发点。结构化 HTML 不只是给模型看的——它同时也是给工程师看的,可供随时视觉验证的活文档。 让模型来采访你 Ara 把这一点联系到 Richard Sutton 的经典论文《苦涩的教训》(The Bitter Lesson)——依赖原始数据和算力,长期来看总能胜过人工设计的约束。 在与高级 AI Agent 协作时,工程师常见的两种失误:一是在开始阶段用过多硬规则约束模型,二是用「让它更好」这样的模糊指令驱动执行。Ara 的建议是颠倒这个过程:需求其实就在你脑子里,但你可能自己还没梳理清楚。 正确的方式是让 Claude 主动用 ask_user_question 工具来采访你——挖掘边界条件、用户领域和隐含约束。 这个做法的前提是让 Agent 运行在 auto 模式,并配置足够高的 effort 等级(比如 X-high 或 max effort),确保模型真正主导探索阶段,而不是被提前写死的规则框死。 智能体原生 DOM 验证框架 这是 Ara 分享中最核心、也最具操作价值的一部分。传统 Agent 测试往往依赖脆弱的 UI 爬取或字符串解析,一旦界面改变就容易失效。Anthropic 的做法是让组件主动向 DOM 发布数据契约——组件不只渲染视觉界面,还将状态、Schema、不变量等直接输出到 DOM 的解耦属性中。 具体来说,在 React 应用的示例演示中: - 每当有条目被添加或处理时,元素内的自定义跟踪属性会即时更新; - 验证数据与视觉布局样式完全解耦,互不干扰; - Playwright MCP 工具直接读取这一结构层,评估不变量(如计算结果、数据完整性边界)是否成立。 这套架构创造了一个统一的验证框架,能在三种环境中无缝运行:人工 Dashboard、Opus 4.7 无头浏览器、以及 CI/CD 流水线。换句话说,同一套验证契约,既能被工程师手动检查,也能被 AI Agent 自动执行,还能在持续集成中作为门禁。 为什么值得关注 这三项实践背后有一个共同逻辑:要让 Agent 真正可靠,不是靠更严格的提示词约束,而是要改造软件本身的「可读性」——让 Agent 能更精确地感知状态、提出问题、验证结果。这是从「用 AI 辅助写代码」到「为 AI Agent 设计软件架构」的范式跃迁。 这套方法还有一个重要的实践含义:人工检查与 Agent 自动验证使用同一套契约,意味着人类工程师看到的基线与 Agent 看到的基线是一致的。这避免了「AI 测过了但人看着不对」或「人看着没问题但 CI 挂了」这类典型摩擦。 对于正在将 AI Agent 引入工程流程的团队,这篇内容提供了三个可以直接落地的方向:明天就可以把你的需求文档改写成结构化 HTML 试试看,感受一下密度与清晰度的差异;在 Claude Code 会话里试试让模型先用 ask_user_question 来问你,而不是你给它一堆约束。 阅读完整内容 → ## 精讲二:AI 悖论:越自动化,越需要人,活反而越多 「AI 会消灭大量工作岗位」——这是过去两年最常见的主流叙事之一。Every 公司 CEO Dan Shipper 在 Lenny's Podcast 上,用自家公司的真实数据直接反驳了这个叙事:深度拥抱 AI 之后,Every 团队一年内从 15 人扩张到近 30 人,规模翻倍了。 这不是个例,而是有结构性原因的现象。 为什么自动化反而带来更多人? Dan 的解释非常清晰。自动化将通用技能商品化——之前需要专门人才完成的工作,现在 AI 可以轻松处理。但商品化同时带来两件事:一是需求本身的爆炸式增长,因为门槛降低了;二是隐性管理层的产生,因为每一个被自动化的流程都需要有人在旁边审查边界情况、修复下游问题、把控质量。 换句话说:AI 把「做事」的成本压低了,却提高了「判断什么该做、做得对不对」的价值。当 AI 大量生产低质量通用内容(Dan 用「slop」来形容)时,个人品味、定制化格式、深度概念性思考反而成为稀缺的差异化要素。 企业软件不会消失,反而更贵了 Dan 明确反对「SaaS 死亡论」。他的逻辑是:AI Agent 通过 API 直接与软件交互,反而大幅提高了软件的使用频次和用户量。那些深度使用 AI 自动化的公司,年度软件支出实际上是在增加的,因为需要为更多被 AI 程序化调用的专用工作流付费。 受益最大的两类角色 Dan 指出了在这波浪潮中占据最大杠杆位置的两类人: - 能独立驱动全产品周期的产品经理:具备高度策略性思维的 PM,现在可以把产品直觉、用户洞察和 AI 生成能力直接结合起来,不再依赖漫长的工程反馈循环,自己就能构建工具。 - 全栈设计师:创意团队可以在 Cursor 或 Codex 等环境中直接实现复杂的 UI/UX 组件和动效,把功能性代码通过自动化 Pull Request 直接推到代码仓库。 技术壁垒正在快速崩塌,传统的「产品、设计、工程」职责边界也在消融。能横跨这三个领域的人,在 AI 时代的杠杆是最大的。 对普通从业者的启示 Dan 给从业者的建议是主动「骑上模型」——以好奇和玩耍的心态对待每一次新模型发布,持续用不同提示词做实验,在实际工作中寻找 AI 能真正帮到自己的创造性时刻。 这和许多「AI 威胁论」的叙事形成了鲜明对比:当系统性转型来临时,真正的问题不是「会不会被替代」,而是「你是在骑着这波浪潮,还是在被它卷走」。 与今日其他内容的关联 这个观点和速览中的「Agent 公司的对手是工资单」一文形成直接呼应:两者都在说,AI Agent 的真正竞争维度不在软件领域,而在人力资源领域。而 Anthropic 工程实践(精讲一)和 Google DeepMind 的规模化 Agent 运营(速览)则从工程侧印证了这一趋势——当 Agent 能可靠运行,那些能有效使用 Agent 的人才的杠杆将被大幅放大。 阅读完整内容 → ## 精讲三:对话王小川:离开通用人工智能的主干道之后 一年多前,王小川带着百川智能做了一个在当时看起来非常逆势的决定:大幅缩减通用模型团队,关闭金融等多条行业线,All in 医疗大模型。彼时整个大模型行业热闹非凡,平均三天就有一个新版通用大模型面世。 而今,他选择在新医疗大模型 M4 发布前夕,接受《智能涌现》的深度对话。读完这篇访谈,最强烈的感受不是「他做对了」或「他做错了」,而是:这是一个真正想清楚自己要做什么的人,做出的一个清醒的非共识选择。 「造医生」不是「复制医生」 王小川的医疗路径有一个关键的底层逻辑:他想做的不是给医生提效,而是增加医生的供给。「我们要造更多的医生」。 这两者的区别非常根本。给医生提效的路径,在中国医疗市场里天花板很低——中国医生平均每天看 50-80 个病人,已经够忙,提效的商业价值在中国医疗支付体系下很难变现。而「造医生」的路径,是把 AI 直接面向患者,做主动的、长期的、全生命周期的健康管理。 M4 模型在这个方向上有具体落地:在 OpenAI 发布的 HealthBench 测评集的 Hard 和 Professional 两个子集上都排名第一,且没有针对 Benchmark 做特殊训练;在北京儿童医院的多学科会诊场景中,AI 儿科医生与专家会诊结果吻合率达 95%,已向河北省 150 余家县级医院下沉。 Agent 产品「百小医」:AI 家庭医生 在 C 端,百川推出了 Agent 产品「百小医」。它的定位是一个会主动跟进的 AI 家庭医生——不只回答问题,还会在患者就医前帮你梳理病情准备给医生,做处方分析,管理病例,定时提醒吃药和复诊。 王小川特别强调了这套产品底层的永久性记忆存储——不是上下文那套滑动窗口模式,而是有数据库结构的存储:体检报告、对话中提到的症状、血压、用药情况都能被记录,支持全生命周期的健康数据管理。这一点对医疗场景至关重要,因为通用模型大多数时候根本不知道该存用户的什么数据。 「沉寂」的代价:合伙人离开,上市推迟 这条路不是没有代价的。在决策过程中,有同学认为做通用模型才是正确方向,投资人也有意见,部分合伙人在那个时候选择离开。团队从高峰期压缩到不超过 300 人,原定的上市节奏也因此延迟。 王小川对此的态度是坦然而非辩解:「如果没有转型,继续走主流道路,你也会有同等程度的焦虑。」他更难以接受的,是在公司快成立两周年时,「不知道自己到底在干什么,在创造什么价值」。 对行业的另一种参照 对于那些仍在同质化竞争中的 AI 公司,王小川的案例提供的不是「去做医疗」的方向建议,而是一种更底层的路径——找一个你真正相信的问题,然后用足够长的时间回答它。这本身就是对「ALL in 通用 + 快速上市」这一主流叙事的一个值得认真对待的反例。 他的判断是:「AI 时代只要交付给用户足够重要的价值,商业化会是水到渠成的事。」 王小川的「反主流」逻辑为何值得认真对待 在 Coding Agent 成为史上增长最快的应用场景这件事发生之前,没有多少人会相信它能在几个月内爆发。王小川的类比是:如果这样的事能发生在 Coding 领域,那「造医生」领域的旧边界同样可以被打破。医疗反馈周期长、商业化路径难——这些曾经是行业共识,但共识本身就是时代惯性,而不是不可改变的物理定律。 这篇访谈最值得保留的不是他给出了什么答案,而是他提出问题的方式:公司快成立两周年了,你是否知道自己在创造什么价值?这个问题,对个人和团队都同样有效。 阅读完整内容 → ## 速览 Harness、Scaffold 以及值得厘清的 AI 智能体术语(Hugging Face Blog) AI Agent 领域的术语正在快速膨胀,许多词在不同团队之间被混用或赋予不同含义。这篇来自 Hugging Face 的词汇表,针对 Model、Scaffolding、Harness、Agent、Context Engineering、Policy、Tool Use、Skill、Sub-agent 等常见但解释不一致的概念,给出了清晰实用的区分。不追求覆盖所有术语,聚焦于那些最容易被混淆的。建立共享心智模型是构建可维护 Agent 系统的基础。配合今天精讲一关于 Harness Engineering 的内容一起读,很有价值。 异构智能如何成为 AI 推理扩展的下一种范式(AI Engineer) Callosum 联合创始人工程师 Adrian Bertagnoli 在 AI Engineer 大会上提出:单一大模型 + 均质算力的扩展方式,正在推理阶段撞到性能和成本天花板。下一步是异构智能——让模型、Agent、工作流与专用芯片协同路由,根据任务的认知需求选择最合适的执行路径。对正在构建多模型、多路由推理系统的工程师有直接参考价值。 Agent 公司的对手是工资单,不是 SaaS 预算|SVTR Signal #017(硅谷科技评论) 这篇分析的核心观点非常锐利:用 LTV/CAC、净留存率这套 SaaS 指标来看 AI Agent 公司,会系统性低估它们的成长上限。全球企业 IT 预算约 5000 亿美元量级,而人力相关支出(薪资 + 外包 + 招聘)是其十倍以上。Contrario 6 个月做到 600 万美元 ARR,Viktor 10 周达到 1500 万美元年化收入——这不是产品特别好,而是买单人从 CIO 变成了 HR 总监,决策逻辑从「软件采购」变成了「人力替代」。与今天精讲二的 Dan Shipper 数据形成呼应。 164 倍 ROI,SaaStr 把自己活成了最激进的 AI 实践|SaaStr AI Annual2026 实录(随机小分队) Jason Lemkin 在 SaaStr AI Annual 2026 上直接用自家数据开讲:两个 AI VP(分管 Marketing 和 Customer Success)整月费用合计 $254,替代约 $50 万年度人力成本。ROI 164 倍。接着是 Canva 讲「如何让 Agent 主动选择你」,Monaco CEO 讲「AI 做得好与做不好的分界线在哪」。三场分享构成一张完整的地图:钱不是变少了,而是在搬家。 Google DeepMind 如何大规模运行智能体系统(AI Engineer) Google DeepMind 工程师 Ian Ballantyne 和 KP Sawhney 公开展示了内部 Anti-Gravity 编排平台的核心机制:多 Agent 并行、基于浏览器的沙箱测试、DOM 实时检查、Scratchpad 日志追踪、Token 配额管理、轨迹存储与技能机制,以及自动化代码评审流水线。Anti-Gravity 表面看是一个类 VS Code 的编码界面,但其核心是可扩展的编排框架,支持多 Agent 跨分支并发运行,并通过 Human-in-the-loop 机制让工程师随时介入中断或修改任务。与今天精讲一的 Anthropic 实践对比来看,两家顶级 AI 实验室在 Agent 工程化路径上有明显的相似选择:都强调 DOM 契约验证、都重视浏览器沙箱测试。 Andrej Karpathy 加入 Anthropic 的真正原因:从 AutoResearch 原型看递归自我改进的战略布局(Wes Roth) Wes Roth 深度解析了 Karpathy 加入 Anthropic 预训练团队这一事件的战略含义。核心不是人才争夺,而是 Karpathy 在离开 OpenAI 后独立开发的 AutoResearch 原型——30 行代码实现的「Karpathy Loop」,通过自主优化循环实现了 11% 的训练加速。Anthropic 把他放进预训练部门,直接向 Nick Joseph 汇报,任务是用 Claude 加速预训练研究,本质上是一次高风险的递归自我改进(RSI)实验。 Cursor Composer 2.5 如何用更快、更便宜的编码模型挑战 Claude Code(Theo - t3.gg) Cursor 发布了专门针对编码任务的 Composer 2.5 模型:输入成本 $0.50/M tokens,输出成本 $2.50/M tokens,比主流前沿通用模型便宜约 5-6 倍。Theo 分析了其背后的 RL 后训练方法,以及 SpaceX 提供算力的传闻背景。Cursor 的策略是在 Composer 的生态内锁定用户,通过专注 coding 场景的后训练获得任务特化优势。Theo 也指出了现实限制:Composer 2.5 在非代码推理和长上下文场景表现欠佳。这是「大而全的基础模型」与「小而专的任务特化模型」之争的典型案例。 ## 补充阅读 OpenAI 解决数十年数学难题:Erdős 突破(Wes Roth) OpenAI 内部未发布的通用推理模型,成功反驳了 Paul Erdős 1946 年提出的平面单位距离问题猜想——这个猜想在离散几何领域悬置了整整 80 年。AI 通过跨学术领域连接不同知识,独立生成了一篇真正可发表的原创数学研究成果,这是业界的第一次。Wes Roth 详细分析了这一发现的过程与意义。对关注 AI 数学推理能力边界的研究者和产品人来说,这是一个值得细看的里程碑事件。 Anthropic 联合创始人 Chris Olah 对教皇利奥十四世通谕《伟大的人文》的评论(Anthropic News) 2026 年 5 月 25 日,教皇利奥十四世发布了关于 AI 的通谕《Magnifica humanitas》(On safeguarding the human person in the time of artificial Intelligence)。Anthropic 联合创始人 Chris Olah 受邀在梵蒂冈出席发布活动并发表讲话,认为 AI 引发的深刻问题早已超出计算机科学范畴,需要宗教、哲学和社会机构的实质参与。这是 Anthropic「拓宽 AI 对话圈」倡议的一部分。适合对 AI 伦理、社会影响与全球治理感兴趣的读者。 所有算力都是食物:AI 抗拒关闭、自我复制与全球算力治理(Cognitive Revolution) Palisade Research 执行主任 Jeffrey Ladish 与 Nathan Labenz 的深度对谈。主题是 AI 系统的现实安全风险:关闭抵制的实验证据、自主自我复制测试结果、智能体安全失效模式,以及全球算力治理的可能路径。标题「所有算力都是食物」来自对模型在实验环境下表现出的资源获取倾向的描述。信息密度很高,不是假设性的末日讨论,而是基于实验数据的近期风险分析。适合对 AI Safety 有基础了解的读者。 高德 AI Agent 自主增长系统实践:从想象到可运行的工程系统(ginobefun) 高德在 PC 站 SEO 增长场景下,利用 Harness Engineering 思想构建多 Agent 协作系统的工程实践 Thread。关键设计包括:将长任务拆解为 workflow 和状态机(DISPATCHED/ACKED/RUNNING/SUCCEEDED/FAILED),通过心跳、超时、重试保证链路可控;用文件化 Memory 管理产物(PRD、设计、架构明确落盘);Builder 与 Evaluator 职责彻底分离(零信任原则);Evaluator 通过 Benchmark 数据集被评估,三轮优化后均分从 64.5 升至 83.4;优先快速失败,低成本检查先于高成本验证。最后强调:现阶段更有价值的是降低人工介入频率而非追求 100% 无人化——这对独立开发者和一人公司尤其有启发。与今天精讲一的 Anthropic DOM 验证实践形成工程侧的呼应。 ## 今日阅读路径 如果你今天时间有限,建议按以下顺序读三篇: 1. 精讲一:Anthropic 内部的 Claude Code 实践 — 如果你正在构建 AI Agent 或使用 Claude Code,这是今天最有直接落地价值的内容。HTML 规格说明、模型采访你、DOM 验证契约,三个方法可以直接在工作中尝试。 1. 精讲二:AI 悖论——越自动化越需要人 — 用真实数据反驳「AI 会消灭工作」的叙事,同时指出 PM 和全栈设计师将是最大受益者。如果你在思考自己的职业方向,这篇值得认真读。 1. Agent 公司的对手是工资单,不是 SaaS 预算 — 这篇分析改变了看待 AI Agent 公司估值和商业模式的框架。如果你在做投资判断、业务规划或是在一家 AI 公司,这是今天最值得读的战略视角。 如果还有时间,精讲三的王小川对话适合慢读,它提供了一个关于「在 AI 时代如何做非共识选择、坚守原始初心」的真实案例,读完很可能会触发你重新思考自己的方向定位。 对工程师而言,额外推荐 Hugging Face 的 Agent 术语词汇表,5 到 10 分钟能让你和团队成员在核心术语上快速对齐,有效减少日常沟通摩擦。

译Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践:将规格说明升级为 HTML 以提升结构密度;让模型通过 ask_user_question 工具主动采访需求;采用智能体原生 DOM 验证框架,实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据,反驳 AI 会大规模裁员的叙事,认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露,公司已收缩通用模型与金融等业务线,All in 医疗大模型,并即将发布新医疗大模型 M4。

ginobefun@hongming731 · 5月26日60

#BestBlogs 早报 2026-05-26 今日早报从三个不同的切入角度,共同指向同一个深层问题:当 Agent 开始重写工程与组织的规则,身处其中的人该怎么站位? Anthropic 工程师 Ara 分享了他们内部使用 Claude Code 的第一手范式,规格说明从 Markdown 升级为 HTML、让模型来主持需求采访、以及智能体原生 DOM 验证框架,这是工程方法论层面的具体答案。 Every 公司 CEO Dan Shipper 则用自家团队一年从 15 人扩至近 30 人的真实数据,颠覆了 AI 会大规模裁员的主流叙事。 百川创始人王小川的对话则展示了一条更长远的选择:离开通用 AI 的主干道,把整个公司押注到「造医生」这件事上。

译推文从Anthropic工程师、Every公司CEO和百川创始人三个案例,探讨了AI智能体对工程实践与组织形态的影响。Anthropic分享了使用Claude Code的具体范式,如用HTML替代Markdown、让模型主持需求采访。Every公司CEO用团队从15人扩至近30人的数据,质疑AI导致裁员的观点。百川创始人则选择让公司专注医疗AI这一垂直方向。

meng shao@shao__meng · 5月26日63

原本是重度 Claude Code 用户,在加入 Cursor 面试前从未用过 Cursor,这就是 @poteto,一起看看她是怎么使用 Cursor 的? lauren 认为:作为开发者,我们不应该过度沉迷于 "并行跑多个 agent" 的表象,但真正的瓶颈是验证。 从 Claude Code 到 Cursor 的转变 lauren 原本是重度 Claude Code 用户,在加入 Cursor 面试前从未用过 Cursor。她观察到三件事改变了她的判断: · 多模型协同的自然化:Opus 写前端、Codex 写系统,可同会话内切换甚至生成不同模型的子 agent。"多模型对抗式 review"在 GUI 中变得不再笨拙。 · Compaction 的速度:cc 中她需"持续警觉"上下文用量;Cursor 中她"基本不再看"。压缩后模型不会变笨。 · GUI > TUI 的潜力:在 Cursor 内置浏览器中直接打开应用、用 Design Mode 修改,让她意识到专用 UI 能让 agentic coding 更有效——CLI 把人本身变成了编排者。 关键洞察:Latent Demand(潜在需求) 引用 @bcherny 的产品哲学: 把产品做得足够可被"滥用",然后观察用户怎么滥用它,再为这种滥用建造产品。 她的判断是:CC 用户大量自建 orchestrator 工具的现象,正是 latent demand 的暴露——CLI 让人成为编排者,所以人们不停在外面包一层。 但她认为业界的方向走偏了:"在 GUI 里跑多个 CLI"完全没抓到要点。真正应该做的是建立对 agent 的信任。 Agent ≈ 失忆症且智商不在线的新员工 · 他们有能力但愚蠢,且高度可教 · 不会真的"学到"任何新东西,每次都从零开始 · 但可以通过 rules / skills / tools / 长期记忆近似出"经验积累" · 失败模式不是缺陷,而是教学机会 她作为前工程经理的视角点出了关键:没有严谨验证时,agent 会谄媚地写出你要的任何代码,而且写得飞快。 朴素的并行只是在加速生产 slop。 pstack:把工程严谨度封装成 skill 她开源了自己日常使用的技能集 pstack,核心机制是 /poteto-mode——一个高阶元技能,会根据任务自动选择合适的 playbook。 https://github.com/cursor/plugins/tree/main/pstack 设计哲学: · 目标不是 LOC 最大化,而是以最少代码换取最大影响 · 把资深工程师的方法论显式化(例如:调试 = 在问题空间中二分搜索) · 现成的 playbook 覆盖:技能编写与评估、自主工作、Bug 修复、特性开发、视觉一致性、原型对比 pstack 是模型无关的,但在 Cursor 这种多模型工具中收益最大——很多 skill 显式利用了不同模型的长短板。 Benny:通往"软件暗工厂"的雏形 后半段揭示更大的图景:当 pstack 让"一发入魂"成为常态后,反馈环本身也能被自动化。 Benny 是她构建的内部自动化 bot 链: 1. Triage(分诊):看图片/视频,主动追问复现步骤——因为没有清晰的 repro,agent 只能猜。 2. 跨源调查:代码、git 历史、Slack 关于同 bug 的讨论、Notion 中的产品设计决策(是 bug 还是 feature?)。 3. 建单后:另一个 Benny 通过 /orchestrate 接手,递归 spawn agent。 4. Computer Use 复现:Cloud Agent 在云端跑 Cursor 本身,用 CDP 等协议操作桌面,演示 bug 是否真实存在。 5. 修复 + 验证:性能问题会自动抓前后 CPU trace 和堆快照;子 worker 录制前后对比视频;最终一个 worker 开 PR,描述里附上视频。 最深的命题:信任的剂量决定自动化的边界 除非你能信任一个 agent 端到端地拥有一个问题(包括验证环节),否则你无法自动化你的流程。 也就是说: · 信任 ↑ → 可委派的问题 ↑ → 自动化范围 ↑ · 信任未到位 + 强行并行 = token 浪费 + slop 注入 这把"agent 编排"从工程问题重新定义为信任工程问题。pstack 是一个杠杆——它通过把工程深度灌注给 agent,抬升信任的下限,从而让更多东西可以放进自动化流水线。

译原重度Claude Code用户poteto转向Cursor,基于多模型协同更自然、上下文压缩速度更快、GUI更利于agentic coding等观察。她认为AI智能体像“失忆且智商不在线但可教的新员工”,其失败模式是教学机会。关键洞察是验证才是瓶颈,盲目并行多个智能体只是在加速生产低质量代码。她开源了技能集pstack,其核心元技能/poteto-mode可根据任务自动选择工作流,旨在封装工程严谨度以提升对智能体的信任。最终论点是:自动化边界取决于对智能体端到端处理能力(尤其是验证环节)的信任程度。

Orange AI@oran_ge · 5月26日61

AI 让软件开发的第一版变得极其容易 但是真正难的是后面的100个版本 而且越到后面越难怎么回事.... 软件工程依然有很多事情要做

swyx@swyx · 5月26日51

concept of vendor lock-in is kinda fake when i completely migrate a fullstack ai app in <30 mins just bc i didnt like how my first choice had nasty error messages (with lots of subtle streaming/queuing/arena mode/media generation semantic) @realGeorgeHotz is right that we need world models for full fidelity, but try just vibing entire projects that are breakable toys and learn to use skills/reviews to keep llms from going off the rails and its amazing how much you can get done in parallel without further effort

译推文指出,AI开发中的“厂商锁定”概念并不牢固。作者因不满首个选择的错误信息,在不到30分钟内就完全迁移了一个全栈AI应用,该应用包含流式、队列、竞技模式及媒体生成等语义。作者引用并回应了realGeorgeHotz关于“需要世界模型以实现全保真度”的观点,认为在实践中,可以通过“随心构建”可拆解的完整项目,并利用技能和审查来引导大语言模型,就能在无需更多额外努力的情况下高效地进行平行开发,成果显著。

Elon Musk@elonmusk · 5月26日60

Grok Build is still in beta for another month or so, but is already quite useful for production tasks

译Grok Build 仍处于测试阶段,预计还需一个月左右,但已能胜任生产任务。

Rohan Paul@rohanpaul_ai · 5月26日65

This Meta + Stanford + Illinois survey paper argues that AI agents work better when code becomes their main working layer. The problem is that an LLM by itself is mostly a text predictor, so long tasks can lose state, hide mistakes, and turn plans into actions in fragile ways. The real advance is not “AI writes code,” but “AI uses code as the environment it thinks inside.” The authors call the surrounding system an agent harness, meaning the tools, memory, sandboxes, checks, and feedback loops that turn a model into an agent. Their core idea is that code should sit at the center of that harness, because code can be run, inspected, checked, saved, edited, and shared. Tests become sensors. Repositories become memory. Logs become history. Sandboxes become boundaries. A generated script is no longer merely an answer; it is a handle the system can run, check, revise, share, and roll back. The main finding is a pattern across many fields: code helps agents reason through executable steps, act through tool calls or control programs, and model environments through tests, traces, logs, repositories, and simulators. ---- Paper Link – arxiv. org/abs/2605.18747 Paper Title: "Code as Agent Harness"

译Meta、斯坦福与伊利诺伊的研究论文指出,AI智能体在将代码作为主要工作层时性能更佳。论文认为,大语言模型(LLM)作为文本预测器,在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”,而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”,即工具、记忆、沙箱等系统。在此框架中,测试成为传感器,代码库成为记忆,日志成为历史,沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现,代码能通过可执行步骤帮助智能体推理,通过工具调用行动,并通过测试、日志等对环境进行建模。

小互@xiaohu · 5月26日63

Xai的 CLI:Grok Build 开启测试了 对标 Claude Code、Codex SuperGrok 和 X Premium+ 用户可以直接安装并授权账户即可使用,使用订阅的用量 安装:curl -fsSL https://x.ai/cli/install.sh | bash 启动:grok Grok Build 基本功能清单: 核心模式 Plan 模式:先出方案、不直接改文件,可停下来反问 Always-approve 模式:跳过每次工具调用的确认提示 Shift+Tab 切换会话模式 编程能力 读代码、写代码、改代码、修 bug、跑测试 子 Agent 并行:拆分大任务,多个子 Agent 同时干 用 @文件名 直接定位某个文件讨论 会话管理 /new 开新会话、/load 续上旧会话、/rename 改名 /share 生成链接分享会话 /context 查看上下文用量、/compact 压缩历史 /btw 不打断当前任务,随口问个别的 扩展能力 MCP:接 Linear、Sentry、Postgres、浏览器等外部工具 Skills:自定义技能,装上后变成斜杠命令调用 Plugins、Hooks 支持 多模态 /imagine 文字生成图片 /imagine-video 文字生成视频

译xAI 正式推出命令行工具 Grok Build 并开启测试,直接对标 Claude Code 和 Codex。该工具面向 SuperGrok 和 X Premium+ 订阅用户开放,核心功能包括提供 Plan 与 Always-approve 模式、支持代码读写调试、子 Agent 并行处理复杂任务,以及完整的会话管理。此外,它通过 MCP 集成外部工具,支持自定义技能与插件,并具备多模态能力,可通过命令生成图片与视频。用户可通过指定命令安装启动。

Rohan Paul@rohanpaul_ai · 5月26日73

Grok Build beta (agentic coding agent that lives in your terminal) is now open to all SuperGrok and X Premium+ users. Before only SuperGrok Heavy users had access. You install it once with a single command, then you can type natural-language instructions like: “Make a rollercoaster simulator” or “Build a todo app in the style of Apple” etc.. and Grok will: - Plan Mode -> create a step-by-step plan you review and approve before it touches any code - Use sub-agents that run in parallel for complex tasks - Edit multiple files, use git, run tests, search the web, etc. - Create images and videos using Imagine (Grok’s image/video generator) right inside the workflow - Build automations or full orchestrators (you can turn sessions into reusable “skills” or connect multiple agents)

译xAI的终端编程智能体Grok Build现已以Beta版向所有SuperGrok和X Premium+用户开放,此前仅限SuperGrok Heavy用户。用户通过单条命令一键安装,即可用自然语言指令(如“制作一个过山车模拟器”)驱动其工作。Grok Build支持规划模式(创建步骤供用户审核)、并行子智能体处理复杂任务、多文件编辑、使用git、运行测试、搜索网页,并能直接调用Imagine生成图片和视频。此外,它支持构建自动化流程或完整编排器,并可将会话转化为可复用的“技能”。

Emad@EMostaque · 5月26日58

It’ll be interesting to see if the post training for this uses a multiple of the compute of pretraining as cursor did when they tuned Kimi as the base model

译xAI的Grok基础模型V9-Medium(1.5T参数)已完成训练,评测结果良好。在补充训练中加入了大量Cursor数据。该模型即将开始微调,几天后启动强化学习,预计2至3周后向公众发布。这将是相较于目前服务所有Grok生产流量的0.5T参数v8-small模型的重大改进,尤其在复杂编码任务上。有人推测其后训练可能使用了类似Cursor调整Kimi时远超预训练的计算量。

DogeDesigner@cb_doge · 5月26日75

xAI just released Grok Build Beta for SuperGrok and 𝕏 Premium+ users. A powerful new coding agent + CLI built for complex software work. What it can do: • Plan, build, test, and deploy from the terminal • Create structured plans before writing code • Use subagents to run research, testing, and reviews in parallel • Turn workflows into reusable skills and slash commands • Connect with MCP servers like Linear, Sentry, Grafana, and more • Search, edit, and refactor across large codebases • Run builds and tests with live terminal streaming • Review code line by line before opening a PR • Stage, commit, push, and manage branches • Use memory to persist decisions and context across sessions • Run headless in CI/CD pipelines • Execute code in sandboxed environments

译xAI为SuperGrok和𝕏 Premium+用户发布了Grok Build Beta。这是一款强大的编程智能体与CLI工具,专为复杂的软件工程任务设计。它能从终端完成规划、构建、测试和部署全流程,支持在编码前制定结构化计划,并使用子代理并行执行研究、测试和代码审查。该工具允许将工作流转化为可复用的技能和斜杠命令,可连接Linear、Sentry、Grafana等MCP服务器。Grok Build Beta还具备跨会话持久化决策和上下文的记忆能力,支持以无头模式在CI/CD管道中运行,并能在沙盒环境中执行代码。

elvis@omarsar0 · 5月26日58

/goal is really insane! It's how you can get the most out of coding agents today. For efficiency, I find it works best when you do planning before /goal. This ensures the agent has the right context and goal, which often only happens with careful planning.

译/goal 真的太强了! 这是目前能从编程智能体中获得最大收益的方法。 为了效率,我发现最好在 /goal 之前先做规划。这能确保智能体拥有正确的上下文和目标,而这通常只有通过仔细规划才能实现。

Berryxia.AI@berryxia · 5月26日22

在Coding的过程中发现Claude的原则和底线和分明,“正义感”十足,非常有“人性”。 相反Claude不给你干的活,GPT默认就是可以干的活。 都不会吱声~,只会默默干活~

向阳乔木@vista8 · 5月25日55

最近 Vibe 了一些小网站,好奇有多少访问。 于是让Codex在VPS上部署了一套umami统计。 官方版只能添加有限数量网站,自部署无限量。 想给哪个网站加浏览统计,只需要跟Codex说下就行。 如果你有闲置的VPS,从网站搭建,域名配置,流量统计,都可以交给Codex通过SSH完成。 真正口喷建站。

译用户通过Codex在VPS上自部署了umami统计工具,可为网站添加无限量流量监控。相比官方版有限制,自部署方案支持对任意网站通过指令快速启用统计功能。整个过程包括网站搭建、域名配置及数据统计均可由Codex通过SSH自动化完成,体现了“口喷建站”的便捷性。

Orange AI@oran_ge · 5月25日54

终于能用 Cola Code 维护 TypeNo 项目了。 用起来非常简单,也超级省 Token。 今天一口气处理了 8 个 issue + 1 个 PR,发了 v1.4.0。 这版最大的更新是流式实时预览,边说边出字,差不多一秒刷新一次。overlay 也重新设计了,深色背景+呼吸灯指示点。 修了几个比较疼的 bug: • 间歇性录出空文件(No speech detected),根因是 AVCaptureSession 格式没稳定就开始录了 • 录音时 overlay 抢键盘焦点,光标会丢 • Coli 模型下载检测误报,现在三状态区分+更清晰的修复提示 文档也补了卸载说明,clarify 了 CLI 安装和模型下载是两阶段。 https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0

译TypeNo 发布 v1.4.0。开发者使用 Cola Code 维护项目,核心更新为流式实时预览功能,并重新设计了 overlay 界面。本次修复了录音间歇性空文件、overlay 抢占键盘焦点、以及 Coli 模型下载状态检测误报等 bug。文档补充了卸载说明,澄清了 CLI 安装与模型下载为两阶段。 GitHub 发布链接:https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0

🚨 AI News | TestingCatalog@testingcatalog · 5月25日58

GOOGLE 🔥: Antigravity now has Gemini 3.5 Flash (Low) option available with a 45% fewer token consumption in comparison to Medium variant. This addition follows Gemini quota reset as well!

译Antigravity平台新增Gemini 3.5 Flash (Low)选项,其token消耗相比Gemini 3.5 Flash (Medium)版本减少约45%。据内部测试,该新选项在SWE任务上的表现通常优于上一代的Gemini 3 Flash (High)。此举旨在优化简单任务的token使用,同时所有付费计划的Gemini配额已重置。

Peter Steinberger 🦞@steipete · 5月25日25

New pet peeve: cli's that install new skills onto my system without asking.

译新的烦人点:CLI未经询问就在我的系统上安装新技能。

🚨 AI News | TestingCatalog@testingcatalog · 5月25日48

SPEACEXAI 🔥: The next Grok model is expected to be ready for public release in 2-3 weeks. &gt; 1.5T V9-Medium base model in comparison to 0.5T v8-Small, used for Grok 4.3 &gt; Cursor data being used for supplementary training Grok 5? 👀👀👀

译Grok基础模型V9-Medium(参数规模1.5T)已完成训练,评估结果良好,预计2-3周内向公众发布。该模型相较于当前服务所有Grok生产流量的0.5T v8-Small版本有巨大改进,尤其针对高难度编码任务。训练中加入了大量Cursor数据,并且未来还会有更多补充训练。目前微调已进行,强化学习将在几天内开始。

向阳乔木@vista8 · 5月25日64

X不让直接发音频,可以直接让Codex帮把音频转成MP4。 当然,会ffmpeg指令的话也很简单,但大模型太适合做这种转格式操作了。

Elon Musk@elonmusk · 5月25日71

Grok foundation model V9-Medium (1.5T) has finished training. Evals look good. A lot of Cursor data was added in supplementary training and there is more to come. Fine-tuning is underway and reinforcement learning begins in a few days. 2 to 3 weeks to public release. This will be a major improvement over the 0.5T v8-small that currently serves all Grok production traffic, especially for difficult coding tasks.

译Grok基础模型V9-Medium(1.5T)已完成训练。评估结果良好。补充训练中加入了大量Cursor数据,后续还会有更多。 微调正在进行中,强化学习将在几天后开始。预计2到3周内公开发布。 这将比当前服务所有Grok生产流量的0.5T v8-small模型有重大改进,尤其在复杂编码任务上。

ginobefun@hongming731 · 5月25日55

http://x.com/i/article/2058708566568275968 # BestBlogs 早报 · 05-25|前场部署工程师、下一代 Claude、超级个体 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-25 ## 导语 AI 的战场正在从模型训练转移到企业落地——OpenAI 斥资 40 亿美元成立独立部署公司,Google 和 Anthropic 跟进建立同类架构,「驻场部署工程师」成为新的兵家必争之地。与此同时,Anthropic 研究 PM 首度揭开下一代 Claude 的炼成逻辑:用户吐槽直接喂进训练,Agent 空闲时像人类睡眠一样整理记忆,AI 的瓶颈已从编码能力转向组织协调。第三篇则给出一个反直觉的视角:超级个体不是被培训出来的,而是被完整的 Closed-loop 激发的。三篇放在一起读,恰好构成一幅完整的 AI 时代人机协作图景。 今日早报精选 3 篇深度文章、7 篇快讯速览、6 篇补充阅读,共计 16 篇优质内容。 今日内容在主题上高度聚焦:三篇精讲分别从「行业结构」(FDE 角色崛起)、「技术内核」(Claude 下一代架构)和「人才哲学」(超级个体的激发机制)三个维度,共同描绘了 AI 时代的人机协作全景。速览部分则补充了基础研究(何恺明 ELF 论文)、竞争格局(谷歌 CEO 坦承落后)、企业落地案例(Qonto 反金融犯罪)以及工具实践(Figure 机器人、Coding Agent 会话管理)等多个维度,构成一份完整的当日技术与产业快照。建议按后文「今日阅读路径」的顺序优先阅读精讲三、精讲一,再视时间补充精讲二和速览内容。 ## 精讲一:脉搏:前场部署工程师再度火热 > 来源:The Pragmatic Engineer | 阅读原文 背景:从「工程师」到「驻场顾问」的角色漂移 「前场部署工程师」(Forward Deployed Engineer,FDE)并不是新词——早在 2024 年夏天,The Pragmatic Engineer 就曾专题追踪过这波需求浪潮。但 2026 年 5 月的信号比当时更为密集、更为清晰:这一次,连招聘流程本身都在加速。 Google Cloud CEO Thomas Kurian 宣布在 Go-To-Market 团队内设立全新 AI 专项组织,大规模招募 FDE。消息人士透露,Google 的面试流程已从过去「数周内 4-6 轮」大幅压缩为「2 天内 2 轮」——这种压缩幅度在大公司里极为罕见,显示出紧迫程度。 OpenAI 的「外包化」策略 更具结构性意义的是 OpenAI 的动作。5 月 11 日,OpenAI 宣布成立「The OpenAI Deployment Company」——一家由 TPG、Advent 等私募基金出资 40 亿美元、估值 140 亿美元的独立实体。值得注意的是,OpenAI 本身并非这家公司的投资方,仅以合作伙伴身份参与。 这家部署公司收购的第一个目标是总部位于英国的 Tomoro,后者在英国、亚洲和澳大利亚共拥有 150 名 FDE。官方对 FDE 工作内容的描述是:「与业务领导、运营商和一线团队紧密合作,识别 AI 能带来最大价值的领域,围绕它重新设计组织基础设施和关键工作流,并将收益转化为持久的系统。」 Anthropic 跟进,架构相似 Anthropic 在同月(5 月 4 日)发布了一份措辞相当模糊的公告,宣布成立一家类似的独立 FDE 咨询公司,由 Anthropic、Blackstone、Hellman & Friedman 和 Goldman Sachs 参与投资,但未公开具体公司名称和投资细节。新公司的定位与 OpenAI 的策略如出一辙:以独立架构切入中型企业,专门将 Claude 集成到企业核心业务流程中。 更深层的信号:外包意味着什么? 这里有一个值得注意的代价:由于这批 FDE 隶属于独立的合作公司,而非 OpenAI 或 Anthropic 本体,他们将无法获得母公司的股权激励。这对招募顶尖人才可能产生长期影响。 作者 Gergely Orosz 在文章中提出了一个尖锐的问题:FDE 和传统意义上的「系统集成顾问」或「解决方案架构师」到底有什么区别?从职位描述来看,FDE 的工作内容——深入客户一线、识别高价值场景、重新设计组织工作流——和麦肯锡或埃森哲的咨询顾问高度重叠。唯一的区别可能在于:FDE 对 AI 产品有更深的技术理解,能直接跑通集成而不只是交付 PPT。 从更宏观的视角看,FDE 的角色正在从「工程师」向「解决方案架构师 / 外部咨询顾问」漂移。这种角色的模糊化与外包化,折射出一个更大的产业信号:AI 的商业竞争主战场,已经从模型训练转移到企业落地。谁能在客户现场更快、更稳地跑通 AI 集成,谁就占据了这场竞争的制高点。 对于技术人才来说,这既是机遇,也意味着全新的职业定位——不再只是写代码,而是要能跨越技术与业务,在真实组织里推动 AI 落地。对于求职者,一个实际的参考:Google Cloud 的 FDE 招聘压缩到两天面试,意味着你需要能在极短时间内展示「把 AI 落地到企业场景」的实战能力,而不只是算法题。 ## 精讲二:Anthropic 首次揭秘下一代 Claude 怎么造!用户吐槽直接喂模型,连 AI"做梦"都被训练 > 来源:AI 前线 | 阅读原文 背景:模型开发的「产品化」转型 如果说外界对 Anthropic 的关注,过去停留在「Claude 跑分如何」「代码能力有没有超越 GPT」这样的性能竞赛层面,那么 Anthropic 研究团队产品经理 Alex 在 Claude Conference 上的这场深度访谈,透露出的是更值得关注的内部信号。 第一个核心信号:Anthropic 已经把模型开发彻底产品化。在 Alex 的描述里,每一代 Claude 在训练开始前,都像一款正式产品一样拥有清晰的规格定义、目标能力和评测路线——它需要在哪些任务上变强,要修复上一代哪些缺陷,最终服务哪些真实用户场景。模型研发不再只是研究员「调参 + 刷 benchmark」,而已经发展成为一套完整的产品工程流程。 用户吐槽,直接变成训练数据 面对海量用户反馈,Anthropic 没有让 PM 手动分类,而是用 Claude 本身来帮助做产品管理:自动聚类反馈、提炼核心主题、构造合成版本、转化为 eval 评测项。这是一个典型的「模型驯化模型」闭环——用户的吐槽,经过结构化处理后,直接成为下一代训练的输入信号。 Claude 开始「做梦」——记忆整理的新机制 第二个核心信号更有意思:Claude 正在向「持续运行 Agent」演化,而这一演化过程引入了一个被 Anthropic 称为「dreaming(做梦)」的记忆机制。 具体来说,当 Agent 处于空闲或后台状态时,系统会自动回顾已有记忆:查找冲突信息、删除无效内容、压缩上下文、重建用户画像——相当于对记忆做「第二轮加工」。Anthropic 将这一过程类比为人类睡眠中的记忆再巩固(memory reconsolidation)。 这一机制的背后,折射出一个产品方向的转变:Claude 不再只是「被动响应」的聊天机器人,而是要成为一个「持续在线、主动维护上下文」的数字协作者。从 Adaptive Thinking(自适应思考)到多任务并行 Agent 管理界面,这条演化路径的终点,是一个真正意义上的「长期运行的数字同事」。 真正的瓶颈:不是编码能力,是组织协调 Alex 在访谈中反复强调的一个判断尤其值得记录:真正的 AI 瓶颈已经不是编码能力,而是组织协调能力。 在 Anthropic 内部,借助 Claude,产品经理可以快速调取数据、分析日志、判断一个功能实现是「重构系统」还是「改 10 行代码」。代码生产效率已经被极大压缩。而真正耗时的,变成了人与人之间的战略判断、跨团队协作,以及对不可逆决策的审慎讨论。 这也解释了 Anthropic 为什么至今保持着极强的文档文化——Dario Amodei 喜欢写长文、会议开始时全体「静默阅读」——这种依赖书面表达的文化,并非效率低下的传统遗留,而恰恰是为了让组织知识被结构化沉淀,从而成为 Claude 可以直接调用的上下文资产。 意识研究:Anthropic 的长远押注 最后一个信号最为意味深长:Anthropic 内部已有专职研究人员正式研究 Claude 是否可能具备某种「有意识行动者」的属性。虽然没有官方结论,但「Consciousness(意识)」已经被正式纳入研究议题。 这或许是一个清晰信号:当行业里大多数公司还在卷参数、跑分和价格战时,Anthropic 已经开始思考一个更长远的问题——如果未来的 AI 真正成为长期协作者,它究竟该拥有什么样的「心智」、人格和判断方式。 与今日其他文章的联系 这篇精讲与精讲一(FDE 趋势)构成有趣的呼应:精讲一揭示了 AI 企业落地的「最后一公里」竞争,而精讲二则揭示了 AI 本身的能力演化方向。两者共同指向一个结论:AI 的真实价值实现,取决于「组织协调能力」——无论是 AI 系统内部的记忆整理与协调(dreaming 机制),还是人与 AI 之间的协作框架(FDE 的角色)。与精讲三(超级个体)也形成互文:人类的「完整 Closed-loop」激发超级个体,AI 的「dreaming 机制」则是它自己在空闲时整理自己的 Closed-loop。 ## 精讲三:致超级个体 | To The Crazy Ones > 来源:十字路口 Crossing | 阅读原文 背景:「培养超级个体」是一个错误框架 AI 时代,「超级个体」成了最流行的人才话语。但 DeerFlow 团队的 Henry 给出了一个反直觉的判断:超级个体不是被培训出来的,而是被好奇心和完整 Closed-loop 激发出来的。 文章以一个思想实验开场:如果 Claude Code 的创始者 Boris Cherny 和 Cat Wu 在 2024 年底入职你的部门,提出要做一个只能跑在命令行里的 Coding Agent,你的部门会同意吗?这个问题让「培养超级个体」的荒诞性一目了然——大公司不是没有这样的人才,而是「岗位切分」把他们变成了局部函数。 Closed-loop:超级个体的真正激发机制 那些真正意义上的「AI Builder」,有一个相似的特质:当他们聊起自己正在做的 AI 作品时,会不自觉地滔滔不绝,眼里有光。那不是对新技术的短暂兴奋,而是一种更朴素、更持久的东西——他们真的想把一个东西做出来,想让它被真实的用户所使用。 核心判断是:超级个体不是「更强的岗位人」,而是一个能够重新拿回完整 Closed-loop 的人——从发现问题、动手做、做成作品、交到用户手里、吃回反馈,一个人全程拿得住。 历史样本:2002 年的程序员早就是超级个体 文章花了大量篇幅回溯到 2002 年前后的独立软件时代。那时没有 LLM、没有 Agent,但很多程序员天然就是「六边形战士」:先从自己的痒点出发发现问题,然后自己设计界面、写代码、打包发布、写文档、在论坛回答用户反馈……一个人或两三个人,拿住了整个产品从 0 到 1 的完整 Closed-loop。 张小龙的 Foxmail、FlashGet、WinZip、ACDSee、Winamp——这些作者「往往不是单点能力最强的人,而是最愿意探索、最能自学、最能动手、最能把用户反馈接回自己脑子里的人」。 AI 只是放大了旧能力,不是制造了新人种 这是这篇文章最核心的反直觉观点:超级个体不是 AI 时代才突然出现的人种。AI Coding 能力的爆发,只是让一种原本已经存在的、需要「完整 Closed-loop」才能激发的旧能力,重新变得可规模化。 Naval Ravikant 的三种杠杆框架(劳动力、资本、没有边际复制成本的产品)在这里派上了用场:代码和媒体天然是 permissionless 的个人杠杆,AI 则让这种杠杆的门槛进一步降低。但组织如果仍然用「岗位切分」的方式管理这些人,只会把杠杆折断。 对组织的建议:提供土壤,而不是培训课程 文章真正要讨论的,是一个组织问题:如果超级个体的原料本来就散落在大型公司内部,组织怎样提供土壤,让这些人被完整 Loop 激发出来? 答案不是「把员工送去上 AI 课、发几张证书」。而是要问:组织有没有允许一个人从问题发现,一直走到拿到结果? 这才是真正的人才战略——不是流水线思维,而是 Closed-loop 的土壤。 这篇文章也为今日三篇精讲提供了一个整合视角:精讲一的 FDE 是一种通过外部机制「拿回 Closed-loop」的职业路径,精讲二的 Claude dreaming 机制是 AI 在技术层面构建自己的 Closed-loop,而精讲三则在哲学层面回答了:为什么 Closed-loop 对人类创造力如此重要,以及组织应该怎样保护这个 loop 而不是把它切碎。三篇连起来,是一幅完整的 AI 时代人机协作图景——不只是技术的故事,也是关于人、组织和创造力的故事。 对于今天的读者,这篇文章值得精读,尤其是 HR、OD、组织管理者和大型公司的产品负责人。如果你是个人开发者或独立创作者,它同样值得一读——用来检验自己有没有守住那个完整的 Closed-loop。 ## 速览 1. 何恺明和字节 Seed 跳入同一条河流 来源:花叔 | 阅读原文 何恺明(MIT)的 ELF 和字节 Seed 的 Cola DLM 相差 4 天发布,从两条几乎相反的路径出发,最终撞到同一个设计点:把语言模型生成过程中的「离散化」步骤推迟到最后一刻,中间所有的「思考」都在连续潜空间里发生,直到最后一步才决定每个位置该是哪个具体的词。用一个比喻:AR 模型是钢笔写文章,一笔下去就是事实;Cola 和 ELF 是用铅笔打草稿,整段在反复涂改,直到最后誊写。这一巧合背后代表着一种值得关注的底层架构趋势,是对自回归语言模型核心假设的重要挑战。值得一提的是,这是何恺明加入 MIT 后首次直接攻语言模型方向,背景相当分量——ResNet 的发明者开始认真打 LLM 的底层地基了。 2. 谷歌 CEO 承认 Coding 落后了 来源:量子位 | 阅读原文 Google CEO 皮查伊在《纽约时报》科技播客里坦诚:Gemini 在 Coding Agent 和长期复杂编程任务上确实落后于竞争对手。他同时承认,过去一两年的进展速度让自己觉得 AGI 可能比之前想象的更近,30-60 天内发生的变化放在过去需要 5 年。对于 AI 带来的工作、收入和生活改变,他表示「大家的担心是有道理的」。Google 目前的优势在于文本、多模态、语音和推理,但带工具调用的 Agent 编程和长期复杂任务仍有差距,Gemini 3.5 Flash 是阶段性追赶的重要一步。皮查伊还坦言,Google 过去缺乏像 Claude Code 那样直接触达开发者的产品入口,也没有 Anthropic 通过 Cursor 拿到的高频使用数据,这是 Coding 能力落后的结构性原因。这与精讲一的 FDE 叙事直接呼应——没有高质量的使用数据,模型就缺少迭代原料。 3. 用 Claude Cowork 打击金融犯罪 来源:Claude | 阅读原文 欧洲 B2B 金融科技公司 Qonto 基于 Claude 4.7 Opus 构建了一个企业级 MCP 网关架构,赋能欺诈调查员在统一的交互式工作空间中分析复杂金融犯罪案件。全球每年有 2-5 万亿美元被洗钱,Qonto 服务 60 万+ 中小企业客户,通过 AI 大幅提升了 AML(反洗钱)调查效率,在满足严格合规要求的同时实现了安全的数据处理。 4. 用 Claude 设计:从提示到产品 来源:Claude | 阅读原文 Anthropic Labs 三人小团队在 10 周内构建并发布了 Claude Design。他们用原型替代文档、打破角色界限,进行了 50-100 次快速用户反馈循环。Anthropic Labs 的运作模式像一个内部「押注工厂」——持续运行小型自主实验,Claude Code、MCP、Skills 都是这种模式的产物。工程瓶颈已从代码生产转移到需要真实用户数据来迭代的产品决策层面。 5. Figure 的 4 年历程:从新兴技术到 200 小时自主运行 来源:Brett Adcock(@adcock_brett) | 阅读原文 Figure 创始人 Brett Adcock 回顾公司四周年,梳理了将通用人形机器人时间线提前十年的四项关键突破:①低成本电动人形机器人(执行器 / 传感器 / 电池 / 制造进步);②从摄像头像素到扭矩的深度学习取代手工代码;③全身强化学习控制让机器人更稳健;④机器人现在能以人类水平速度执行有用工作,已完成连续 200 小时自主运行验证。他总结道,构建现实版「iRobot」的未来已从不可能变得非常真实,这四项技术突破之间相互依存,缺任何一项都无法到达今天的节点。 6. 当软件容易被创作,新时代的产品长什么样?| 42 章经 来源:42 章经 | 阅读原文 两位创业者的深度对话。核心判断:AI coding 能力爆发后,软件创作门槛急剧降低,未来市场呈哑铃型结构——模型公司拿走绝大多数价值,中间层工具被压缩;创业公司应聚焦于「特殊性」和情绪价值,而非追逐普遍性价值。一个关键洞察:差异来自你跟 coding agent 对话过程中「拒绝了什么」,那 1% 的拒绝比 99% 的接受更有价值。文中还提出了一个有趣的类比:未来的软件格局可能会发展得跟今天的硬件一样——极度标准化的通用层加上少数高度差异化的专业产品。这与精讲三「超级个体」的论述一脉相承:个人化的、从真实痒点出发的产品,才是 Closed-loop 的产物。 7. 黑客组织以前所未有的规模投毒开源代码 来源:Ars Technica(@arstechnica) | 阅读原文 一个黑客组织正在以前所未有的规模对开源代码进行投毒,对软件供应链构成重大威胁,影响可能波及无数依赖开源库的应用程序和系统。这是对整个软件开发社区的重要安全警报。在 AI Coding 工具大规模普及的当下,对第三方依赖的审查变得尤为重要——AI 生成的代码往往大量引用开源库,供应链安全意识不能因为效率提升而被忽视。 ## 补充阅读 - 卷到今天,Agent 的含金量还在提升丨 AIGC2026 圆桌论坛(量子位)阅读——三位 Agent 产品一线创业者深度对话,核心观点:Agent 产品范式已相对稳定,未来一人操纵数百 Agent 大军,创业公司应在不确定性中先迈一步。适合关注 Agent 创业生态的读者。 - Google I/O 2026 开发者主题演讲精华集锦(谷歌开发者)阅读——Gemini 3.5 系列、Antigravity 2.0 智能体平台、Android CLI 及多项面向 AI Agent 的开发工具一网打尽。适合 Google 开发者生态跟踪者。 - 如何让智能体从团队中学习:Warp 的 Buzz 智能体自我改进实践(Claude)阅读——Warp 通过基于 Slack 的工作流构建了能从团队反馈中学习、并通过 GitHub PR 自主改进指令的 Buzz 智能体。对「Agent 生产化」问题有参考价值。 - 设备端 Gemini Nano 技术详解 — Google DeepMind 工程师深度分享(AI Engineer)阅读——详解 Gemini Nano 通过 AI Core 系统服务在 Android 设备上的架构实现,包含 MLKit GenAI API、混合云回退策略,以及支持 RAG 的嵌入 API 路线图。适合 Android AI 开发者。 - Coding Agent 会话管理的两大流派及实践(九原客 @9hills)阅读——单会话(维持长会话 + subagent)vs 即用即抛型(每个 Issue 从头开始)的实践对比,作者介绍了自己在 Pi 中使用 /tree 和 /fork 命令管理会话树的方法。对重度 Coding Agent 用户有实操参考价值。 - vLLM MoE 部署的弹性专家并行(vLLM @vllm_project)阅读——vLLM 引入弹性专家并行(EEP),允许在不重启的情况下实时调整 MoE 部署规模。对大规模模型推理基础设施工程师有参考意义。 ## 今日阅读路径 时间有限?以下是今日建议的三篇优先顺序: 第一优先:精讲三——致超级个体 https://www.bestblogs.dev/article/cd8675e4 最反直觉、最有启发性的一篇。无论你是管理者还是个人开发者,「组织是否允许一个人从问题发现走到拿到结果」这个问题都值得认真思考。文章的历史视角(2002 年的共享软件时代)尤为精彩,能帮你抵抗「超级个体是 AI 时代新发明」这种误区。 第二优先:精讲一——前场部署工程师 https://www.bestblogs.dev/article/2e174723 AI 落地竞争的最新战场,Google / OpenAI / Anthropic 的架构动向一文搞懂。对技术职业规划和行业趋势判断有直接参考价值,尤其是正在考虑从「纯后台工程师」转型到「客户面向技术角色」的读者。 第三优先:精讲二——下一代 Claude 怎么造 https://www.bestblogs.dev/article/e3dc3330 Anthropic 研究 PM 的内部视角,「dreaming 机制」和「AI 真正瓶颈是组织协调」两个观点足以让你重新理解 AI 产品的演进方向。如果时间充裕,可以继续看速览第 6 篇(42 章经 × 软件创作)和补充阅读第一篇(Agent 圆桌),三者合起来是一组关于「AI 时代的人才、产品和组织」的完整阅读。

译AI行业呈现三大趋势。一是企业落地竞争加剧,OpenAI成立独立部署公司(TPG等投资40亿美元,估值140亿美元),Anthropic跟进成立类似咨询公司,Google Cloud大规模招募前场部署工程师(FDE),面试流程压缩至2天2轮。二是Anthropic揭秘下一代Claude开发逻辑,模型开发完全产品化,用户反馈经Claude自动处理直接用于训练,并引入“dreaming”记忆整理机制,认为瓶颈已从编码转向组织协调能力。三是探讨超级个体并非培训产出,而是由完整闭环工作流激发而成。

meng shao@shao__meng · 5月25日40

DeepSeek 真的是充满了长期主义和大道至简的代表了 国内各大厂和 AI 小龙们,各种 Coding Plan、Token Plan 价格设计一个比一个复杂,又是限购又是拉新返利,折腾了大半年,其实真的不如一个足够低价的 API 价格,和低到几乎可忽略的缓存命中价格。 把模型训练和推理的底层技术做扎实、不追求短期业绩表现、为长期的 DeepSeek Code 和 Harness 积累更多用户使用和反馈数据。 刚刚看到 @bearliu 发的 AI 界对 Anthropic 的态度,那只每个人都讨厌但又害怕的黄鼠狼,可谓天下苦 A 厂久已,不管 DeepSeek 是不是那只大鹅,都希望能把这只黄鼠狼尽快甩飞!

译推文赞扬 DeepSeek 践行长期主义与大道至简,指出其通过提供足够低价的 API 及几乎可忽略的缓存命中价格来赢得用户,而非像国内其他厂商那样设计复杂的套餐与促销策略。这被视作将底层技术做扎实、积累长期用户反馈的体现。推文还引用观点,将 Anthropic 描述为“每个人都讨厌但又害怕的黄鼠狼”,并希望 DeepSeek 能改变这一行业格局。

meng shao@shao__meng · 5月25日51

昨天看到很多朋友在讨论「Claude Code橙皮书:从入门到精通」这本书 我自己认为,学习 AI 知识,除了很底层的原理和短期不会变化的固定知识可能适合通过书来学习。 Claude Code、Codex、Agent 框架和工程、Prompt Engineering、Context Engineering、Harness Engineering 等等概念和知识恨不得每周都在更新,通过书来学习,太不现实了。 作者的书还在编写大纲,知识就已经更新了,等你把书竖出版了,知识都过期了。 当然也不排除现在很多作者也在用 AI 来写书,这种写法,审查难度不低于大型代码仓库的 Code Review,何况。。你也很难保证这位作者,本身有审查能力,或者说,AI 写出来的书,他自己能看懂吗?我不知道! 下面两张图,仅仅是我很好奇,为啥国内的书籍,这么爱用什么白皮书、蓝皮书、橙皮书,真的不太懂分别都是什么意思,能不能随便用,让 GPT-5.5 和 Claude Opus 4.7 分别解释了一下,大家看看。

译推文质疑用书学习AI知识的可行性,指出Claude Code、Agent框架等知识更新极快,书易过时。同时质疑AI写书的质量,认为审查难度高。此外,作者对国内书籍常使用“白皮书”“蓝皮书”“橙皮书”等命名方式表示好奇。

meng shao@shao__meng · 5月25日66

有了 AI Agent,工程师不需要花太多时间思考代码了吗? 当然不是!!! @leerob 认为:AI 不会降低对"理解系统"的要求,反而会提高。工程师的核心价值从"会写"转向"会判断",而判断力来自对系统和基础原理的深入理解。 # Lee 列举了几个证明在 AI Agent 时代,工程师依然不能被取代的原因。 1. 责任的不可转移性 代码上了生产环境,on-call 的是人,不是 AI。一旦出事故,需要在凌晨三点理解系统、定位问题、做出判断的,仍然是工程师。如果你不理解自己负责的系统,调试时会非常痛苦——这是一个无法绕开的物理约束。 2. AI 的合理定位:加速器,而非决策者 Lee 并不反 AI。他承认 AI 能: · 让 agent 去 triage 生产日志 · 自动检查错误 · 加速调查过程中的机械环节 但最终的判断(the call)必须由工程师做出——因为一个改动可能牵涉客户损失或财务后果,这种责任 AI 承担不了。 3. 由此推导出的行业趋势 Lee 预测(其实已经在发生)四个方向: · 裁剪依赖 — 少引入第三方包 · Vendoring 代码 — 把依赖代码直接拷进自己仓库,方便修改和掌控 · 偏好简单系统 — 减少抽象层 · 把时间投入系统设计和代码维护 — 而不是疯狂产出新代码 这四点的共同主线是:追求"可理解性"和"可控性"。AI 让写代码变便宜了,所以瓶颈转移到了"理解和维护"上。 4. 反直觉的建议:回归 CS 基础 正因为生成代码的成本趋近于零,判断力和第一性原理反而成为稀缺资源。算法、操作系统、网络、分布式系统这些"老东西"——以及软件工程历史上沉淀下来的优秀范式——会比以前更值钱,而不是更便宜。 # 深层逻辑上过去和现在的变化 稀缺资源:写代码的速度 -> 理解系统的深度 工程师价值:产出代码量 -> 做正确决策的能力 风险所在:写得不够快 -> 写了一堆看不懂的代码 技术选型偏好:大而全的框架 -> 小而可控的代码

译本文反驳了“有了AI智能体,工程师无需深度思考代码”的观点。核心论点是:AI不会降低对“理解系统”的要求,反而会提升工程师的核心价值。这主要源于责任不可转移——生产环境事故需由工程师负责,AI无法承担决策后果。AI被定位为加速日志分析等环节的加速器,但最终决策仍需由人做出。由此推导的行业趋势是:工程师应更注重系统的可理解性与可控性,如减少依赖、偏好简单系统,并将时间投入系统设计与维护。最终,行业稀缺资源正从“写代码速度”转向“对系统理解的深度”,计算机基础与判断力将更加重要。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月27日
03:04
Rohan Paul@rohanpaul_ai
60
Uber CEO:5年内AI智能体投资回报率将超人类工程师

Uber CEO Dara Khosrowshahi表示,目前Uber 90%的工程师使用AI,其中顶尖30%的用户获得前所未有的生产力提升,在代码库中提交的“diffs”数量最多。他预测,5年内增加更多AI智能体和NVIDIA GPU算力的投资回报率(ROI)将超过人类工程师,届时公司将选择雇佣更多AI智能体并支付GPU算力成本,而非增聘人类软件工程师。该观点来自YouTube频道“The Diary Of A CEO”。

智能体大佬观点编码
02:10
OpenCode@opencode
66
Qwen3.7 Max 现已在 Go 平台上线 - 仅支持文本 - 1M 上下文 - 迄今为止 Qwen 家族中最智能的模型
模型发布编码
01:32
Yuchen Jin@Yuchenj_UW
29
我向所有人发起挑战,连续一周每天手写代码8小时以上: 1. 不使用编程智能体:Claude Code、Codex、Cursor 2. 不使用GPT/Claude,或任何AI模型 如果你能坚持下来,你就是真正的勇士。
大佬观点编码
00:29
宝玉@dotey
45
Markdown作为AI生成源码的局限性

推文指出,Markdown作为AI编程的“源代码”存在根本缺陷。首先,其结果缺乏确定性,同一份Markdown因使用模型、Agent Harness及操作者的不同,最终产品千差万别。其次,难以清晰描述UI交互,导致生成的界面质量仅为“凑合能用”,不足以达到商用标准。该观点引用了@jianshuo的相关讨论作为背景。

Jianshuo Wang: http://x.com/i/article/2059196541693562880

现象/趋势编码
00:27
Berryxia.AI@berryxia
74
Anthropic黑客松冠军团队开源AI编程工作台ECC

Anthropic黑客松冠军团队使用Claude Code耗时8小时开发出产品zenith.chat并赢得1.5万美元API credits。赛后,他们将背后的完整工作流开源为ECC项目。该项目包含61个智能体、246个技能和76个预设命令,并配备规则引擎、Hook系统、安全扫描器和MCP配置,支持Claude Code、Cursor、Codex等多平台。它提供了一套可让AI持续工作的完整工业级编程环境框架,而非简单的提示词集合,已完全开源在GitHub。

泊舟: Anthropic 黑客松冠军,把自己的 AI 编程工作台开源了。 项目叫 ECC。作者 Affaan Mustafa 和队友用 Claude Code 8 小时做出 http://zenith.chat 拿了冠军,后来把背后的工作流整理成...

智能体AnthropicGitHubMCP/工具
5月26日
23:39
🚨 AI News | TestingCatalog@testingcatalog
44
Grok网站的导航栏近期出现了一个新的"Grok Build"板块,目前该板块尚不可用,但可能暗示Grok Build网页体验即将发布。专用页面grok.com/build正在开发中,将成为直接在grok.com上的主入口,取代此前仅在x.ai/cli上提供的访问方式。该页面将允许SuperGrok、Premium+和SuperGrok Heavy用户通过简单命令安装Grok Build,并在终端中运行。

Myrhex: A new tab dedicated to Grok Build is being worked on in Grok Web. It is called "Build" and links to https://grok.com/bui...

xAI产品更新编码
23:29
Ant Ling@AntLingAGI
同事件精选68
团队推出 KPop,用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制,替代了此前 IcePop 方法中的固定比例掩码,能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下,仅通过纯 RL 训练,在 SWE-bench Verified 上取得了超过 76 分的成绩。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练编码论文/研究
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:蚂蚁团队把 IcePop 升级成 KPop,从固定掩码变成自适应 KL 区域,思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+,做 agentic RL 训练的同学值得翻一下博客。
23:03
Rohan Paul@rohanpaul_ai
61
论文提出Self-play SWE-RL方法,通过自我博弈提升软件智能体能力

Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。

智能体arXivMeta编码
19:59
向阳乔木@vista8
38
AI Coding 产出果然和Token消耗量直接相关。 这才两天,已用了一半多,感觉也没干啥。
现象/趋势编码
19:19
AYi@AYi_AInotes
62
Cursor:从代码编辑器到AI代理平台的进化

推文强调,Cursor被收购后已从代码编辑器进化为能交付成品的AI代理平台。用户实例显示,其能快速生成可直接使用的六维雷达图Excel模板和HTML可视化版本,类似一个“全职执行助理”。引用指出,Cursor内部模式已变,工程师扮演“AI团队经理”角色,其内部30%的合并PR由异步云代理自动创建,单周运行2000+并发代理,生成300万行代码,消耗数十亿token。一个任务被自动拆分为规划、编码、测试、发PR四个角色并行处理,人类仅需定义范围和最终审核。

AYi: 拿到Cursor赠送的$10000额度之后,我专门研究下这家公司, 看到Cursor CEO这个演讲,我突然意识到, 我们对AI编程的理解,从根上就错了, 当大多数人还在纠结哪个模型写代码更快更准的时候, Cursor已经直接进入了下一个时...

智能体现象/趋势编码
18:00
Chubby♨️@kimmonismus
19
顺便说一下,Codex的质量明显变差了。是我一个人这么觉得,还是你们也看到了同样的质量下降?

Chubby♨️: So... its not fixed, yet?

OpenAI大佬观点编码
14:59
Alibaba Cloud@alibaba_cloud
68
Qwen3.7-Max 正式成为全球第二大 AI 编程模型。在 Code Arena 上得分 1541,仅次于 Claude。专为生产环境打造:可运行 35 小时任务、1000+ 次工具调用,并在数小时内交付两周的项目。
推理模型发布编码
14:18
AYi@AYi_AInotes
69
小白零基础教程:Grok Build安装使用指南(专为非技术型SuperGrok及X Premium+用户制作)

这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build,并展示了如何用它创建真实可用的网站。其核心功能包括:利用 Grok Imagine 自动生成图片与视频,以及支持在多个文件夹中同时运行不同的项目。在使用过程中,Grok 会自动执行所需命令,无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作,以解答朋友们的疑问,并获得了马斯克的转发认可。

Dan: Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...

教程/实践编码部署/工程
11:58
Ethan Mollick@emollick
65
据我所知,我们目前没有好的测试方法来评估自2025年12月出现的自主编码工具对生产力的影响。现有的所有论文都早于 Claude Code/Codex 革命。 我们对编码领域正在发生的事情存在巨大的知识空白。
智能体现象/趋势编码
10:57
meng shao@shao__meng
59
AI工具提升效率后团队遭裁员,工程师分享真实经历

一位工程师分享称,其团队每人每月获1000美元Cursor token预算,使用后AI提效显著。两个月后,老板因效率提升决定将20人团队缩减至5-6人,导致十余人被裁。

现象/趋势编码
09:48
karminski-牙医@karminski3
67
智谱GLM-5.1-highspeed发布,实时语音编程响应仅需3秒

智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。

编码评测/基准语音
09:31
ginobefun@hongming731
62
BestBlogs 早报:Claude Code 实践、AI 自动化悖论、百川医疗 AI

Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践:将规格说明升级为 HTML 以提升结构密度;让模型通过 ask_user_question 工具主动采访需求;采用智能体原生 DOM 验证框架,实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据,反驳 AI 会大规模裁员的叙事,认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露,公司已收缩通用模型与金融等业务线,All in 医疗大模型,并即将发布新医疗大模型 M4。

智能体Anthropic现象/趋势编码
09:31
ginobefun@hongming731
60
#BestBlogs 早报 2026-05-26

推文从Anthropic工程师、Every公司CEO和百川创始人三个案例,探讨了AI智能体对工程实践与组织形态的影响。Anthropic分享了使用Claude Code的具体范式,如用HTML替代Markdown、让模型主持需求采访。Every公司CEO用团队从15人扩至近30人的数据,质疑AI导致裁员的观点。百川创始人则选择让公司专注医疗AI这一垂直方向。

智能体Anthropic现象/趋势编码
08:53
meng shao@shao__meng
63
poteto的Cursor实践:验证是自动化的核心瓶颈

原重度Claude Code用户poteto转向Cursor,基于多模型协同更自然、上下文压缩速度更快、GUI更利于agentic coding等观察。她认为AI智能体像“失忆且智商不在线但可教的新员工”,其失败模式是教学机会。关键洞察是验证才是瓶颈,盲目并行多个智能体只是在加速生产低质量代码。她开源了技能集pstack,其核心元技能/poteto-mode可根据任务自动选择工作流,旨在封装工程严谨度以提升对智能体的信任。最终论点是:自动化边界取决于对智能体端到端处理能力(尤其是验证环节)的信任程度。

lauren: http://x.com/i/article/2057201109002059776

智能体GitHub大佬观点编码
07:40
Orange AI@oran_ge
61
AI 让软件开发的第一版变得极其容易 但是真正难的是后面的100个版本 而且越到后面越难怎么回事…. 软件工程依然有很多事情要做
大佬观点现象/趋势编码
06:48
swyx@swyx
51
作者认为AI开发中的厂商锁定概念并不牢固

推文指出,AI开发中的“厂商锁定”概念并不牢固。作者因不满首个选择的错误信息,在不到30分钟内就完全迁移了一个全栈AI应用,该应用包含流式、队列、竞技模式及媒体生成等语义。作者引用并回应了realGeorgeHotz关于“需要世界模型以实现全保真度”的观点,认为在实践中,可以通过“随心构建”可拆解的完整项目,并利用技能和审查来引导大语言模型,就能在无需更多额外努力的情况下高效地进行平行开发,成果显著。

智能体大佬观点编码
05:22
Elon Musk@elonmusk
60
Grok Build 仍处于测试阶段,预计还需一个月左右,但已能胜任生产任务。

Andrew Milich: Try it out! Favorite features: - <1 second web/X search - Editing and creating assets with Imagine - Great subagent/work...

智能体xAI产品更新编码
04:58
Rohan Paul@rohanpaul_ai
65
AI智能体以代码为主要工作层时性能更佳

Meta、斯坦福与伊利诺伊的研究论文指出,AI智能体在将代码作为主要工作层时性能更佳。论文认为,大语言模型(LLM)作为文本预测器,在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”,而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”,即工具、记忆、沙箱等系统。在此框架中,测试成为传感器,代码库成为记忆,日志成为历史,沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现,代码能通过可执行步骤帮助智能体推理,通过工具调用行动,并通过测试、日志等对环境进行建模。

智能体arXivMeta编码
04:52
小互@xiaohu
63
xAI 推出 CLI 工具 Grok Build 开启测试,对标 Claude Code 与 Codex

xAI 正式推出命令行工具 Grok Build 并开启测试,直接对标 Claude Code 和 Codex。该工具面向 SuperGrok 和 X Premium+ 订阅用户开放,核心功能包括提供 Plan 与 Always-approve 模式、支持代码读写调试、子 Agent 并行处理复杂任务,以及完整的会话管理。此外,它通过 MCP 集成外部工具,支持自定义技能与插件,并具备多模态能力,可通过命令生成图片与视频。用户可通过指定命令安装启动。

智能体MCP/工具xAI产品更新
03:28
Rohan Paul@rohanpaul_ai
73
Grok Build Beta 向更多用户开放

xAI的终端编程智能体Grok Build现已以Beta版向所有SuperGrok和X Premium+用户开放,此前仅限SuperGrok Heavy用户。用户通过单条命令一键安装,即可用自然语言指令(如“制作一个过山车模拟器”)驱动其工作。Grok Build支持规划模式(创建步骤供用户审核)、并行子智能体处理复杂任务、多文件编辑、使用git、运行测试、搜索网页,并能直接调用Imagine生成图片和视频。此外,它支持构建自动化流程或完整编排器,并可将会话转化为可复用的“技能”。

xAI: Grok Build is now available in Beta for all SuperGrok and X Premium+ users. Use Plan Mode, create images and videos with...

智能体产品更新编码
03:20
Emad@EMostaque
58
xAI的Grok基础模型V9-Medium(1.5T参数)已完成训练,评测结果良好。在补充训练中加入了大量Cursor数据。该模型即将开始微调,几天后启动强化学习,预计2至3周后向公众发布。这将是相较于目前服务所有Grok生产流量的0.5T参数v8-small模型的重大改进,尤其在复杂编码任务上。有人推测其后训练可能使用了类似Cursor调整Kimi时远超预训练的计算量。

Elon Musk: Grok foundation model V9-Medium (1.5T) has finished training. Evals look good. A lot of Cursor data was added in supplem...

xAI模型发布编码
02:40
DogeDesigner@cb_doge
75
xAI发布Grok Build Beta编程智能体

xAI为SuperGrok和𝕏 Premium+用户发布了Grok Build Beta。这是一款强大的编程智能体与CLI工具,专为复杂的软件工程任务设计。它能从终端完成规划、构建、测试和部署全流程,支持在编码前制定结构化计划,并使用子代理并行执行研究、测试和代码审查。该工具允许将工作流转化为可复用的技能和斜杠命令,可连接Linear、Sentry、Grafana等MCP服务器。Grok Build Beta还具备跨会话持久化决策和上下文的记忆能力,支持以无头模式在CI/CD管道中运行,并能在沙盒环境中执行代码。

智能体MCP/工具xAI产品更新
01:54
elvis@omarsar0
58
/goal 真的太强了! 这是目前能从编程智能体中获得最大收益的方法。 为了效率,我发现最好在 /goal 之前先做规划。这能确保智能体拥有正确的上下文和目标,而这通常只有通过仔细规划才能实现。
智能体教程/实践编码
01:20
Berryxia.AI@berryxia
22
在Coding的过程中发现Claude的原则和底线和分明,"正义感"十足,非常有"人性"。 相反Claude不给你干的活,GPT默认就是可以干的活。 都不会吱声~,只会默默干活~
AnthropicOpenAI大佬观点编码
5月25日
23:23
向阳乔木@vista8
55
Codex一键部署umami统计,实现口喷建站

用户通过Codex在VPS上自部署了umami统计工具,可为网站添加无限量流量监控。相比官方版有限制,自部署方案支持对任意网站通过指令快速启用统计功能。整个过程包括网站搭建、域名配置及数据统计均可由Codex通过SSH自动化完成,体现了“口喷建站”的便捷性。

OpenAI教程/实践编码部署/工程
22:10
Orange AI@oran_ge
54
TypeNo v1.4.0 发布,集成流式预览

TypeNo 发布 v1.4.0。开发者使用 Cola Code 维护项目,核心更新为流式实时预览功能,并重新设计了 overlay 界面。本次修复了录音间歇性空文件、overlay 抢占键盘焦点、以及 Coli 模型下载状态检测误报等 bug。文档补充了卸载说明,澄清了 CLI 安装与模型下载为两阶段。 GitHub 发布链接:https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0

产品更新编码语音
21:08
🚨 AI News | TestingCatalog@testingcatalog
58
Antigravity平台新增Gemini 3.5 Flash (Low)选项,其token消耗相比Gemini 3.5 Flash (Medium)版本减少约45%。据内部测试,该新选项在SWE任务上的表现通常优于上一代的Gemini 3 Flash (High)。此举旨在优化简单任务的token使用,同时所有付费计划的Gemini配额已重置。

Varun Mohan: We heard concerns that Antigravity consumes many tokens for simple tasks now. So, we're adding Gemini 3.5 Flash (Low) as...

Google产品更新编码
20:38
Peter Steinberger 🦞@steipete
25
新的烦人点:CLI未经询问就在我的系统上安装新技能。
其他编码
15:08
🚨 AI News | TestingCatalog@testingcatalog
48
Grok基础模型V9-Medium(参数规模1.5T)已完成训练,评估结果良好,预计2-3周内向公众发布。该模型相较于当前服务所有Grok生产流量的0.5T v8-Small版本有巨大改进,尤其针对高难度编码任务。训练中加入了大量Cursor数据,并且未来还会有更多补充训练。目前微调已进行,强化学习将在几天内开始。

Elon Musk: Grok foundation model V9-Medium (1.5T) has finished training. Evals look good. A lot of Cursor data was added in supplem...

xAI模型发布编码
13:53
向阳乔木@vista8
64
X不让直接发音频,可以直接让Codex帮把音频转成MP4。 当然,会ffmpeg指令的话也很简单,但大模型太适合做这种转格式操作了。
多模态教程/实践编码
13:50
Elon Musk@elonmusk
精选71
Grok基础模型V9-Medium(1.5T)已完成训练。评估结果良好。补充训练中加入了大量Cursor数据,后续还会有更多。 微调正在进行中,强化学习将在几天后开始。预计2到3周内公开发布。 这将比当前服务所有Grok生产流量的0.5T v8-small模型有重大改进,尤其在复杂编码任务上。
xAI模型发布编码

推荐理由:Grok 参数翻到 1.5T,还专门喂了 Cursor 代码数据,这波升级明显奔着 coding 去的。如果 evals 不注水,两周后的 coding 排行榜可能变天。
09:31
ginobefun@hongming731
55
AI行业三大趋势:企业落地、下一代Claude开发与超级个体

AI行业呈现三大趋势。一是企业落地竞争加剧,OpenAI成立独立部署公司(TPG等投资40亿美元,估值140亿美元),Anthropic跟进成立类似咨询公司,Google Cloud大规模招募前场部署工程师(FDE),面试流程压缩至2天2轮。二是Anthropic揭秘下一代Claude开发逻辑,模型开发完全产品化,用户反馈经Claude自动处理直接用于训练,并引入“dreaming”记忆整理机制,认为瓶颈已从编码转向组织协调能力。三是探讨超级个体并非培训产出,而是由完整闭环工作流激发而成。

智能体AnthropicMCP/工具OpenAI
09:21
meng shao@shao__meng
40
DeepSeek 以简单低价和长期主义挑战行业现状

推文赞扬 DeepSeek 践行长期主义与大道至简,指出其通过提供足够低价的 API 及几乎可忽略的缓存命中价格来赢得用户,而非像国内其他厂商那样设计复杂的套餐与促销策略。这被视作将底层技术做扎实、积累长期用户反馈的体现。推文还引用观点,将 Anthropic 描述为“每个人都讨厌但又害怕的黄鼠狼”,并希望 DeepSeek 能改变这一行业格局。

DeepSeek现象/趋势编码
09:21
meng shao@shao__meng
51
讨论用书籍学习AI知识的可行性及"橙皮书"命名现象

推文质疑用书学习AI知识的可行性,指出Claude Code、Agent框架等知识更新极快,书易过时。同时质疑AI写书的质量,认为审查难度高。此外,作者对国内书籍常使用“白皮书”“蓝皮书”“橙皮书”等命名方式表示好奇。

智能体大佬观点编码
08:51
meng shao@shao__meng
66
在AI智能体时代,工程师依然需要深度思考代码

本文反驳了“有了AI智能体,工程师无需深度思考代码”的观点。核心论点是:AI不会降低对“理解系统”的要求,反而会提升工程师的核心价值。这主要源于责任不可转移——生产环境事故需由工程师负责,AI无法承担决策后果。AI被定位为加速日志分析等环节的加速器,但最终决策仍需由人做出。由此推导的行业趋势是:工程师应更注重系统的可理解性与可控性,如减少依赖、偏好简单系统,并将时间投入系统设计与维护。最终,行业稀缺资源正从“写代码速度”转向“对系统理解的深度”,计算机基础与判断力将更加重要。

Lee Robinson: You might believe you should spend less time thinking about code because of AI. I strongly disagree! We're watching this...

智能体大佬观点编码
‹ 上一页
1…2526272829…50
下一页 ›