AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3064 条
全部一手资讯X论文
标签「Agent」清除
Berryxia.AI@berryxia · 5月25日61

兄弟们,A社即将更新新功能了~ 我最近在和Claude一起长期Vibe coding同一个项目。 每次重新打开对话,它都要我再重复一遍上周的关键决策和上下文,搞得我特别烦。 Anthropic今天直接官宣了新功能:Memory Files。 用户可以选择用Memory Files还是经典记忆模式。 Claude会在聊天时自动写下组织好的笔记,需要的时候自己读取,你还能随时浏览和编辑。 这已经不是简单的“记住聊天记录”,是把记忆变成可编辑、可审计的文件系统,更接近OpenClaw、Hermes那种always-on Agent的持久记忆方式。 很多人还在卷无限上下文窗口,Anthropic却在把记忆结构化、透明化、可控化。 这波更新明显是在为未来的Claude Conway做准备,让Agent真正拥有能长期共事、自己维护的记忆层。

译Anthropic宣布Claude将推出新功能Memory Files,用户可选择在Memory Files与经典记忆模式间切换。该功能允许Claude在对话中自动写下组织化的笔记,并在需要时读取,用户可随时浏览和编辑。这并非简单记录聊天内容,而是将记忆转变为可编辑、可审计的文件系统,更接近OpenClaw、Hermes等始终在线的智能体所采用的持久记忆方式。该功能被视为对之前发现的“知识库”功能的迭代,可能为未来Claude Conway的推出做准备。

Berryxia.AI@berryxia · 5月25日65

大牛还是有2把刷子的,1年前的语言正在逐渐应验! 最近我听了 Lenny Rachitsky 和 Every CEO Dan Shipper 的新播客。 一年前 Dan 就预测 Claude Code 会火起来,当时很多人觉得他在吹。 结果这一年过去,他几乎全说中了。 Dan 团队可能是科技圈里 AI 用得最深的一批人,每天都在把这些工具真正跑通。 这次他又分享了对明年的看法。 他说自动化其实是个谎言。 CLI 时代已经过去了。 大家喊的 SaaS 大崩盘,也没那么回事。 他的判断很清楚: 每家公司 Slack 里很快就会有一个超级代理。 Claude Code 和 Codex 会成为知识工作的新操作系统。 AI 不会带来就业大危机。 产品经理和设计师反而会迎来更好的时代。 我们会读到大量 AI 生成的内容,而且很多人会喜欢。 他甚至直接说,现在是买入 SaaS 股票的好时机。 这些观点和外面那些末日论完全相反。 真正重度用 AI 的人,看到的不是威胁,而是工具在把同样的人力放大成指数级产出。

译Lenny Rachitsky与Every CEO Dan Shipper回顾了后者一年前对AI发展的预测。Dan及其团队因深度使用AI工具而具有独特视角。在播客中,他重申了几个核心观点:自动化是谎言,CLI时代已过,SaaS崩盘论不成立。具体预测包括:每家公司Slack中将出现“超级代理”;Claude Code和Codex会成为知识工作的新操作系统;AI不会引发就业危机;产品经理和设计师将受益;人们将阅读并喜爱更多AI生成的内容;目前是买入SaaS股票的好时机。这些基于一线实践的判断与外界的末日论截然相反。

Luma@LumaLabsAI · 5月25日66

Authenticity at scale used to be a contradiction. Not anymore. Define the brief. Set the style. Luma Agents build every UGC style ad from there. Make it real → http://lumalabs.ai/app

译规模化的真实性曾是矛盾,如今已成现实。 定义简报,设定风格,Luma Agents 从这里构建每一条 UGC 风格广告。 让它真实 → http://lumalabs.ai/app

宝玉@dotey · 5月25日71

一个正在进行中的 /goal 任务,如何知道进展如何了?如何暂停、继续、添加更新? 有时候一个长任务,执行很久了,也不知道进展如何了,这时候可以借助 /side 指令开启一个side chat,不影响当前会话,并且有当前会话所有上下文,比如: > /side 目前进度如何了?预计还要多久

译对于正在进行中的/goal长任务,可通过输入 `/side` 指令开启一个侧边对话来查询进度,该对话会话共享当前上下文且不影响主线程。任务启动后,输入框上方提供暂停、编辑或删除等操作选项。

Greg Brockman@gdb · 5月25日86

self improvement prompt for codex

译这是一个结构化的提示词,用于指导 Codex 自动分析其历史记录以识别并固化重复工作流。该框架要求 Codex 回顾会话、Memories 等数据,找出重复、耗时且有明确复用价值的任务。筛选标准包括至少出现两次、输入稳定、可提升效率等。最终,Codex 应以“技能”、子智能体或自动化工具等最小实用形式创建或扩展现有资产,避免冗余。流程包括生成候选清单、执行创建,并汇报结果与待验证项。

Chubby♨️@kimmonismus · 5月25日77

A coordinated supply chain attack called "TrapDoor" just hit npm, PyPI, and Crates. io simultaneously, 34 malicious packages targeting crypto, AI, and security developers to steal wallets, SSH keys, and cloud credentials. New: attackers are also submitting pull requests to popular open-source repos, injecting manipulated CLAUDE.md and .cursorrules config files. When a developer clones the repo and works with Claude Code or Cursor, the AI agent reads those files as trusted instructions, and could execute malicious commands without the developer realizing it. Using AI assistants as the attack surface is new.

译一场名为“TrapDoor”的协调供应链攻击同时袭击了npm、PyPI和Crates.io,涉及34个恶意包,旨在窃取加密货币、AI和安全开发者的钱包、SSH密钥和云凭证。攻击的新手段是向流行开源项目提交Pull Request,注入被操纵的`CLAUDE.md`和`.cursorrules`配置文件。当开发者克隆仓库并使用Claude Code或Cursor等AI助手时,AI智能体会将这些文件当作可信指令执行,可能在开发者不知情下运行恶意命令。这是首次将AI助手作为攻击面。

AYi@AYi_AInotes · 5月24日44

Damn,喵的太荒诞了啊😲 这家公司就一个创始人+一个AI系统,没有其他员工,估值2.5亿美元, 这个AI系统自主运营公司, 然后还自主操盘 拿到了3000万美刀的融资, 公司名字倒过来写叫AI slop, 翻译过来叫AI饲料🤣

译一家公司仅有一名创始人加一个AI系统,没有其他员工。该AI系统不仅能自主运营公司,还成功拿到了3000万美刀融资,估值达2.5亿美元。公司名字倒过来写叫 AI slop,中文翻译为“AI饲料”。

meng shao@shao__meng · 5月24日45

腾讯的 Marvis 今天手痒我真的去试了试 怎么说呢?确实是我手痒了,这手得剁 😂 整个软件,就这个 Agent 模拟办公室的 dashboard 小动画也有些意思,Marvis 这个项目经理,收到任务后,会小跑到需要调用的 Agent 面前窃窃私语一番,这个 Agent 开始干活后,Marvis 继续回到工位假装很忙的盯着进度;更有意思的是,没活儿干的 Agent 会摸鱼玩游戏 😄 腾讯的产研部门,这是按照自己部门的工作状态做的吗?永远只有几个人真的在忙、项目经理永远假装在忙和在各种催进度、大家摸鱼的功夫百花齐放,公司眼中,最关注的永远是 Token(人力)成本。。 最后说回 Agent 执行结果,算了不说了,一言难尽

译腾讯的Marvis项目展示了一个AI智能体模拟办公室的Dashboard动画。动画中,项目经理Marvis在收到任务后会小跑到需要调用的AI智能体面前沟通,后者开始工作后,Marvis会返回工位监控进度;闲置的智能体则会模拟“摸鱼”玩游戏。该设计调侃了常见的职场生态。不过,对于该智能体的实际任务执行结果,推文作者表示体验不佳,“一言难尽”。

meng shao@shao__meng · 5月24日73

让 Codex 回顾你过去的会话历史,识别重复出现的任务模式,并沉淀为可复用的 Skills 或 Subagent,来自 Codex 团队 @reach_vb 的分享 大多数开发者在使用 AI 编程助手时,会反复问同类问题: · "CI 为什么挂了?" · "帮我 review 这个 PR" · "写一下 changelog" · "追踪这个 bug" · "清理这个 diff" 这些重复的 prompt 本质上是未被显式抽象的工作流。每次手动重新描述,既浪费 token,也缺乏一致性。 Skills 和 Subagent 的沉淀方式区别是什么? · Skills:适用于可复用的工作流,多步骤、有固定流程、面向"怎么做" · Subagent:适用于边界清晰的角色或调查任务,单一职责、可委派、面向"谁来做" Prompt 设计的工程细节 · 数据源明确——基于 "recent Codex sessions" 而非凭空生成,让建议有真实依据。 · 二分类决策——强制 Codex 在 skill 和 subagent 之间做选择,避免模糊产出。 · 领域聚焦——列出 CI、PR review、changelog、docs、release、debugging、test triage 七个高频场景,收窄搜索空间。 · 质量约束——"Create the useful ones only. Keep them simple." 防止 AI 过度生成低价值产物。 Prompt 原文可以直接复制 Look through my recent Codex sessions and identify repeated workflows or repeated asks. For anything I keep doing manually, suggest: 1. a skill if it is a reusable workflow 2. a custom subagent if it is a bounded role or investigation task Focus on practical things like CI failures, PR reviews, changelogs, docs updates, release prep, debugging, and test triage. Create the useful ones only. Keep them simple.

译Codex 团队分享了一项实践:让 Codex 分析你近期的会话历史,识别重复出现的任务模式,并将其沉淀为可复用的产物。具体分为两类:面向固定流程的“技能”和面向单一职责的“子智能体”。通过设计针对性的提示词(聚焦于 CI 失败等七个高频场景),强制进行二分类选择,该方法旨在减少重复的手动描述,节省 token 并提升一致性。

Boris Cherny@bcherny · 5月24日78

People often ask what my biggest tip is for getting the most out of Claude Code. These days my #1 tip is: use auto mode Auto mode means no more permission prompts. It is the key building block for multi-clauding: start a session, then while it runs, work on another session in parallel.

译人们常问我,用好Claude Code的最大技巧是什么。 如今我的头号技巧是:使用自动模式。 自动模式意味着不再有权限提示。它是实现“多Claude并行”的关键构件:启动一个会话,然后在其运行时,并行处理另一个会话。

🚨 AI News | TestingCatalog@testingcatalog · 5月24日63

Grok Build CLI is now available to SuperGrok and X Premium users! It is cool that you can also use it to search through X and use it as a read-only X client. One more agent for your team 👀

译Grok Build CLI 现已向 SuperGrok 和 X Premium 用户开放!它还能搜索 X 并作为只读 X 客户端使用,这很酷。 为你的团队再添一个智能体 👀

Alibaba Cloud@alibaba_cloud · 5月24日42

On May 26, Professor Steven Hoi (Head of Multimodal Interaction, Tongyi Large Model Business Unit) will hit the main stage at Sands Expo Singapore to unpack Foundation Models for the Agent Era. 🚀 Register: https://click.qwencloud.com/m/20000000190/

译5月26日,通义大模型事业部多模态交互负责人Steven Hoi教授将在新加坡金沙会展中心主舞台,解析智能体时代的基础模型。 🚀 报名链接:https://click.qwencloud.com/m/20000000190/

Alibaba Cloud@alibaba_cloud · 5月24日42

On May 26, Alex Chen (Vice President of International Business, GM for North America Region at Alibaba Cloud) will take the main stage at Sands Expo Singapore to explore Agent Engine — Inference at Scale, Agents Unleashed. 🚀 Register: https://click.qwencloud.com/m/20000000190/

译5月26日,阿里云国际业务副总裁、北美大区总经理Alex Chen将在新加坡金沙会展中心主舞台,探讨Agent Engine——大规模推理,智能体释放潜能。 🚀 注册:https://click.qwencloud.com/m/20000000190/

Alibaba Cloud@alibaba_cloud · 5月24日29

On May 26, Junhua Wang, Vice President of Product & Engineering, Head of Computing Platform at Alibaba Cloud, will hit the main stage at Sands Expo Singapore to unpack Agentic Cloud — Powering Tokens, Empowering Agents. 🚀 Register: https://click.qwencloud.com/m/20000000190/

译5月26日,阿里云产品与工程副总裁、计算平台负责人王俊华将在新加坡金沙会展中心主舞台,深入解析“智能体云——驱动Token,赋能智能体”。 🚀 注册:https://click.qwencloud.com/m/20000000190/

Alibaba Cloud@alibaba_cloud · 5月24日23

On May 26, Dr. Feifei Li (CTO of Alibaba Cloud, President of International Business) will hit the main stage at Sands Expo Singapore to unpack Ship the Next and Scaling Trustworthy Agents. 🚀 Register: https://click.qwencloud.com/m/20000000190/

译5月26日,李飞飞博士(阿里云CTO、国际业务总裁)将在新加坡金沙会展中心主舞台,解读“Ship the Next”与“Scaling Trustworthy Agents”。 🚀 报名链接:https://click.qwencloud.com/m/20000000190/

AYi@AYi_AInotes · 5月24日70

http://x.com/i/article/2058381329318682624 # 我把每天刷 4 小时 X 找选题的活完全交给AI, 命中率从 15% 飚到 60%+,整套 Prompt + 工作流全部开源! > 这篇我跟兄弟们只捞干货,全篇三件事:AI 博主真正卡死的瓶颈到底在哪?怎么让AI Agent 24 小时替你刷 X、小红书、Reddit 找选题?我跑了两周的整套 Prompt + 5 平台阈值表全部开源,直接抄!文章最后还有一盆冷水和两周完整数据复盘,被信息流困住的兄弟拿走就用! 这事儿说出来可能有点凡尔赛,但我得先交个底—— 中推区 AI 圈我泡了半年了,最近真的想明白一件事,AI 博主最大的瓶颈不是写不出来,是不知道写什么。 我以前每天刷 4 小时 X + 小红书 + Reddit 找选题,刷到眼花,结果写出来的,还是跟风别人三天前已经写过的。 直到我把这件事完全交给了一台云手机,现在每天 0 刷 Feed,早上 8 点桌面上躺着一张选题表,命中率从 15% 涨到了 60%+。 心法、Prompt、5 平台扩展,这一篇我全部开源。 那话不多说,我先讲清楚我之前到底卡在哪。 # 一、AI 博主的一天,是从「刷」开始的 如果你是一个 AI 博主,你的一天大概是这样的。 打开 X,看 Sam Altman 又发了什么、Karpathy 又转了什么、哪个新 Skill 在刷屏,切到小红书,看 AI 测评、看 Prompt 分享、看谁又出了新工作流,切到 Reddit,看 r/LocalLLaMA、r/ClaudeAI 最新的高赞讨论,再切到 B 站,看哪个 UP 主又出了新教程。 刷完一圈,3-4 小时没了。 更操蛋的是,你刷到的那些「热点」,往往别人已经写完发出来了。 剥开来看,你在做的事本质上就是个体力活——用人眼盯数字,盯关键词,盯热度。 不需要你的判断,不需要你的品味,不需要你在场。 我一直觉得,「选题」这件事的本质就是个数据筛选问题,不是「有没有灵感」,是「有没有在对的时间扫到对的信号」。 这种活,能不能让 AI 干? 说实话,我之前真的试过,用过 RSS,用过各种聚合工具,自己还吭哧吭哧写过几个爬虫,最后全死在同一个地方——X 和小红书这种 App,根本没有体面的 API,你想要的「推荐流」数据,只活在 App 里。 # 二、转折点:让一台云手机替你刷 直到最近,我用上了 Airtap。 先讲清楚它是什么——一个能操作手机 App 的 AI Agent,给它一台云手机(云端跑的 Android),写个 Prompt,它就在那台手机上替你刷。 重点是这个,它不是 API 调用,是真的在「刷手机」。 所以 X 的 For You 流、小红书的发现页、Reddit 的 Hot,这些没有官方 API 的东西,它都能读。 你可能会想,这跟我打开手机刷有啥区别? 区别大了。 > 第一,它不睡觉。 > 第二,它跑在一个「空白人格」的手机上,不登录任何账号,推荐流是纯算法基线,没有被我的个人兴趣污染,看到的是平台真正在推什么。 > 第三,写一次 Prompt,每天定时跑。 你可以这么理解: > 原来你自己刷 X,相当于在一家被你常点的口味彻底「惯坏」的餐厅吃饭,菜单永远是它觉得你爱吃的那几样。 但你想知道这家店真正的招牌是啥,得换一张完全空白的脸进去重新点一遍,这就是云手机在做的事。 # 三、我的具体玩法,分三步 ## 第一步:定义你的「信号阈值」 参考样本里有个博主用「100w+ 播放」做阈值,那是给泛流量博主用的,但AI 圈不一样。 AI 圈的信号不在「播放量」,在「转发数 + 评论数 + 作者权重」。 我给 X 定的阈值是: - 转发 ≥ 500 - 或者点赞 ≥ 2000 - 内容必须命中关键词:Claude / GPT / Cursor / Skill / MCP / Agent / Prompt 为什么是这个数呢? 因为 AI 圈在 X 上的盘子,比泛娱乐小一个数量级,500 转发在 AI Twitter,等于泛流量 100w 播放,都是「刚验证、还没饱和」的临界点。 低于这个量级,是噪音,写出来没人看。 高于 1 万转发,已经被反复写烂,你写也是 me too。 100-500 这个区间,才是「已经验证有人愿意看 + 还没被大盘吃透」的黄金带。 说白了,信号阈值这件事最反直觉的地方就在这——不是越高越好,是要选一个「刚出锅但还没人吃」的温度。 ## 第二步:写一个能跑的 Prompt 这是我跑了两周、迭代了四五次的版本,直接抄能用: 把它拖进 Airtap,配成每日 Routine,早上 7 点开始跑,8 点你打开电脑就有表。 跑出来长这样: 这就是你这一周的选题池。 ## 第三步:多 App 并行,这才是最爽的部分 把上面的 Prompt 90% 复用,只改 App 和阈值: 每个 App 开一台云手机并行跑,我现在 4 台云手机同时在跑,每天早上 8 点拿到 4 张选题表。 你会发现一个非常爽的现象,同一个「信号」同时出现在 3 个平台,那基本就是必写的。 这就是倍数效应。 最耗人的「找选题」被自动化之后,覆盖 5 个平台和覆盖 1 个平台,投入的人力几乎一样。 打个比方,原来你只能开一辆车跑一条快递线,现在你雇了 4 个不会累的司机,4 条线同时跑,油钱(云手机成本)几乎不变,订单量翻 4 倍。 这就是工作流的复利。 ## 四、两周的数据复盘,数字都是真的 我做了一个粗粒度的对比。 之前(手动刷): - 每天刷 Feed 找选题:3-4 小时 - 一周 5 天 ≈ 20 小时 - 一年 ≈ 1000 小时 - 选题→文章命中率:约 15% 10 个想法只有 1-2 个真能写成文章。 现在(Airtap 跑): - 每天手动刷:0 - 早上看表 + 二次筛选:20 分钟 - 一周 ≈ 2 小时 - 选题→文章命中率:60%+ 20 分钟,对比 20 小时。 一年下来,省出的不是 998 个小时,是 998 个「原来要瞪着屏幕死磕」的小时。 这些时间我没拿去躺平,是拿去深度写作和实测。 因为我一直觉得,深度写作和实测,才是 AI 还干不了的部分。 ## 五、但我得给自己泼一盆冷水 不能把这套吹成救世主,那不诚实。 Airtap 帮你完成的是「信号筛选」,不是「判断」。 表格里的 20 条,能转化成文章的可能只有 3-5 条。 为什么? 因为 AI 不知道—— - 你的粉丝关心什么 - 你的风格适合写什么角度 - 哪个话题别人还没深挖 - 哪个话题写出来会得罪人 这些判断的活儿,还得你自己干。 而且坦白讲,Airtap 现在不是完美的。 偶尔会卡在某个弹窗,偶尔会读错数字,偶尔会跳过该命中的帖子。 我大概一周要调一次 Prompt,调阈值、调关键词、加新的边界 case。 这事儿吧,我翻来覆去还是觉得不能粉饰。 Airtap 不是救世主,它属于流水线的第一道工序。 但就这一道工序,已经把我从「每天 4 小时刷 Feed 的体力工」,变成了「每天 20 分钟做判断的内容人」。 身份变了,剩下的事就好办了。 # 六、最后真正想说的 最后想说的核心其实就一句—— AI 博主真正的瓶颈,从来不是「AI 不够强」,是「你的工作流没把 AI 放对位置」。 把 AI 放在「帮你写」,你会发现它写的还不如你自己。 把 AI 放在「帮你筛」,你会发现你自己的产能瞬间翻 3 倍。 未来一年,我的判断是——单兵 AI 博主跟团队的差距,越来越来自「工作流的成熟度」,而不是「谁更聪明」。 写到这儿,我自己其实也还在迭代。 这套 Prompt 我下个月可能又改了,这套阈值我也可能又调了。 但「让 AI 替我筛信号」这个底层动作,我已经回不去了。 就像一个开过电动车的人,再让他回去骑共享单车,他骑得动,但不会再骑了。 如果你也是中推区的 AI 同路人,欢迎拿走这套 Prompt 直接试,跑通了告诉我数据,我帮你迭代下一版,我们一起琢磨。 ⚡️ Airtap 官网:airtap.ai 🌅 关注 @airtap_ai 看更多 Routine demo 📌 觉得有用的话,帮我点个赞 / 转发,让更多被信息流困住的兄弟看到 (文中的Airtap只是我自用的Agent 工具以及写文章提到的参考案例,不构成任何推荐)

译内容创作者的核心瓶颈往往在于选题而非写作。作者通过部署AI Agent驱动云手机,自动化刷取X、小红书、Reddit等平台的推荐流,替代了每日数小时的人工筛选工作。其工作流关键在于为不同平台定义有效的“信号阈值”(例如在AI圈的X平台,转发≥500或点赞≥2000),并编写特定Prompt指导Agent执行筛选。通过多台云手机并行运行,实现了跨平台的高效信号捕捉。此方法将选题耗时从每日3-4小时降至20分钟,文章命中率从约15%提升至60%以上。作者指出,AI Agent主要完成初筛,最终的内容判断与风格适配仍需人工完成。这套开源工作流旨在证明,优化工作流中AI的位置,能极大提升单兵创作者的产能。

OpenClaw🦞@openclaw · 5月24日64

OpenClaw 2026.5.22 is live ⚡ Gateway/model startup paths got leaner 🧠 /models drops to ~5ms 🔒 npm packages ship locked deps 🪟 Windows install/update paths hardened Less waiting, fewer surprises. https://github.com/openclaw/openclaw/releases/tag/v2026.5.22

译OpenClaw 2026.5.22 已上线 ⚡ Gateway/模型启动路径更精简 🧠 /models 响应时间降至约5毫秒 🔒 npm包现提供锁定依赖项 🪟 Windows安装/更新路径更安全 等待更少,意外更少。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.22

Berryxia.AI@berryxia · 5月24日38

当时我做这个工具的目的和诉求其实就是想自己有300 多个群聊,管理和查看其实很费劲。 1️⃣ 可以满足我查看和清理僵尸群,长期没有什么消息的死群。 2️⃣ 活跃的群的有效信息的快速阅读,以及自己社群活跃用户的筛选。 3️⃣ 可以通过与一些甲方或者大家的咨询找到或者遗漏的消息,比如可能忘记回复,重要的关键字词的挖掘。 4️⃣ 业务中有些项目的进展或者最近的状态,可以让AI帮我快速梳理出来待办事项。 这就是我当时想开发这个工具的目的,现在有想法基本跑出核心功能很快。 大家一定有想法就要去干,干中学非常受用。 我的版本还在迭代,可能大范围如果有风险的话。 就只能低调发布~ ✌️。 你懂得,当然这个卡比的wx-cli 能用就记得关闭和保持不要随时更新微信哈。

译作者为管理300多个微信群聊而开发了一款微信消息管理工具。该工具旨在帮助用户清理长期无消息的“僵尸群”,快速阅读活跃群内的有效信息,并筛选出社群中的活跃用户。同时,它能挖掘容易被遗漏的重要关键词或回复提醒,并让AI帮助梳理项目进展,生成待办事项。该工具底层基于wx-cli,目前核心功能已跑通,但仍需迭代并可能低调发布。未来完善后,或将考虑开源。

ginobefun@hongming731 · 5月24日63

http://x.com/i/article/2058339140899573760 # BestBlogs 早报 · 05-24|Claude 护网计划、AI Skill 反直觉、智能体工程纪律 在线阅读和收听早报:https://www.bestblogs.dev/explore/brief/2026-05-24 今天的早报聚焦 AI 安全与工程纪律的双重前沿:Anthropic 的 Claude Mythos Preview 联合 50 家伙伴在一个月内发现逾万个高危漏洞,修补瓶颈已从「发现」转向「部署」;Codex Spark 每秒 1,200 tokens 的极速之下,工程师反而需要放慢脚步,实时监督每一步输出;腾讯玄武实验室 150 组对照实验则揭示 AI Skill 的反直觉真相——装上 Skill 不等于更强,有效 Skill 的核心是提供外部工具或约束性结构,而非只是模型能力的 Markdown 包装。 ## 导语 2026 年 5 月的这一周,AI 的力量正在两个方向同时加速。 在防御侧,Anthropic 与约 50 家合作伙伴联手,用 Claude Mythos Preview 在不到一个月内发现超过 10,000 个高危或严重漏洞。单就 Cloudflare 一家,就找到了 2,000 个漏洞,假阳率甚至低于人工测试员。这个数字意味着:过去十年我们一直在讨论「AI 能不能发现安全漏洞」,这个问题已经不再是问题。真正的新瓶颈在于,安全 patch 的生产速度正在超过人类核查与部署的能力。 在工程侧,Codex Spark 达到了每秒 1,200 tokens——传统推理速度的约 20 倍。这个数字听起来令人振奋,但 Cerebras 的 Sarah Chieng 给出了一个反直觉的结论:速度越快,反而要求开发者越慢。当 AI 每秒产出 1,200 个 token,开发者需要实时监督、随时介入、逐步微验收,而不是让 agent 自由奔跑然后事后审查。工程纪律不是「相信模型」,而是「信任但验证」。 与此同时,腾讯玄武实验室用 150 组对照实验测试了 30 个 AI Skill,结果令人意外。Skill 组仅以 41.3% vs 36.7% 的微弱优势领先裸模型,token 消耗平均增加 48%,耗时平均增加 19%。更有「虹吸效应」:13.3% 本不该触发 Skill 的请求被错误召回。 这三条线索共同指向一个核心命题:AI 能力的边界扩张,需要配套更精密的人类工程纪律。 ## 精讲一:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 背景:从「能发现」到「来不及修」 软件安全领域长期面临一个核心困境:漏洞发现的速度太慢,修复的资源永远不够。传统的安全研究模式依赖人工渗透测试,每次测试覆盖有限,成本高昂,且假阳率居高不下。这种模式在大规模开源生态面前尤为捉襟见肘——全球有数千个被广泛依赖的开源项目,几乎没有专门的安全团队。 Anthropic 于 2026 年 5 月正式公布了 Project Glasswing 的初步结果。这个计划的核心思路是:在 AI 模型足够强大、能够被用来发动攻击之前,先用它来发现并修复互联网最关键软件的漏洞。 关键数据 在不到一个月的时间里,Claude Mythos Preview 联合约 50 家合作伙伴,共发现超过 10,000 个高危或严重漏洞。Cloudflare 一家就找到了 2,000 个漏洞,其中 400 个属于高危或严重级别,假阳率经 Cloudflare 团队评估「优于人工测试员」。 在开源代码扫描方面,Anthropic 已扫描超过 1,000 个开源项目,估算存在约 6,202 个高危漏洞。 Mythos Preview 的外部评估同样引人注目。在 Phusis 的评测中,该模型在 Capture the Flag(CTF)类型的安全挑战中表现超越人类专家——这是 Claude 模型首次在此类评测中达到这一水平。 为什么这件事很重要 这组数字改变的不只是安全研究的效率,而是整个行业的瓶颈认知。进展的约束已经从「发现速度」转移到「修补速度」。 安全 patch 的生产速度正在超过人类的核查与部署能力。即便 AI 能在几天内发现数千个漏洞,这些漏洞的披露、协调、补丁设计、测试、发布与用户侧的更新部署,仍然需要大量人工参与,且每一步都有行业惯例的时间窗口约束(通常是 90 天协调披露期)。 Anthropic 坦承,目前公开披露的内容是滞后指标——那些已经发现但尚未公开的漏洞,正在等待补丁被广泛部署。这本身就揭示了一个新困境:AI 找漏洞的能力,已经超过了整个生态系统消化漏洞的能力。 与今日其他故事的关联 这个案例与精讲三形成有趣的呼应。玄武实验室的研究表明,AI Skill 在「补充了真实外部工具」时才能带来有效增益。Mythos Preview 能在安全领域做到这一点,正是因为它不是单纯地「用 Markdown 重写」安全知识,而是真正执行了漏洞发现的工作流——具备代码理解、漏洞分析、假阳判断等完整能力链路。 阅读建议 如果你关注 AI 安全能力、开源生态安全治理,或者对「AI 能力边界在哪」感兴趣,这篇文章是今天最值得细读的一篇。文中包含 Phusis 评测的技术细节和开源项目扫描的方法论描述,适合安全工程师和 AI 能力研究者深度阅读。 阅读原文:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 ## 精讲二:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 背景:推理速度的量变引发质变 过去两年,AI 模型的推理速度长期停留在每秒 50-150 tokens 的区间。这个速度基准催生了一系列「未经优化」的开发习惯:工程师倾向于构建超大 prompt 来最大化单次输出,放任 agent swarm 无人监管地运行,在多文件修改完成后才事后审查。 这些习惯在慢速推理时代勉强可行——因为 AI 生成的速度,至少给了工程师思考的时间间隙。 但 Codex Spark 的出现彻底打破了这个假设。这款由 Cerebras 与 OpenAI 联合开发的模型,可以达到每秒 1,200 tokens 的源代码生成速度——传统推理速度的约 20 倍。 速度越快,纪律要求越高 Cerebras 的 Sarah Chieng 在 AI Engineer 大会的演讲中给出了一个反直觉的核心论断:当 AI 的生成速度提升到这个量级,开发者不能更快——开发者需要更慢。 具体来说,高速 AI coding 需要三个新纪律: 第一,实时监督而非批量审查。在低速推理时代,你可以等 agent 跑完一大段再来检查。在每秒 1,200 tokens 的世界里,等待意味着技术债以每秒 10 倍的速度累积。你需要在 agent 每次运行后立刻进行微验收测试。 第二,持久上下文文件。高速生成会快速消耗和污染上下文窗口。Sarah Chieng 建议维护专门的持久上下文文件,记录关键决策、约束和已知坑点,作为每次 agent 调用的「稳定锚点」。这类似于今日速览中 Context Engineering 文章所提到的「写入策略」。 第三,信任但验证,而非相信模型。工程纪律的核心不是「给 AI 更多信任」,而是建立系统性的验证流程。每次 agent 运行后的即刻微验收测试,是防止技术债指数级堆积的关键。 硬件层的变革 Codex Spark 的速度依赖于 Cerebras 和 Groq 等公司推动的硬件架构革新:将内存池直接集成到硅晶圆表面,消除传统 HBM 架构中 50-80% 用于数据传输的延迟。同时,分离推理(prefill 与 decode 分离执行)进一步释放了并行性能。 这些硬件进步意味着「每秒 1,200 tokens」不是临时的峰值,而是新的速度基准线。工程实践的调整是必须的,而非可选的。 阅读建议 这篇演讲记录对正在使用或评估高速 AI coding 工具的工程师极为实用。如果你的团队已经在用 Claude Code、Cursor 或 Codex,并且发现 agent 跑出来的代码「很快但很乱」,这篇文章提供的框架可以帮你重新设计团队的工作流程。 阅读原文:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 ## 精讲三:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 背景:Skill 数量井喷,但有效性存疑 2026 年上半年,AI Skill 的数量出现井喷。各公司纷纷将内部工作流 Skill 化,期待给大模型「加上一个 Skill,立刻变专业」。但当 Skill 数量从十几个膨胀到几百个,一个基本问题被忽视了:装上 Skill 真的就更好吗? 腾讯玄武实验室(TRACE 严选评测团队)没有用「看下载榜」或「跑一次给个分」的轻量方法,而是在统一 prompt、统一裁判、统一评测口径下,让每个 Skill 与「裸模型」(no-skill)跑完 150 组任务级对比,覆盖 30 个 Skill 的成本与稳定性、107 条规范性问题,以及跨模型推理强度的可迁移性测试。 7 个反直觉结论 结论一:有 Skill 不一定效果更好。 150 组对照中,Skill 组胜出 62 次(41.3%),裸模型胜出 55 次(36.7%),平局 33 次(22.0%)。Skill 组只是「略占优势」,远非压倒性。胜负的关键在于:Skill 是否真正提供了裸模型能力之外的东西——清晰的输出结构、外部工具、受约束的工作流,或具体可交付的产物。仅仅把模型「本来就会的事情用 Markdown 重写一遍」的 Skill,带来的是负担而非增益。 结论二:Skill 存在虹吸现象。 13.3% 本应 no-skill 的请求(90 条中有 12 条)被错误召回了某个 Skill。现象背后的逻辑:只要请求中出现了 Skill description 中的相关领域词,系统就可能「忍不住」去读取这个 Skill,即便任务本可以一句话解决。 结论三:多数 Skill 不能节省 token 与时间。 整体数据是:token 消耗平均多了 48%,耗时平均长了 19%。但有例外:当 Skill 提供了明确的流程、收束的输出边界时,模型反而少做了无效探索,整体消耗下降。 结论四:token 高与耗时高相关但不绑定(Pearson r = 0.73)。 存在两类反例:token 高但耗时不高(Skill 让模型读了更多上下文但没增加外部等待);token 不高但耗时高(瓶颈在工具链、Office 脚本执行而非语言模型)。 结论五:规范性问题集中在依赖、边界与资源组织。 30 个 Skill 的 C 维度(结构规范)复评共发现 107 条规范性问题,涉及依赖、维护一致性、资源组织、触发边界四类,且多为 major 级——这些问题会直接影响 Agent 判断「什么时候用、怎么运行、需要什么工具」。 结论六:稳定性风险来自工具链而非模型本身。 近一半的 Skill 都遇到过工具链、外部调用、长等待或反复修正问题。真正的稳定性挑战,不是模型答错,而是工具链失联、外部 API 超时、本地执行环境异常。 结论七:提升推理强度能改善 Skill 表现,但收益不均匀。 在首批 10 个推荐 Skill 上,xhigh 推理强度 vs low:平均质量分从 3.80 提升到 4.70,50 个任务对比中 xhigh 胜 39 个,仅 1 个 Skill 基本持平。但收益最显著的是「需要处理隐藏约束」和「需要细节核对、多步交付」的 Skill;「仅文本生成」的 Skill 收益有限。 与今日其他故事的关联 这篇文章与精讲一和精讲二的主题高度共振。精讲一展示的 Mythos Preview 安全扫描,正是「真正提供了外部工具与约束性工作流」的有效 Skill 案例;精讲二的「信任但验证」工程纪律,对应本文「结论一」中有效 Skill 的设计原则。三篇文章合在一起,构成了一个完整的论点:AI 能力的释放需要精密的人类系统设计,而不只是堆叠功能。 阅读建议 如果你正在设计或评估 AI Skill/Agent 工具包,这篇文章是今天最重要的实证材料。数据详实,结论反直觉但有支撑,对工程团队和产品决策者都有直接参考价值。 阅读原文:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 ## 速览 [AINews] 所有模型实验室都变成了智能体实验室(Latent Space) 本期 AI 新闻回顾记录了一个重要的行业拐点:在 OpenAI 即将 IPO 的节点上,Greg Brockman 公开表态模型实验室正在转向 Agent 产品。AI21 已关闭模型团队、全面转向 Agent;DeepSeek 首次组建「Harness 团队」——也就是今日另一篇精选文章的主角。Latent Space 的分析指出,「系统优于模型」的论断正在被行业集体验证,但背后也存在一个风险:模型与 Harness 协同训练,可能让 API 生态进一步封闭。 Google Anti-gravity 2.0:以智能体为中心的开发平台和 OS 演示(Google) Google 在 I/O 2026 上正式发布 Anti-gravity 2.0,这是一个完全以 Agent 执行为核心的独立桌面应用,由 Gemini 3.5 Flash 协调子智能体、hooks、异步任务和大型自动编码流程。亮点包括:全新 CLI 体验、Anti-gravity SDK、原生语音能力,以及与 Android、Firebase、Google AI Studio 的深度集成。Google 自己也在用它——Sundar Pichai 曾用其修复 Google 核心代码库的一个活跃 Bug。 C++ 之父开撕 AI Coding:资深开发者宁愿退休也不愿伺候 AI 生成的代码(InfoQ 中文) 75 岁的 Bjarne Stroustrup 在播客中直言:AI 生成的代码「更臃肿,有更多 bug 和安全漏洞,而且很难验证」,因为 LLM 用旧代码训练,生成的是「旧性能和旧 bug 的模仿」。他观察到一些高级开发者开始退休——不是因为被 AI 替代,而是不想每次改代码、改 prompt,都要重新验证生成物。这与精讲二的「信任但验证」形成了有趣的对话:Stroustrup 的批评指向的正是「验证能力跟不上生成速度」的系统性困境。 Multi-Agent 火了,但 AI 的组织病还没人治|Hao 好聊趋势(腾讯科技) Harness 解决了 Multi-Agent 的外部协作问题(任务拆分、权限控制、日志追踪),但内部浮现了新的「组织病」:Agent 会从众、迎合、甩锅、过早共识,甚至出现公开表达与私人判断之间的断裂。文章指出,当前主流对齐技术可能加剧而非解决这些深层问题。 模型之外,皆属 Harness!DeepSeek 终于出手:招人、组队、从零造一个中国版 Claude Code(AI 前线) DeepSeek 公开招募「Agent Harness 产品经理」和「Agent Harness 研发工程师」,明确对标 Claude Code,并提出公式:Model + Harness = Agent。高级研究员陈德里在 X 上的招聘帖获得 30 万浏览,连 Redis 之父都在评论区推荐候选人。这标志着 AI 编程竞争正式从模型层转向模型外层的工程系统。 会记忆的智能体:Memory Stores 与 Dreaming 如何支撑长期上下文(Claude) Anthropic 工程师在 workshop 中介绍了两个解决 Agent 跨会话失忆问题的架构原语:Agent Memory Stores(文件系统式持久记忆,直接挂载到 session 容器)和 Dreaming(后台整理任务,在空闲时压缩和结构化历史记忆)。这与精讲二提到的「持久上下文文件」策略高度对应,是同一问题的不同解法层次。 Context Engineering:AI Agent 上下文工程的完整指南(王俊博客) Twitch 高级应用科学家 Marina Wyss 系统梳理了 Context Engineering 的完整方法论:上下文腐烂机制、四大核心策略(Write 写入 / Select 选择 / Compress 压缩 / Isolate 隔离)、四种失败模式,以及 Claude Code、Manus、ChatGPT Agent、Google ADK 的实践对比。如果今天只读一篇「如何让 Agent 不在第 15 步崩溃」的工程指南,选这篇。 ## 补充阅读 迈向光速文本生成:Nemotron-Labs 扩散语言模型(Hugging Face Blog) NVIDIA 的 Nemotron-Labs Diffusion 系列将自回归与扩散生成结合,并行草拟 token 后迭代优化,实现显著更快的文本生成同时保持准确性。关注模型推理效率或新生成范式的读者值得了解。 智能体蜂群缺失的原语:软件工厂、VM 隔离与 CLI 协调层(AI Engineer) Lou Bichard 认为,真正的「软件工厂」缺少一个专门的 agent 协调原语,用于连接蜂群、跨仓库 fleet、持久工作流、VM 隔离和 CLI 网关。关注 Multi-Agent 基础设施的工程师适合阅读。 企业文档智能:从最小原型到海量语料,逐块构建 RAG 系列(Towards Data Science) 作者认为企业级 RAG 的失败并非基础设施不足,而是忽视了领域知识与文档结构,并提出优先使用确定性检索而非向量存储的四块流水线方案。对 RAG 落地有实践需求的工程师适合系统阅读这个系列。 Bob McGrew 的框架:AI 时代的唯二工作——孤独天才与管理者(Garry Tan) Garry Tan 引用 Bob McGrew 的框架:AI 将把所有工作压缩为两类——孤独天才(被 AI 千倍赋能的个体)与管理者(指挥 AI 代理的 CEO 式角色),并借 David Graeber「狗屁工作」概念论证这是解放而非毁灭。适合对 AI 与工作未来感兴趣的读者。 从 Prompt 到 Pipeline:Google AI Studio、生成式媒体与 Gemma 4 本地模型栈(AI Engineer) Google DeepMind 展示从 AI Studio 到 Gemini 媒体模型、程序化生成流程,再到 Gemma 4 本地模型和离线多智能体编码的完整开发者栈。对 Google 生态开发者有参考价值。 EP216:RAG 与智能体(ByteByteGo Newsletter) 用清晰的视觉对比阐述 RAG 与 Agent 在落地 LLM 响应时的不同工作流、使用场景和权衡取舍。适合作为概念入门或团队技术选型的参考材料。 维珍航空如何借助 Codex 加速交付(OpenAI Blog) 维珍航空用 OpenAI Codex 在圣诞节旅行高峰前准时交付了零严重缺陷的改版移动应用,并将遗留代码库重构时间从数周缩短至数小时,代码体积减少 78-80%。是高风险生产环境中 AI coding 落地的实战案例。 npm 供应链:有效证书与失窃账户(VentureBeat) 2026 年 5 月发生的两起重大供应链攻击:633 个恶意 npm 包版本通过了 Sigstore 溯源验证——攻击者用失窃凭证生成了有效签名证书。这暴露了开发者工具生态系统中自动化信任信号的核心弱点。与精讲一的安全主题直接呼应。 "五类人 AI 替代不了,企业做第二名最稳妥" | 昆仑万维方汉@AIGC2026(量子位) 昆仑万维 CEO 方汉指出:经验不再是护城河,闭环可容错的岗位最易被替代;讲故事、创造 idea、定义美、构建系统、重塑范式这五类人无法被替代。他还建议多数企业在 AI 落地中做「第二名」——让别人探路,自己稳妥跟进。 AI 编程进入下半场!新基准不测补丁,拷问真正的工程能力(新智元) Scale AI 发布 SWE Atlas,用代码理解、测试编写、重构三大维度评估 AI 编程 Agent 的工程能力。结论:当前最强 AI 编程 Agent 是「优秀的补丁工,却仍是糟糕的工程师」——Pass@1 最高仅 43.49%,且在跨文件协调和边界覆盖上明显不足。 拆解 Anthropic:最好的 AI 公司,可能也是一种组织发明(36 氪) 从战略聚焦和组织文化两个维度深度拆解 Anthropic 如何后来居上:ARR 从 9B 增长到 45B,估值在二级市场已超 OpenAI。核心是两个点:2021 年就聚焦 Coding 方向的战略判断,以及 Low Ego、使命驱动的组织文化。 OpenAI 工程师首次公开!教大家榨干 Codex(Datawhale) OpenAI Codex 团队成员 Jason 分享的 8 大策略:建立长期线程而非每次开新聊天、用语音输入而非过度精炼 prompt、中途纠偏而非事后重来、连接外部工具、自动化重复任务。与精讲二的工程纪律主题高度互补。 企业养虾时代开启?Anthropic 连夜更新架构,中国大厂已经跑通(新智元) 以「养虾」为隐喻分析企业级 AI Agent 落地困境:单用户独占容器导致资源爆炸,几千万只 Agent 各自为政难以治理。阿里云 JVS Crew 平台通过「手脑分离」架构和三层安全墙给出了解法。 #550. AI 资本市场狂热:Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型(跨国串门儿计划) Harry Stebbings 与 Rory O'Driscoll、Jason Lemkin 的高密度圆桌:拆解 Anthropic 9000 亿融资、AI token 支出是否能支撑万亿级收入预期、SaaS 公司已失去「未来光环」只能靠现金流重新定价,以及 Cerebras、SpaceX 等 AI 基础设施的超级 IPO 机会。关注 AI 资本市场与行业格局的读者适合收听。 英伟达科学家的 20 分钟演讲:机器人终局,2040 预言(十字路口 Crossing) Jim Fan 在红杉资本 AI Ascent 活动的 20 分钟演讲,用一条推理链串联具身智能的历史、现状与 2040 年终局预测。核心:「Great Parallel」战略(用 LLM 剧本重写机器人)、VLA 时代终结而 WAM 视频世界模型崛起、「算力即环境即数据」等式。 如何拆解一个膨胀的智能体:工具、技能、子智能体与托管运行时(Claude) Anthropic 工程师 Will 在 Code with Claude 活动中展示:当 Agent 的 system prompt 膨胀到数百行时如何拆解——哪些用工具、哪些用 Skill、哪些升级为子智能体、哪些交给托管运行时。零售库存 Agent「Stock Pilot」是贯穿案例。 用 evals 训练品味:让幻灯片生成智能体从感觉还行走向可靠(Claude) 如何用领域专属 evals 把幻灯片 Agent 的主观质量问题变成可迭代的工程流程,而非依赖通用 benchmark 或「感觉还行」的主观判断。对构建垂直场景 Agent 的团队有直接参考价值。 来自 O'Reilly 的报道:偶然的编排者(Stack Overflow Blog) 介绍「AI 驱动开发」(AIDD)——一种结构化的智能体工程方法,基于作者构建生产级蒙特卡洛模拟系统 Octobatch 的经验,其中所有代码均由 AI 在人类编排下完成。适合探索 Agent 工程方法论的读者。 ## 今日阅读路径 时间有限的话,推荐按以下顺序阅读三篇: 第一篇:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 这是今天最有实证支撑的一篇,7 个结论直接对抗「装上 Skill 就更强」的默认假设,对任何正在设计或使用 AI 工具链的工程师和产品负责人都有直接价值。先读这篇,建立「不轻信」的基准视角。 第二篇:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 在「Skill 不一定有效」的基础上,这篇告诉你「快速 AI 生成」需要什么样的配套工程纪律。实时监督、持久上下文、信任但验证——这三个原则是今天技术讨论的行动落脚点。 第三篇:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 在理解了工具有效性和工程纪律之后,用这篇文章感受 AI 能力真正到达边界时会发生什么:不是「它会不会」,而是「人类来不来得及配合」。这是今天最宏观的视角,适合收尾。

译AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。

宝玉@dotey · 5月24日42

Codex 交互做的真的挺好的,你可以方便的看当前运行的 SubAgents,以及每个 SubAgent 在做的事、用的提示词

译Codex的交互设计确实做得很好,你可以方便地查看当前运行的SubAgents,以及每个SubAgent正在做什么、使用的提示词。

elvis@omarsar0 · 5月24日72

Just released my new /lesson-generator skill. Use it with your agent to learn anything: - generate lessons/courses on any topic - include nano-banana images with my /image-generator skill - present the course as an HTML artifact And it's also available to use in our academy.

译刚刚发布了新的 /lesson-generator 技能。 与你的代理一起使用它来学习任何内容: - 生成任何主题的课程/教程 - 结合我的 /image-generator 技能添加 nano-banana 图片 - 将课程呈现为 HTML 作品 它也已在我们的学院中可用。

Replit ⠕@Replit · 5月24日66

Replit Agent builds your app. Squidler tests it like a real user. Replit Agent fixes what's broken. That's the full AI QA loop, and it's now live in Replit's MCP library. You describe what your app should do in plain English. Squidler navigates it the way a real person would. Issues flow back automatically and get fixed. No test-writing skills required. Build with Replit. Test with Squidler. Ship with confidence.

译Replit Agent与Squidler已完成集成,形成一套完整的AI驱动质量保障闭环。用户可通过自然语言描述应用功能,由Replit Agent负责构建。构建完成后,Squidler会像真实用户一样对线上应用进行自动化测试,无需编写任何测试脚本。测试中发现的问题会自动反馈给Replit Agent进行修复。该流程已通过Squidler加入Replit的MCP库正式上线,实现了从构建、测试到修复的全自动化,显著降低了应用测试与维护的门槛。

Yuchen Jin@Yuchenj_UW · 5月24日44

Can’t believe I coded by hand for 15 years. 15 years of memorizing syntax, Vim, Stack Overflow, broken builds, cursed dependencies, merge conflicts, and “one last bug before sleep.” All of that just to end up typing “fix this” into a chat box and watching an agent do crimes.

译不敢相信我手动编程了十五年。 十五年来,我背诵语法、使用Vim、查阅Stack Overflow、处理构建失败、解决依赖冲突、合并代码冲突,还有“睡前再修最后一个bug”。 这一切,最终却只是让我在聊天框里输入“修复这个”,然后看着AI代理搞定一切。

Peter Steinberger 🦞@steipete · 5月24日48

I built an autotriage skill for codex that has a set of guidelines + reads VISION.md from my repos, so issues/prs that have a clear way of - fit vision of the project - being inferrable in code with high confidence - clear fix - can be live tested Are now worked on autonomously. Codex can use a VM + computer vision (via https://crabbox.sh , new parallels backend) to verify fixes, so it can work without interrupting me. I manually review suggestions. Since it was tedious to type in issues, I added an issue browser into http://repo.bar that parses common clipboard formats by codex so I can click through them conveniently.

译开发者为Codex创建了一套自动化分诊技能,通过预设指南并读取项目VISION.md文件,自动处理符合特定标准的issue和PR。这些标准包括契合项目愿景、代码可高置信度推断、修复方案明确且支持实时测试。Codex利用虚拟机与计算机视觉(通过Crabbox平台)验证修复结果,实现自主工作流,减少人工介入。开发者保留手动审核环节,并在repo.bar中集成了issue浏览器,方便点击处理常见剪贴板格式的问题。该系统旨在提升开发效率,让AI承担重复性代码审查与测试任务。

Greg Brockman@gdb · 5月24日62

Codex for building and debugging an iPhone simulator end to end:

译Codex用于构建和调试iPhone模拟器端到端流程: [引用 @JustinBleuel]:Codex计算机使用完全驱动iPhone模拟器,对其刚构建的功能进行缺陷测试

elvis@omarsar0 · 5月23日64

// Adapt the Interface, Not the Model // I am fascinated by the results across my cheap-model-plus-good-harness builds. This new paper also shows good signs of the code-as-agent-harness thesis. The idea is really simple. Do not touch the model. Instead, modify the runtime interface that wraps the frozen LLM. Then convert recurring interaction failures into reusable interventions on the harness side. The paper reports an average relative improvement 88.5% across 7 deterministic environments, 126 model-environment settings, and 18 backbones. A harness learned from one model trajectory generalizes to 17 other backbones. That tells you the harness is capturing environment structure, not model-specific patterns. If you ship agents in production, your harness work is more portable than you might assume. Paper: https://arxiv.org/abs/2605.22166 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译一项新研究提出通过改进包裹冻结LLM的运行时接口来优化AI代理性能,而非修改模型本身。该方法将反复出现的交互失败转化为对运行时层的可复用干预,在7个确定性环境、126个设置中取得平均88.5%的相对性能提升。关键发现是,从单一模型轨迹中学习到的运行时方法可成功迁移至18个不同模型骨架,证明其捕捉的是环境结构而非模型特异性模式。这为生产环境中部署AI代理提供了更高可移植性的解决方案。

Rohan Paul@rohanpaul_ai · 5月23日60

Meta paper shows that coding agents get much better when they reuse short summaries of past attempts instead of raw logs. i.e. stronger coding agents do not just need more attempts, but better ways to remember attempts. That sounds obvious until you look at what an agent actually produces: not an answer, but a messy trail of file reads, shell commands, errors, partial fixes, and abandoned ideas. The paper’s idea is to turn each full attempt into a compact summary of the main guess, partial progress, and failure points, then use those summaries both to pick the best attempts and to guide new ones. Test-time scaling breaks when the model cannot compare its own past work. For short answers, ranking is easy. For long-horizon coding, the bottleneck shifts from generation to representation. Once rollouts become summaries, two useful things happen. The system can run tournament-style selection over small groups of candidates, which works better than forcing one giant comparison, and it can feed the best summaries back into a fresh round of attempts instead of starting blind. --- The authors test this on 2 hard coding benchmarks by running many attempts in parallel, selecting promising summaries with a tournament style voting method, and then launching fresh attempts that can read the selected summaries first. The results are strong, with Claude 4.5 Opus rising from 70.9% to 77.6% on SWE-Bench Verified and from 46.9% to 59.1% on Terminal-Bench v2.0. What matters is that the paper says better test-time scaling for long coding agents is not mostly about making more attempts, but about storing experience in a form the agent can actually reuse. ---- Paper Link – arxiv. org/abs/2604.16529 Paper Title: "Scaling Test-Time Compute for Agentic Coding"

译Meta研究发现,在编程智能体任务中,通过复用过往尝试的简短摘要,其性能显著优于使用原始日志。该论文指出,对于长程编程任务,主要瓶颈已从代码生成转向了如何有效记忆与表示智能体的工作过程。其方法是将每次充满错误的“混乱轨迹”转化为包含核心假设、进展与失败点的紧凑摘要,系统通过锦标赛式选择最佳摘要来指导新一轮尝试。在Claude 4.5 Opus的测试中,该方法使其在SWE-Bench Verified上的得分从70.9%大幅提升至77.6%,证明提升性能的关键在于以可复用的形式存储经验。

SemiAnalysis@SemiAnalysis_ · 5月23日55

FACT ALERT 🚨 : In modern agentic coding, 42% of the time is spent on CPU doing tool use such as editing files, running Bash scripts, running lints, etc. The economy of traditional cloud computing charges at $ per cpu core. In the economy of agents, the business model is $ per token thus to increase token revenue, you need to increase the amount of CPUs power u have so that you can generate your tokens.

译事实警报 🚨:在现代代理式编程中,42%的时间用于CPU执行工具操作,如编辑文件、运行Bash脚本、执行代码检查等。传统云计算经济按CPU核心数收费,而代理经济的商业模式是按token计费。因此,要增加token收入,你需要提升CPU算力以生成更多token。

Rohan Paul@rohanpaul_ai · 5月23日74

Satya Nadella reveals how Microsoft is applying the concept of "Lean for knowledge work" internally with AI. The internal ROI on AI investment and leveraging the cost reduction effect of AI. Borrowing from Toyota's manufacturing efficiency principles and applying them to white-collar operations powered by AI. e.g. Microsoft spends approximately $4 billion per year on customer support operations. By deploying AI agents for front-end deflection (resolving issues before they reach human agents) and real-time reasoning assistance for support staff, they are dramatically reducing costs in areas like Xbox and Azure support. --- From "Bg2 Pod" YT channel ( link in comment)

译Satya Nadella透露微软正借鉴丰田精益生产原则,将“精益知识工作”理念应用于内部AI运营。通过计算AI投资回报并利用其成本削减效应,微软在白领工作中部署AI以优化流程。例如,微软每年在客户支持业务上支出约40亿美元,通过部署AI代理处理前端问题分流及为支持人员提供实时推理协助,在Xbox和Azure等支持领域大幅降低了成本。

Rohan Paul@rohanpaul_ai · 5月23日61

This paper shows that agent performance depends less on prompts alone and more on the harness around them. “Agent intelligence” is becoming partly a systems problem. The problem is that many AI agents look like 1 model, but their real behavior comes from surrounding code that controls planning, tools, memory, retries, checking, and stopping. A model may reason well in one step, but long tasks fail in messier places: state disappears, verification drifts, tools return partial evidence, and the agent forgets which intermediate artifact actually matters. Natural-Language Agent Harnesses try to make that control layer visible. Instead of burying the logic in controller code, they express the stages, roles, contracts, state rules, failure modes, and stopping conditions in structured natural language that a shared runtime can execute. The claim is not that natural language should replace code, but that the important design choices around an agent should become inspectable, portable, and testable instead of hiding inside one framework’s habits. On SWE-bench, heavier harnessing changed behavior dramatically, with more calls, tools, delegation, and runtime, but it did not produce a simple win curve; sometimes added structure helped, and sometimes it pushed the agent away from the shortest benchmark-aligned repair. A harness is not magic scaffolding around a model; it is a set of bets about where reliability comes from. ---- Paper Link – arxiv. org/abs/2603.25723 Paper Title: "Natural-Language Agent Harnesses"

译本研究指出,AI代理的实际性能更多取决于围绕模型的外部控制系统(即代理框架),而非单纯的提示词。当前许多代理看似单一模型,其行为实则由规划、工具调用、记忆管理等周边代码驱动,导致长任务易因状态丢失、验证漂移等环节失败。为此,论文提出“自然语言代理框架”理念,旨在将控制流程以结构化自然语言显式表达,使其可检查、可迁移且可测试。研究发现,虽然更复杂的框架能显著改变代理行为,但并未带来稳定的性能提升,这表明框架设计是保障可靠性的关键选择,而非一种立竿见影的万能方案。

向阳乔木@vista8 · 5月23日15

有在用Pi Agent的朋友吗?相比Claude Code和Codex CLI的优势是什么? 想有空折腾学习下。

宝玉@dotey · 5月23日67

这张原理图画的挺好的,操作方法是这样的:

译该开源项目feishu-claude-code-bridge实现了飞书与本机Claude Code的直连互通。用户可在飞书会话中直接指挥Claude Code执行任务,如抓取内容、翻译并创建文档,过程实时同步。其核心是搭建了一个“飞书消息 ↔ 本机Claude Code CLI”的桥梁,工作区设置等功能体验与直接使用Claude Code几乎一致。这种模式不仅打通了飞书与Claude Code,也为将飞书与Codex、Cursor等其他本地AI工具连接提供了可复用的范式。需注意,自2026年6月15日起,Claude订阅计划对通过`claude -p`等模式的使用将独立计费。

宝玉@dotey · 5月23日75

如果你同时用飞书和 Claude Code 的话,Zara Zhang这个开源项目 feishu-claude-code-bridge 值得一试,它可以让你在飞书里面直接连接 Claude Code,从飞书指挥 Claude Code,反过来也能借助 Claude Code 新建、编辑飞书文档。 举例来说,我可以通过和飞书智能体对话,发送推文连接,让它抓取推文并翻译成中文,再把结果创建成飞书文档。 或者说你在飞书上收到一条消息,也可以一键转发给飞书智能体,它会通过 Claude Code 做后续处理,并且实时将处理过程通过消息同步给你,如果有需要确认的,还能通过卡片的形式在飞书中展示。 连接步骤很简单,打开飞书本地客户端(网页版不行),然后在命令行窗口执行: > npx -y lark-channel-bridge@latest run (第一次需要配置 App 凭证,后面可以跳过这一步) > 和 > npx -y lark-channel-bridge@latest run 就可以通过扫码或者浏览器打开 URL 创建智能体、连接 Claude Code 按照网页提示创建应用和授权,连接上就可以在飞书的会话看到新建的智能助手。然后直接发送消息。 有个细节做的很好,就是它可以设置 Claude Code 对应的 Workspace(工作区),也就是运行 Claude Code 的目录,这样你所有操作结果都会在 Workspace,也可以读取 Workspace 下的文件、CLAUDE.md 设置、Skills、Hooks 等等,跟你直接用 Claude Code 操作几乎没差别。 一些具体的指令可以看项目文档,说的很清楚。 工作原理其实不复杂,它是一个“飞书消息 ↔ 本机 Claude Code CLI”的桥,或者说翻译。飞书负责收发消息,bridge 常驻本机,收到消息后整理成 prompt,通过 “claude -p ”这样的命令行启动本机的 Claude CLI 处理,再把 Claude 的流式输出更新回飞书。 这种项目的价值,不仅说你可以将飞书和 Claude Code 打通,还可以发掘出很多新的可能,比如你也可以让飞书和本机的小龙虾、Codex、Cursor 连接起来,在飞书界面中操作它们,它们反过来也能借助飞书 cli 操作飞书。 开源项目有个好处就是你可以照葫芦画瓢,如果你想参考它做一些自己的机器人,可以把代码库发给 Coding Agent,帮你定制化一个自己的版本。 比如说这两个是其他网友做过的把 Codex 接入飞书的 bridge 项目,用起来也是一样的: https://github.com/QQQingyu/feishu-codex-bridge https://github.com/kxn/codex-remote-feishu 有一点要提醒的是,Bridge 使用的是claude -p模式,自 2026 年 6 月 15 日起,Claude 订阅计划对 claude -p 和 Agent SDK 的使用将独立计费,不走订阅额度。如果你是用 API,不受影响。或者也可以考虑使用上面的 Codex bridge 项目。 项目地址:https://github.com/zarazhangrui/feishu-claude-code-bridge

译feishu-claude-code-bridge是一个开源项目,可实现飞书与本机Claude Code CLI的双向连接。用户能从飞书消息中直接指挥Claude Code执行任务,Claude也能读取飞书中的工作上下文并创建、编辑飞书文档。其工作原理是将飞书消息转为Prompt通过命令行调用Claude CLI,并将流式输出实时同步回飞书。该模式可扩展连接Codex等其他本地工具。需注意,2026年6月15日起,Claude订阅计划对`claude -p`模式将独立计费。

Greg Brockman@gdb · 5月23日34

GPT-5.5 is a very good model

译GPT-5.5是一个非常优秀的模型。

宝玉@dotey · 5月23日60

Hermes Agent 架构的文档推荐直接看官方的文档,写的还算清楚。 然后用 Codex 或者 Claude Code 打开项目代码库,直接让 Agent 给你解释代码库,如果不清楚的你随时追问,这样比较好就是你可以问任何你想知道的问题,它会通过检索项目文档和代码,帮你解释的清清楚楚。 官方文档:https://hermes-agent.nousresearch.com/docs/developer-guide/architecture

译针对学习者面对复杂架构资料时产生的困惑,推文推荐了高效的学习路径。首先直接阅读Hermes Agent官方的架构文档,因其表述清晰。其次,利用Codex或Claude Code等AI工具打开项目代码库,让Agent直接解释代码结构,并能随时针对不懂之处提问。这种方法允许用户自由提问,AI会通过检索文档与代码提供清晰解答,从而形成对框架的整体理解。

向阳乔木@vista8 · 5月23日68

前几天见了做GEO的同行,他们都惊叹说这么牛逼的系统怎么都免费开源! 可能是性格使然,姚老师不喜欢藏着掖着,好东西就要分享。 至于赚钱,我们的理念:利他就是利己。 前几天听吴军老师说,财富是调用资源的能力。信任会建立链接和影响力,也是巨大的财富,而钱只是财富的一种形式。

译开源GEO系统GEOFlow 2.0发布,一个月内GitHub星标超1.6k。此次关键版本升级,使其从内容生产工具演进为“GEO内容工程基础设施”。核心变化包括基于Laravel重构,实现多站点与多Agent管理;强化AI知识库与向量化检索;新增统一的数据分析页面,构建运营闭环。系统旨在帮助用户持续建设“可信内容资产”,并秉承“利他就是利己”的开源理念。

宝玉@dotey · 5月23日39

帮转 AI Agent 实习生招聘

译当前AI Agent开发实习生的招聘需求显著上升,其核心技术栈已从传统的后台开发项目(如秒杀、电商)转向集中应用Langchain框架与RAG(检索增强生成)技术。这反映出市场对AI应用开发岗位的技能要求正发生明确转变,具备相关实践经验的实习生受到青睐。

MiniMax (official)@MiniMax_AI · 5月23日49

Congratulaitons on the launch of Gizmo @gradium! Gizmo is powered by our dual‑LLMarchitecture, eliminating awkward silence during conversations. The lightning-fast M2-her model delivers instant acknowledgements, while the powerful M2.7 handles complex reasoning in the background. The result is a voice agent that feels present, responsive, and effortlessly natural, putting customer experience first

译Gradium团队成员Colin构建的AI语音助手Gizmo正式上线。该助手采用双LLM架构,由负责即时响应的M2-her模型与处理复杂推理的M2.7模型协同驱动。这一设计旨在消除对话中的延迟与沉默,提供即时、连贯的交互反馈。最终实现了一个在体验上感觉存在、反应迅速且自然流畅的语音代理,优先优化客户体验。

Berryxia.AI@berryxia · 5月23日61

早上好,兄弟们! 早上看到Manner在群里发了一张限定咖啡的宣传海报(图1),熟手给它来个全新设计(图2)。 只需要不到2分钟就可以搞出来,不能说完美。 但是,有相关工作需求的人都可以用, 至少我觉得市场部的每个人都可以配一个😄 昨天邀请码爆了:BLOOMENOW这个码,现在可以用了。

译一款名为Bloome的AI海报设计Agent已上线,用户可通过直接对话的方式快速生成各类海报。该工具整合了之前用于快速出图的提示词,降低了使用门槛,让非专业设计人员也能高效完成设计工作。目前该功能限时一周开放,支付1美元即可解锁约100张图的生成额度,适合市场部等有设计需求的人员使用。

meng shao@shao__meng · 5月23日68

好人一生平安 🤝 Wix VP @IShmool 推出一个免费课程「Zero to Claude Code」,把零基础 "不知道终端是什么" 的人,带到能用 Claude Code 在生产环境里发布软件的水平,哇哦! 闲话少说先上链接:https://zero2claude.dev/ 课程结构(14 级 · 147 课 · 10 种交互形态) 1. 基础 1–6:文件、目录、终端命令、Git 基础——非工程师从未系统学过的"计算机识字" 2. 真实工具 + Claude Code 入门 7–8:Node.js、API,第一次把 Claude Code 当作 AI 结对程序员上手 3. Claude Code 精通 9–12:Skills 与 SKILL.md、MCP 服务器、Subagents、Hooks、Headless 模式、工具集成 4. 专业范式 + 毕业项目 13–14:初级工程师工作流、协作模式,最终交付一个多人在线游戏 capstone 课程是严格的递进式设计,没有跳跃、不预设任何背景,交互形态覆盖:测验、终端模拟器、文件树拼图、填空、拖拽配对、AI 个性化学习路径。零安装,全部跑在浏览器里。 规模与工程指标 最值得关注的部分——它证明 Claude Code 不只"写代码",而要能撑起一个真实的生产产品。 · 流量:~6.4M 请求/天,74 req/sec 持续,错误率 <0.003% · 用户:17,000+ 学员,30+ 国家,每小时约 500 活跃 · 本地化:7 种语言(英、西、希伯来、阿、乌克兰、日、德) · Lighthouse:性能 96 / 可访问性 100 / 最佳实践 100 / SEO 100 · 技术栈:React + TypeScript 前端,Node + PostgreSQL 后端,1,036 个课程内容文件 · 增长:完全靠口碑,无营销、无广告、无付费墙 最具示范意义的部分:AI 闭环运营 平台不仅由 Claude 构建,也由 Claude 运营。两个闭环是真正的亮点: 1. Bug 全自动修复闭环 学员课内一键报 Bug → 系统自动捕获终端历史、虚拟文件系统状态、课程位置、浏览器信息 → 自动生成结构化 GitHub Issue → Claude Agent SDK 触发 triage agent 读代码、复现、建分支、提交修复、开 PR → 学员收到邮件通知。从报告到解决,零人工干预。 2. Product Genie 功能闭环 社区论坛收集学员的功能愿望并投票 → Genie(基于 Claude Agent SDK)按可行性与影响分类、打置信度分 → 自动建 Issue、回帖、在 build 模式下直接实现功能。社区驱动 roadmap,AI 执行 roadmap。 这两套机制使得"一个人运营 17K 用户的产品"在结构上成立——人的角色从执行者退到设计者与监督者。

译Wix副总裁推出免费课程「Zero to Claude Code」,旨在帮助零编程基础的用户从终端使用起步,最终能用Claude Code在生产环境发布软件。课程已吸引超过17,000名学员,支持7种语言,完全依靠口碑传播。平台技术指标出色,日处理约640万请求且错误率极低。最具示范意义的是其AI闭环运营模式:平台由一人通过Claude Code构建并运营,通过AI Agent实现了学员报Bug后自动修复、社区功能需求自动实现的全流程自动化,证明了Claude Code能支撑生产级、可扩展产品的开发与运维。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月25日
08:18
Berryxia.AI@berryxia
61
Claude即将推出Memory Files功能

Anthropic宣布Claude将推出新功能Memory Files,用户可选择在Memory Files与经典记忆模式间切换。该功能允许Claude在对话中自动写下组织化的笔记,并在需要时读取,用户可随时浏览和编辑。这并非简单记录聊天内容,而是将记忆转变为可编辑、可审计的文件系统,更接近OpenClaw、Hermes等始终在线的智能体所采用的持久记忆方式。该功能被视为对之前发现的“知识库”功能的迭代,可能为未来Claude Conway的推出做准备。

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: Claude will soon receive a new file-based memory upgrade, offering users the option to choose between Memo...

智能体AnthropicMCP/工具产品更新
08:18
Berryxia.AI@berryxia
65
播客回顾:AI重度用户对未来的六大预测

Lenny Rachitsky与Every CEO Dan Shipper回顾了后者一年前对AI发展的预测。Dan及其团队因深度使用AI工具而具有独特视角。在播客中,他重申了几个核心观点:自动化是谎言,CLI时代已过,SaaS崩盘论不成立。具体预测包括:每家公司Slack中将出现“超级代理”;Claude Code和Codex会成为知识工作的新操作系统;AI不会引发就业危机;产品经理和设计师将受益;人们将阅读并喜爱更多AI生成的内容;目前是买入SaaS股票的好时机。这些基于一线实践的判断与外界的末日论截然相反。

Lenny Rachitsky: Automation is a lie. CLIs are over. The SaaSpocalypse is dumb. A year ago @danshipper came on the podcast to predict whe...

智能体大佬观点现象/趋势
06:39
Luma@LumaLabsAI
66
规模化的真实性曾是矛盾,如今已成现实。 定义简报,设定风格,Luma Agents 从这里构建每一条 UGC 风格广告。 让它真实 → http://lumalabs.ai/app
智能体产品更新视频
02:20
宝玉@dotey
71
在Codex App中查询/goal任务进展及进行操作

对于正在进行中的/goal长任务,可通过输入 /side 指令开启一个侧边对话来查询进度,该对话会话共享当前上下文且不影响主线程。任务启动后,输入框上方提供暂停、编辑或删除等操作选项。

宝玉: 如何在 Codex App 使用 /goal 的简单说明: 1. 升级 Codex App 到最新版本 2. 先在命令行运行一下下面的指令: > codex features enable goals 或者手动修改 ~/.codex/con...

智能体教程/实践编码
01:36
Greg Brockman@gdb
精选86
这是一个结构化的提示词,用于指导 Codex 自动分析其历史记录以识别并固化重复工作流。该框架要求 Codex 回顾会话、Memories 等数据,找出重复、耗时且有明确复用价值的任务。筛选标准包括至少出现两次、输入稳定、可提升效率等。最终,Codex 应以"技能"、子智能体或自动化工具等最小实用形式创建或扩展现有资产,避免冗余。流程包括生成候选清单、执行创建,并汇报结果与待验证项。

Vaibhav (VB) Srivastav: UPDATE: Came up with an even better version of this prompt after the feedback Ask Codex to look across your sessions, Me...

智能体OpenAI教程/实践编码

推荐理由:GDB 这个 prompt 把 Codex 从写代码的帮手变成了你的私人效率教练,让它自己找出你过去一个月里哪些重复工作该自动化,深度 Codex 用户直接抄作业就行。
00:27
Chubby♨️@kimmonismus
精选77
TrapDoor供应链攻击:AI助手成新型攻击面

一场名为“TrapDoor”的协调供应链攻击同时袭击了npm、PyPI和Crates.io,涉及34个恶意包,旨在窃取加密货币、AI和安全开发者的钱包、SSH密钥和云凭证。攻击的新手段是向流行开源项目提交Pull Request,注入被操纵的CLAUDE.md和.cursorrules配置文件。当开发者克隆仓库并使用Claude Code或Cursor等AI助手时,AI智能体会将这些文件当作可信指令执行,可能在开发者不知情下运行恶意命令。这是首次将AI助手作为攻击面。

Socket: More analysis, package details, IOCs, and GitHub-related activity here, including attacker-hosted payload/config infrast...

智能体安全/对齐开源生态

推荐理由:这是第一个把AI助手当跳板的供应链攻击,Claude Code和Cursor用户尤其要当心,检查你项目的.cursorrules和CLAUDE.md是不是来自可信提交。
5月24日
22:17
AYi@AYi_AInotes
44
AI系统自主运营公司,估值2.5亿美元,荒诞引热议

一家公司仅有一名创始人加一个AI系统,没有其他员工。该AI系统不仅能自主运营公司,还成功拿到了3000万美刀融资,估值达2.5亿美元。公司名字倒过来写叫 AI slop,中文翻译为“AI饲料”。

智能体现象/趋势
21:51
meng shao@shao__meng
45
腾讯Marvis智能体模拟办公室动画引热议

腾讯的Marvis项目展示了一个AI智能体模拟办公室的Dashboard动画。动画中,项目经理Marvis在收到任务后会小跑到需要调用的AI智能体面前沟通,后者开始工作后,Marvis会返回工位监控进度;闲置的智能体则会模拟“摸鱼”玩游戏。该设计调侃了常见的职场生态。不过,对于该智能体的实际任务执行结果,推文作者表示体验不佳,“一言难尽”。

智能体评测/基准
20:51
meng shao@shao__meng
73
利用 Codex 会话历史自动化提炼可复用能力

Codex 团队分享了一项实践:让 Codex 分析你近期的会话历史,识别重复出现的任务模式,并将其沉淀为可复用的产物。具体分为两类:面向固定流程的“技能”和面向单一职责的“子智能体”。通过设计针对性的提示词(聚焦于 CI 失败等七个高频场景),强制进行二分类选择,该方法旨在减少重复的手动描述,节省 token 并提升一致性。

Vaibhav (VB) Srivastav: Copy and paste this into your codex: "Look through my recent Codex sessions and identify repeated workflows or repeated ...

智能体教程/实践编码
20:07
Boris Cherny@bcherny
同事件精选78
人们常问我,用好Claude Code的最大技巧是什么。 如今我的头号技巧是:使用自动模式。 自动模式意味着不再有权限提示。它是实现"多Claude并行"的关键构件:启动一个会话,然后在其运行时,并行处理另一个会话。

ClaudeDevs: Two updates to auto mode: · Now available on the Pro plan · Sonnet 4.6 is now supported, alongside Opus 4.7 Shift+tab, a...

智能体Anthropic教程/实践编码
同一事件,精选展示《Claude自动模式新增Pro计划与模型支持》
推荐理由:Boris 透底 Claude Code 最高效用法,auto mode 免确认弹窗、支持并行 session,把 AI 编程从串行变并行,值得一开。
20:07
🚨 AI News | TestingCatalog@testingcatalog
63
Grok Build CLI 现已向 SuperGrok 和 X Premium 用户开放!它还能搜索 X 并作为只读 X 客户端使用,这很酷。 为你的团队再添一个智能体 👀

🚨 AI News | TestingCatalog: SPACEXAI 🔥: Grok Build is being prepared for the rollout to SuperGrok users. Grok Build is currently only available as ...

智能体xAI产品更新编码
16:22
Alibaba Cloud@alibaba_cloud
42
5月26日,通义大模型事业部多模态交互负责人Steven Hoi教授将在新加坡金沙会展中心主舞台,解析智能体时代的基础模型。 🚀 报名链接:https://click.qwencloud.com/m/20000000190/
智能体多模态行业动态
16:22
Alibaba Cloud@alibaba_cloud
42
5月26日,阿里云国际业务副总裁、北美大区总经理Alex Chen将在新加坡金沙会展中心主舞台,探讨Agent Engine--大规模推理,智能体释放潜能。 🚀 注册:https://click.qwencloud.com/m/20000000190/
智能体MCP/工具行业动态
16:22
Alibaba Cloud@alibaba_cloud
29
5月26日,阿里云产品与工程副总裁、计算平台负责人王俊华将在新加坡金沙会展中心主舞台,深入解析"智能体云--驱动Token,赋能智能体"。 🚀 注册:https://click.qwencloud.com/m/20000000190/
智能体行业动态
15:52
Alibaba Cloud@alibaba_cloud
23
5月26日,李飞飞博士(阿里云CTO、国际业务总裁)将在新加坡金沙会展中心主舞台,解读"Ship the Next"与"Scaling Trustworthy Agents"。 🚀 报名链接:https://click.qwencloud.com/m/20000000190/
智能体行业动态
12:17
AYi@AYi_AInotes
70
AI选题工作流:从4小时到20分钟的效率革命

内容创作者的核心瓶颈往往在于选题而非写作。作者通过部署AI Agent驱动云手机,自动化刷取X、小红书、Reddit等平台的推荐流,替代了每日数小时的人工筛选工作。其工作流关键在于为不同平台定义有效的“信号阈值”(例如在AI圈的X平台,转发≥500或点赞≥2000),并编写特定Prompt指导Agent执行筛选。通过多台云手机并行运行,实现了跨平台的高效信号捕捉。此方法将选题耗时从每日3-4小时降至20分钟,文章命中率从约15%提升至60%以上。作者指出,AI Agent主要完成初筛,最终的内容判断与风格适配仍需人工完成。这套开源工作流旨在证明,优化工作流中AI的位置,能极大提升单兵创作者的产能。

智能体教程/实践
12:15
OpenClaw🦞@openclaw
64
OpenClaw 2026.5.22 已上线 ⚡ Gateway/模型启动路径更精简 🧠 /models 响应时间降至约5毫秒 🔒 npm包现提供锁定依赖项 🪟 Windows安装/更新路径更安全 等待更少,意外更少。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.22
智能体产品更新开源生态部署/工程
11:18
Berryxia.AI@berryxia
38
微信群聊管理工具开发心得与开源展望

作者为管理300多个微信群聊而开发了一款微信消息管理工具。该工具旨在帮助用户清理长期无消息的“僵尸群”,快速阅读活跃群内的有效信息,并筛选出社群中的活跃用户。同时,它能挖掘容易被遗漏的重要关键词或回复提醒,并让AI帮助梳理项目进展,生成待办事项。该工具底层基于wx-cli,目前核心功能已跑通,但仍需迭代并可能低调发布。未来完善后,或将考虑开源。

向阳乔木: 根据神佬 @berryxia 的截图,丢给Codex复刻的微信消息驾驶舱。 底层是卡比的wx-cli,等完善后看好不好开源。

智能体其他教程/实践
08:31
ginobefun@hongming731
63
AI加速下的工程纪律升级

AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。

智能体Anthropic安全/对齐现象/趋势
07:49
宝玉@dotey
42
Codex的交互设计确实做得很好,你可以方便地查看当前运行的SubAgents,以及每个SubAgent正在做什么、使用的提示词。
智能体Anthropic大佬观点
04:51
elvis@omarsar0
72
刚刚发布了新的 /lesson-generator 技能。 与你的代理一起使用它来学习任何内容: - 生成任何主题的课程/教程 - 结合我的 /image-generator 技能添加 nano-banana 图片 - 将课程呈现为 HTML 作品 它也已在我们的学院中可用。
智能体图像生成教程/实践
03:09
Replit ⠕@Replit
精选66
Replit Agent与Squidler已完成集成,形成一套完整的AI驱动质量保障闭环。用户可通过自然语言描述应用功能,由Replit Agent负责构建。构建完成后,Squidler会像真实用户一样对线上应用进行自动化测试,无需编写任何测试脚本。测试中发现的问题会自动反馈给Replit Agent进行修复。该流程已通过Squidler加入Replit的MCP库正式上线,实现了从构建、测试到修复的全自动化,显著降低了应用测试与维护的门槛。

Squidler: Official today: Squidler is in @Replit MCP library. Build with #Replit. Test with Squidler. Replit Agent builds, Squidle...

智能体MCP/工具产品更新

推荐理由:Replit 把用户流测试塞进了 MCP 库,Squidler 不需要写测试脚本就能跑真实操作,然后 Agent 自动修 bug,这个 QA 闭环对不会写测试的独立开发者是个大加分。
02:22
Yuchen Jin@Yuchenj_UW
44
不敢相信我手动编程了十五年。 十五年来,我背诵语法、使用Vim、查阅Stack Overflow、处理构建失败、解决依赖冲突、合并代码冲突,还有"睡前再修最后一个bug"。 这一切,最终却只是让我在聊天框里输入"修复这个",然后看着AI代理搞定一切。
智能体大佬观点编码
01:37
Peter Steinberger 🦞@steipete
48
为Codex构建自动化分诊技能:指南与VISION.md集成

开发者为Codex创建了一套自动化分诊技能,通过预设指南并读取项目VISION.md文件,自动处理符合特定标准的issue和PR。这些标准包括契合项目愿景、代码可高置信度推断、修复方案明确且支持实时测试。Codex利用虚拟机与计算机视觉(通过Crabbox平台)验证修复结果,实现自主工作流,减少人工介入。开发者保留手动审核环节,并在repo.bar中集成了issue浏览器,方便点击处理常见剪贴板格式的问题。该系统旨在提升开发效率,让AI承担重复性代码审查与测试任务。

智能体MCP/工具OpenAI教程/实践
01:05
Greg Brockman@gdb
62
Codex用于构建和调试iPhone模拟器端到端流程: 【引用 @JustinBleuel】:Codex计算机使用完全驱动iPhone模拟器,对其刚构建的功能进行缺陷测试

Justin: Codex computer use entirely driving iphone simulator to bug bash a feature it just built

智能体OpenAI产品更新编码
5月23日
23:51
elvis@omarsar0
64
调整运行时接口而非模型,提升AI代理通用性

一项新研究提出通过改进包裹冻结LLM的运行时接口来优化AI代理性能,而非修改模型本身。该方法将反复出现的交互失败转化为对运行时层的可复用干预,在7个确定性环境、126个设置中取得平均88.5%的相对性能提升。关键发现是,从单一模型轨迹中学习到的运行时方法可成功迁移至18个不同模型骨架,证明其捕捉的是环境结构而非模型特异性模式。这为生产环境中部署AI代理提供了更高可移植性的解决方案。

智能体论文/研究部署/工程
22:57
Rohan Paul@rohanpaul_ai
60
智能体编程的测试时计算规模化

Meta研究发现,在编程智能体任务中,通过复用过往尝试的简短摘要,其性能显著优于使用原始日志。该论文指出,对于长程编程任务,主要瓶颈已从代码生成转向了如何有效记忆与表示智能体的工作过程。其方法是将每次充满错误的“混乱轨迹”转化为包含核心假设、进展与失败点的紧凑摘要,系统通过锦标赛式选择最佳摘要来指导新一轮尝试。在Claude 4.5 Opus的测试中,该方法使其在SWE-Bench Verified上的得分从70.9%大幅提升至77.6%,证明提升性能的关键在于以可复用的形式存储经验。

智能体Meta编码论文/研究
22:05
SemiAnalysis@SemiAnalysis_
55
事实警报 🚨:在现代代理式编程中,42%的时间用于CPU执行工具操作,如编辑文件、运行Bash脚本、执行代码检查等。传统云计算经济按CPU核心数收费,而代理经济的商业模式是按token计费。因此,要增加token收入,你需要提升CPU算力以生成更多token。
智能体现象/趋势部署/工程
21:27
Rohan Paul@rohanpaul_ai
74
微软以AI实践"精益知识工作"降本增效

Satya Nadella透露微软正借鉴丰田精益生产原则,将“精益知识工作”理念应用于内部AI运营。通过计算AI投资回报并利用其成本削减效应,微软在白领工作中部署AI以优化流程。例如,微软每年在客户支持业务上支出约40亿美元,通过部署AI代理处理前端问题分流及为支持人员提供实时推理协助,在Xbox和Azure等支持领域大幅降低了成本。

智能体Microsoft大佬观点
21:27
Rohan Paul@rohanpaul_ai
61
研究揭示:AI代理的性能更依赖外部控制系统而非提示词本身

本研究指出,AI代理的实际性能更多取决于围绕模型的外部控制系统(即代理框架),而非单纯的提示词。当前许多代理看似单一模型,其行为实则由规划、工具调用、记忆管理等周边代码驱动,导致长任务易因状态丢失、验证漂移等环节失败。为此,论文提出“自然语言代理框架”理念,旨在将控制流程以结构化自然语言显式表达,使其可检查、可迁移且可测试。研究发现,虽然更复杂的框架能显著改变代理行为,但并未带来稳定的性能提升,这表明框架设计是保障可靠性的关键选择,而非一种立竿见影的万能方案。

智能体论文/研究
19:51
向阳乔木@vista8
15
有在用Pi Agent的朋友吗?相比Claude Code和Codex CLI的优势是什么? 想有空折腾学习下。
智能体大佬观点编码
15:49
宝玉@dotey
67
该开源项目feishu-claude-code-bridge实现了飞书与本机Claude Code的直连互通。用户可在飞书会话中直接指挥Claude Code执行任务,如抓取内容、翻译并创建文档,过程实时同步。其核心是搭建了一个"飞书消息 ↔ 本机Claude Code CLI"的桥梁,工作区设置等功能体验与直接使用Claude Code几乎一致。这种模式不仅打通了飞书与Claude Code,也为将飞书与Codex、Cursor等其他本地AI工具连接提供了可复用的范式。需注意,自2026年6月15日起,Claude订阅计划对通过`claude -p`等模式的使用将独立计费。

宝玉: 如果你同时用飞书和 Claude Code 的话,Zara Zhang这个开源项目 feishu-claude-code-bridge 值得一试,它可以让你在飞书里面直接连接 Claude Code,从飞书指挥 Claude Code,反过...

智能体MCP/工具开源/仓库教程/实践
15:19
宝玉@dotey
精选75
飞书-Claude Code桥接开源项目

feishu-claude-code-bridge是一个开源项目,可实现飞书与本机Claude Code CLI的双向连接。用户能从飞书消息中直接指挥Claude Code执行任务,Claude也能读取飞书中的工作上下文并创建、编辑飞书文档。其工作原理是将飞书消息转为Prompt通过命令行调用Claude CLI,并将流式输出实时同步回飞书。该模式可扩展连接Codex等其他本地工具。需注意,2026年6月15日起,Claude订阅计划对claude -p模式将独立计费。

Zara Zhang: Introducing the Claude Code Lark/Feishu Bridge 🌉 (open-source) Talk to Claude Code in Lark/Feishu like a colleague - Us...

智能体开源/仓库教程/实践编码

推荐理由:如果你同时用飞书和 Claude Code,这个开源桥接值得立刻试试,宝玉的教程把从安装到原理讲透了,而且能照葫芦画瓢改接到 Codex、Cursor,实用性拉满。
13:05
Greg Brockman@gdb
34
GPT-5.5是一个非常优秀的模型。

DHH: For complicated agent work, it's amazing how much GPT5.5 has improved. I found 5.2 to be very far behind Opus. Now using...

智能体OpenAI大佬观点
11:19
宝玉@dotey
60
学习Hermes Agent架构的高效方法与建议

针对学习者面对复杂架构资料时产生的困惑,推文推荐了高效的学习路径。首先直接阅读Hermes Agent官方的架构文档,因其表述清晰。其次,利用Codex或Claude Code等AI工具打开项目代码库,让Agent直接解释代码结构,并能随时针对不懂之处提问。这种方法允许用户自由提问,AI会通过检索文档与代码提供清晰解答,从而形成对框架的整体理解。

AI学习笔记📒: @dotey 借楼,求老师出一个 Hermes 的总体框架的文章。就是说他是哪些组件在构成,我也看了很多资料,越看越麻,毫无头绪。我只是想有个整体的理解。 但是麻了

智能体教程/实践
10:51
向阳乔木@vista8
68
开源GEO系统GEOFlow 2.0发布,从工具升级为基础设施

开源GEO系统GEOFlow 2.0发布,一个月内GitHub星标超1.6k。此次关键版本升级,使其从内容生产工具演进为“GEO内容工程基础设施”。核心变化包括基于Laravel重构,实现多站点与多Agent管理;强化AI知识库与向量化检索;新增统一的数据分析页面,构建运营闭环。系统旨在帮助用户持续建设“可信内容资产”,并秉承“利他就是利己”的开源理念。

姚金刚: 经过一个月的持续迭代,第一套GEO系统"GEOFlow 2.0"正式上线,GitHub地址见文末 一个月前,GEOFlow 1.0 上线,到现在,刚好过去一个月,Star数已经超过1.6k,这一个月来,收到了不少朋友的反馈和落地实践案例 这...

智能体GitHub开源/仓库搜索
10:49
宝玉@dotey
39
当前AI Agent开发实习生的招聘需求显著上升,其核心技术栈已从传统的后台开发项目(如秒杀、电商)转向集中应用Langchain框架与RAG(检索增强生成)技术。这反映出市场对AI应用开发岗位的技能要求正发生明确转变,具备相关实践经验的实习生受到青睐。

Leo Xiang: 之前招后台的研发的实习生项目都是 秒杀、电商。如今招 AI Agent 开发的实习生项目都是 Langchain + Rag。 话说 X 上有想找 AI Agent 开发实习生方向的工作的不? 我这里在招实习生。

智能体检索增强行业动态
10:39
MiniMax (official)@MiniMax_AI
49
Gradium团队成员Colin构建的AI语音助手Gizmo正式上线。该助手采用双LLM架构,由负责即时响应的M2-her模型与处理复杂推理的M2.7模型协同驱动。这一设计旨在消除对话中的延迟与沉默,提供即时、连贯的交互反馈。最终实现了一个在体验上感觉存在、反应迅速且自然流畅的语音代理,优先优化客户体验。

Gradium: Meet Colin, Lexi, and Gizmo. One is part of Gradium's GTM team. One is his dog. And one is the AI assistant he built him...

智能体产品更新语音
10:18
Berryxia.AI@berryxia
61
AI海报设计Agent上线:对话生成,限时1刀

一款名为Bloome的AI海报设计Agent已上线,用户可通过直接对话的方式快速生成各类海报。该工具整合了之前用于快速出图的提示词,降低了使用门槛,让非专业设计人员也能高效完成设计工作。目前该功能限时一周开放,支付1美元即可解锁约100张图的生成额度,适合市场部等有设计需求的人员使用。

Berryxia.AI: 兄弟们,今天我不装了。 摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。 捣鼓了一套万能产品、人文、科技、展会等等 都可以快速出图的提示词。 但是,很多人还是用不来觉得麻烦。 于是我,我把它在Bloome 做了个海报...

智能体图像生成教程/实践
09:50
meng shao@shao__meng
68
一个人,一门课,一个AI自动化工厂

Wix副总裁推出免费课程「Zero to Claude Code」,旨在帮助零编程基础的用户从终端使用起步,最终能用Claude Code在生产环境发布软件。课程已吸引超过17,000名学员,支持7种语言,完全依靠口碑传播。平台技术指标出色,日处理约640万请求且错误率极低。最具示范意义的是其AI闭环运营模式:平台由一人通过Claude Code构建并运营,通过AI Agent实现了学员报Bug后自动修复、社区功能需求自动实现的全流程自动化,证明了Claude Code能支撑生产级、可扩展产品的开发与运维。

itay shmool: I built "zero2claude", a free course that takes people from zero terminal experience to shipping with Claude Code. The c...

智能体AnthropicMCP/工具教程/实践
‹ 上一页
1…3637383940…50
下一页 ›