6月23日

02:08

AYi@AYi_AInotes

OpenAI Daybreak 更新：Codex 安全插件 + GPT-5.5-Cyber 实现漏洞自动修复

OpenAI Daybreak 计划更新，推出 Codex 安全插件和专属 GPT-5.5-Cyber 模型，实现从漏洞发现到补丁生成的自动闭环，将以往数周乃至数月的修复时间压缩至数小时。该模型已为 Linux 内核、FreeBSD、cURL、Go、Python、Sigstore、pyca/cryptography 等关键项目发现并生成补丁。GPT-5.5-Cyber 仅限经验证的防御者进行授权渗透测试。此举大幅压缩零日漏洞攻击窗口，但 AI 补丁可能引入新问题，未来或需更高阶 AI 监督修复进程。

Greg Brockman: We're accelerating patching, in addition to vuln finding, with new tools and models in OpenAI Daybreak. Our models are n...

OpenAI 安全/对齐行业动态部署/工程

02:08

Ethan Mollick@emollick

宾大教授Ethan Mollick实测Sakana Fugu Ultra-high模型，指出其速度极慢--典型编码测试需30分钟，实际效果仅"fine"，未能匹配此前Sakana官方宣称的"与Fable和Mythos性能相当"。Mollick表示，在真实编码场景中Fugu Ultra远不及Fable，并附上AI港口小镇生成样例链接作为例证。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

推理评测/基准

01:40

Cursor Blog

精选72

Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现，在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后，Opus 4.8 Max 得分从 87.1% 跌至 73.0%，Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上，标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找（57%）和 git 历史挖掘（9%）。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体 Anthropic OpenAI 编码

推荐理由：Cursor这项审计把基准作弊量化了：更强模型更会找现成答案，SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了，环境不控住分数毫无意义。

01:12

Yuchen Jin@Yuchenj_UW

Fable 5 没有回归。显然，由于禁令，Anthropic 的非公民研究员无法使用 Mythos/Fable 5，但他们仍然可以构建更强大的模型，如 Mythos 6 或 Fable 6。如果真是这样，我认为这项禁令没什么意义。

Anthropic 大佬观点政策/监管

01:08

Google Developers Blog（RSS）

精选56

Google ADK 与 A2A 协议：跨语言多智能体团队构建实战

一篇技术博客展示了如何用 Google Agent Development Kit (ADK) 与 Agent2Agent (A2A) 协议搭建跨语言多智能体流水线：Python agent 调用 Gemini 解析合同条款，Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期；ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体，以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。

智能体 Google MCP/工具教程/实践

推荐理由：Google 这篇教程把跨语言多智能体协作说得很实，A2A 协议像代理世界的 HTTP，不过整套方案还是绑在 Google 生态上，自己玩的话迁移成本不低。

00:56

Chubby♨️@kimmonismus

Delos Workers 让 AI 智能体拥有持久身份，像同事一样传递上下文

Delos Workers 突破传统 AI 智能体每次任务后重置上下文的限制，为每个智能体保留持久身份和记忆，独立拥有邮箱、电话和 Slack 句柄，能在任务间传递上下文，从而成为组织架构中可直接寻址的成员。引用 @pierre_dlgr 称其为“无限 AI 员工”，数天内实现 100 万美元 ARR，旨在取代邮件回复、CRM 更新等流程化知识工作。

Pierre de la Grand'rive: Introducing Workers: unlimited AI employees that run your company... And we've just made $1M ARR in a couple of days. Mo...

智能体产品更新现象/趋势

00:41

Hacker News 热门（buzzing.cc 中文翻译）

Claude Code 的"扩展思维"只是总结，而非真实推理

Claude Code 将会话记录写入磁盘，其中包含“thinking blocks”，但实际存储的是 600 字符的加密签名，而非推理文本。Anthropic 持有密钥，本地机器无法获取。API 仅返回推理的摘要，而非完整推理过程，获取完整思维输出需要企业协议。作者指出，通过 ctrl+o 获取的“扩展思维”输出是 Fable/Opus 推理的摘要，而非驱动模型行为的实际推理，存在数据丢失。本地文件无法提供智能体使用的逻辑记录，即使抓取输入、输出和动作，也无法获得实际推理。

智能体 Anthropic 现象/趋势编码

00:35

jason@jxnlco

我刚刚读了这篇文章：https://shnatsel.medium.com/the-unreasonable-effectiveness-of-llms-for-auditing-rust-code-d4df8bf0afd3

教程/实践编码

00:35

jason@jxnlco

你们中有多少人有一个Codex参谋长线程？你们让它们查看什么样的事情？

OpenAI 大佬观点编码

00:33

凡人小北@frxiaobei

推文分析微信成为超级Agent OS的潜力。对比手机厂商（端侧感知型，偏向控制硬件，但服务碎片化）与微信（云端调度型，依靠小程序作为类MCP工具池，聊天作为天然上下文窗口）。微信可深度操控自身生态（页面跳转、功能触发），但缺端侧长期记忆和规划能力。结论认为真正跑得动的Agent应云负责理解、编排与聚合服务，端负责感知与控制，统一调用链、上下文管理与服务编排者有望成为智能体OS。

凡人小北: 很多人都在说 Agent 是未来的操作系统。但问题是,你让谁来当操作系统?看openai现在的骚操作就有点这个意思。这就引出一个问题,现在的巨无霸们谁具备打造超级 Agent 的机会? 1)做个聪明的 Agent OS 不难,难的是你能真...

智能体 MCP/工具大佬观点