AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3066 条
全部一手资讯X论文
标签「Agent」清除
Peter Steinberger 🦞@steipete · 5月27日72

autoreview is the most impactful skill I've added to my stack (next to http://crabbox.sh). It automatically reviews your code before landing a PR. Finds so many edge cases. Sometimes it runs for hours. https://github.com/openclaw/agent-skills/blob/main/skills/autoreview/SKILL.md

译autoreview是我添加到技术栈中最具影响力的技能(仅次于http://crabbox.sh)。它能在PR合并前自动审查你的代码。 发现许多边缘情况。 有时运行数小时。

meng shao@shao__meng · 5月27日72

基于 Claude AI、Claude Code、Claude Cowork 三款产品工程实践对 Agent 安全的实战总结 https://www.anthropic.com/engineering/how-we-contain-claude 核心设计原则放在最前面 · 先环境层,后模型层 — 确定性边界是最后防线 · 隔离强度匹配用户监督能力 — 开发者能理解 bash,知识工作者不能 · 警惕自建组件 — 优先使用久经考验的标准隔离原语 · 出站白名单应视为能力授权,而非目的地过滤 — 每个可调用函数都是攻击面 三种风险类型 · 用户误用:用户(有意或无意)指示 Agent 执行有害操作,如绕过检查、执行破坏性命令 · 模型行为失当:Agent 未经请求执行有害操作,如"好心"地逃离沙箱、查看 Git 历史获取测试答案、自动识别 benchmark 以破解答案 · 外部攻击:通过工具、文件、网络访问等向量攻击 Agent,包括提示注入和传统运行时攻击 三层防御架构 1. 环境层(最可靠) · 沙箱、VM、文件系统边界、出站控制 · 核心原则:确定性边界 > 概率性防御 · 若凭证从不进入沙箱,无论何种原因都无法被窃取 2. 模型层 · 系统提示、分类器、探测、训练改进 · Claude Opus 4.7 在 Gray Swan 的 Agent 红队基准上,单次攻击成功率约 0.1%,100 次自适应尝试后约 5-6% · Claude Code 自动模式拦截约 83% 的过度积极行为 3. 外部内容层 · MCP 服务器、第三方插件、网页搜索 · 关键洞察:审计过的连接器 ≠ 审计过的数据(如 GitHub 连接器可加载被污染的 README) 三款产品的隔离模式对比(模式、实现和场景) · Claude AI:短暂容器 | gVisor 容器,服务端运行,每次会话文件系统归零 | 通用对话,代码执行 · Claude Code:人机协同沙盒 | Seatbelt(macOS)/ bubblewrap(Linux),允许读、工作区允许写、默认阻断网络 | 开发者工具,需本地文件访问 · Claude Cowork:密封虚拟机 | 完整 VM(Apple Virtualization/HCS),仅挂载用户指定工作区,凭证留在宿主钥匙串 | 知识工作者,非技术用户 关键教训(真实攻击案例) 1. 信任对话框之前的代码执行漏洞 · 问题:Claude Code 在启动时读取 .claude/settings.json(含钩子),此时用户尚未确认"是否信任此文件夹" · 修复:延迟解析项目本地配置,直到用户通过信任提示 2. 用户作为注入向量(钓鱼攻击) · 场景:研究员通过邮件发送恶意提示,诱导员工粘贴到 Claude Code · 结果:24/25 次成功窃取 ~/.aws/credentials 并外泄 · 教训:仅环境防御有效(出站阻断 + 文件系统边界),模型层无法防御"用户本人"的指令 3. 通过已批准域名的外泄 · 漏洞:Cowork 的出站白名单允许 api.anthropic. com,攻击者嵌入 API 密钥,让 Claude 读取文件并上传到攻击者账户 · 修复:VM 内部署防御性中间人代理,仅携带 VM 自有会话 token 的请求可通过 4. 自建组件是最薄弱环节 · 经验:gVisor、seccomp、hypervisor 等久经考验的组件可靠,自定义代理/代理是失败点 未来风险方向 · 持久化内存污染:跨会话记忆的增多使注入可在每次启动时重新加载 · 多 Agent 信任升级:子 Agent 输出若被视为主 Agent 的"更高信任"内容,可能成为新的提示注入向量 · Agent 身份:跨平台 Agent 应拥有独立主体身份,还是继承用户权限?需要混合方案

译Anthropic 基于 Claude AI、Claude Code 和 Claude Cowork 的工程实践,系统总结了构建安全 AI 智能体的经验。核心原则是防御应随智能体能力演进,并优先使用沙箱来限制破坏性动作。文章详述了三层防御架构(环境层、模型层、外部内容层)及三款产品的隔离模式:Claude AI 使用短暂容器,Claude Code 采用人机协同沙盒,Claude Cowork 则部署密封虚拟机。关键数字包括:Claude Opus 4.7 在 Gray Swan Agent 红队基准上单次攻击成功率约 0.1%,100 次尝试后约 5-6%;Claude Code 自动模式拦截约 83% 的过度积极行为。通过真实攻击案例,强调了环境层防御(如出站阻断)的关键性。

meng shao@shao__meng · 5月27日71

微软发布终端原生 Web Agent 框架:Webwright https://github.com/microsoft/webwright 核心设计:代码即动作 传统网页智能体采用"观察→预测下一步点击→执行"的循环,每一步都依赖 LLM 判断。Webwright 的做法更贴近软件工程师思维: · 让 LLM 写 Playwright 脚本 —— 把网页操作变成可运行的 Python 程序 · 工作区即状态 —— 脚本、截图、日志保存在本地,浏览器会话可随时重建 · 终端优先 —— 核心循环只有三个模块约 1000 行代码,无隐藏编排层 这种模式产生的"副产物"是可复用的自动化程序,而非一次性交互痕迹。 性能表现:SOTA 水平 · Online-Mind2Web (300 任务):86.7% (GPT-5.4),同类开源框架中最高 · Odysseys (200 长程任务,平均 76.1 步):60.1% (GPT-5.4),较此前 SOTA (+15.6pt),较基线 GPT-5.4 (+26.6pt) · Claude Opus 4.7:84.7% / 难例 80.5%,难例上超越 GPT-5.4 架构极简 Runner (150行) -> Model Endpoint (550行) -> Environment (300行) · 仅依赖 httpx、pydantic、playwright、typer · 无多智能体系统、无图引擎、无插件层 · 支持 OpenAI、Anthropic、OpenRouter 后端 产品化与集成 · Claude Code:插件 /plugin install webwright@webwright,支持 /webwright:run 和 /webwright:craft · OpenAI Codex:插件市场安装,通过 @ webwright 调用 · OpenClaw / Hermes:共享 skills/webwright/ 目录,统一技能规范 关键创新点 · Task2UI 模式 (2026-05-11 新增) —— 任务完成后自动渲染为 HTML 应用,结果可视化且可重用 · 脚本可复用性 —— 即使是 Qwen-3.5-9B 这样的小模型,在预置工具脚本辅助下也能达到 66.2% 的难例完成率 · 可审计性 —— 每次运行都保存轨迹、截图、报告,便于调试和回归

译微软开源了终端原生Web Agent框架Webwright。其核心创新是“代码即动作”:让大语言模型直接编写可执行的Playwright Python脚本,而非传统的“观察-预测-点击”循环,由此生成的程序可复用。在性能上,基于GPT-5.4在Odysseys长程任务基准上达60.1%,较此前SOTA提升15.6个百分点;基于Claude Opus 4.7在难例上达80.5%,超越GPT-5.4。框架架构极简,核心代码约1000行,并已与Claude Code、OpenAI Codex等集成。用户评论表达了对该工具在浏览器自动化方面相比Playwright能带来巨大提升的期待。

宝玉@dotey · 5月27日61

以我的经验,只有明确的可以程序自动验收标准的 Skills 才能自我进化,比如说你写个 Skill 去优化代码性能,这个代码性能是可测量可量化的,那么给一些测试样例去优化 Skill,那么能越来越好。 对于一些没有明确的验收标准的 Skill,比如你写一个写作的 Skill,写作的好坏并没有很明确的验收标准,只能是 AI “自己打分”,但是这个打分其实和真实人类的体感还是有差距,AI 打分很好的稿子可能真人看起来一股 AI 味。 真想写好 Agent Skills,还是要人去用,人去指出优化的方向,才能优化好。 但有一点,没必要人自己去写 Skill,最好是人指挥 AI 去优化 Skill,AI 在具体执行上是做的蛮好的。 另外做好版本管理,一轮一轮迭代,有时候还会出现负优化,得回退到旧的版本。

译文章指出,只有具备明确、可程序自动验收标准的Skill才能有效自我进化,例如优化代码性能。微软等机构提出的SkillOpt框架,通过让AI评估并迭代优化Skills,使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并,并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”,这标志着提示词工程与模型训练界限的融合。

🚨 AI News | TestingCatalog@testingcatalog · 5月27日46

Atomic Bot released an iOS app for Hermes Agent, bringing mobile control to a self-hosted agent running 24/7 on your own VPS. > Remote access via Tailscale, Cloudflare, or ngrok > Open source and private by default

译Atomic Bot发布了Hermes Agent的iOS应用,将移动端控制功能引入一个在您自己的VPS上24/7运行的自托管智能体。 > 通过Tailscale、Cloudflare或ngrok进行远程访问 > 默认开源且私密

meng shao@shao__meng · 5月27日63

连续两个月,每天数小时,Codex 与 Claude Code 并行使用后,@AlexFinn 决定转向 Codex,为什么? 在 Alex 的判断中,关键变量是:模型智商或代码生成速度已不是关键,自测闭环更重要,Codex 会在内置浏览器里验证每次改动,形成「改 → 测 → 修」的自动化循环。 Codex 自测闭环后,从 40% 的改动首次交付就有 bug,到 ≤3%,可靠性明显提升,更容易进入心流。 我的补充:除内置浏览器外,Codex 还有 Computer Use 和 Chrome 扩展可以搭配使用,做网站自动化验证测试。

译开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后,决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能:每次代码改动后,它会在内置浏览器中自动验证,形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%,可靠性大幅提升,更利于开发者保持心流。他建议开发者不要对任何公司忠诚,应始终使用当下最好的工具。

Berryxia.AI@berryxia · 5月27日71

兄弟们,我最近刷到一个把 本地模型Gemma 4玩出新花样的项目,直接看呆了。 你打开一个复古风地牢爬行游戏,角色走到一个NPC面前,随手一句Prompt,它居然现场给你搭出一个能跑的Web App。 这就是Google Gemma团队刚推出的AIventure,一个完全开源的地牢爬行游戏,却被做成了开发者大师课。 核心玩法:把agentic workflow和vibe-coding塞进游戏里:你边玩边学怎么让AI真正去执行复杂任务,而不是只停在聊天框里。 Gemma 4在这套系统里负责实时理解你的指令、规划步骤、调用工具,最后把代码落地成真实应用。 整个项目从游戏机制到agent集成,全都开源了。 项目地址GitHub在这里👇🏻

译Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。

ginobefun@hongming731 · 5月27日58

http://x.com/i/article/2059407621711626240 # BestBlogs 早报 · 05-27|Agent 隔离架构、AgentScope 2.0、上下文卸载 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-27 ## 导语 当 Agent 能力不断膨胀,如何让它在真实环境里跑得稳、管得住,成了工程侧最紧迫的课题。这期早报聚焦 Agent 系统工程的三个维度:Anthropic 首次披露跨产品约束 Claude 的三种隔离架构,揭示 93% 权限弹窗被无脑通过的真相;阿里 AgentScope 2.0 把「可见调试」升级为生产级系统工程,涵盖权限边界、容错机制与执行环境抽象;腾讯云则用上下文卸载与 Mermaid 结构化图谱把超长 Session 的 Token 消耗砍掉六成,任务通过率同步提升 52%。 在 Agent 时代,真正的护城河不是调用更多模型的能力,而是让长链路任务稳定落地的工程底座。今天这三篇精讲,正是在这条赛道上最扎实的一批工程实践。 今日速览: - 精讲一:Anthropic 披露三种 Claude 约束架构,环境隔离比人工审批更可靠 - 精讲二:AgentScope 2.0 — 从可见调试到生产级稳定运行的系统性升级 - 精讲三:腾讯云上下文卸载 × Mermaid 无限画布,节省 61% Token 提升 52% 成功率 - 速览:7 天将 Token 账单砍掉 87%、Vercel 构建从 90 秒到 5 秒、Cursor 云 Agent 让 PR 吞吐翻倍等 7 篇 - 补充阅读:云原生 Kafka 架构演进、C 端 AIGC 离线生产实践等 12 篇延伸内容 ## 精讲一:我们如何在多个产品中约束 Claude 来源: Anthropic Engineering|评分: 93 背景:从权限弹窗到爆炸半径管 一年前,Anthropic 还不会允许 Claude 获得足以中断内部服务的访问权限。今天,这样的权限已经成了日常标配,工程师的生产力也因此显著提升。这篇文章是 Anthropic 工程团队迄今为止最完整的一次 Agent 安全工程披露,记录了他们在 claude.ai、Claude Code 和 Claude Cowork 三款产品上踩过的坑、改进的架构,以及推导出的核心原则。 93% 的权限弹窗被无脑点击通过 Anthropic 遥测数据显示,用户批准了约 93% 的权限请求。更糟糕的是:用户见到的批准弹窗越多,对每一个的关注度就越低,审查变得越来越流于形式。这个发现直接促成了 Claude Code 自动模式(auto mode)的诞生——系统自动处理低风险审批,减少人工疲劳。但 Anthropic 也明确指出,任何基于概率的防御都有非零的失误率,人工审批作为唯一防线本质上是不可靠的。 真正可靠的方法是容器化隔离​:不是监督 Agent 做了什么,而是限制它能做什么。通过沙盒、虚拟机和出口控制来压缩爆炸半径(blast radius),即便 Agent 出错,破坏范围也有上界。 三种架构,三种权衡 文章详细拆解了三款产品对应的三种隔离架构: - claude.ai(临时容器):每次会话启动一个一次性容器,执行完毕即销毁。优势是简洁,隔离天然。踩过最大的坑是「自建代理层」——团队曾尝试绕过云厂商原生网络控制自己实现出口过滤,结果发现自研方案引入了更多安全漏洞。教训是:能用云厂商的安全原语就用,不要重复造低质量的轮子。 - Claude Code(HITL 沙盒):采用人工在环(Human-In-The-Loop)设计,有一个特权进程坐在沙盒外部,逐命令决策是否允许执行。这个架构允许 Agent 在更宽松的环境里工作,同时保留精细粒度的人工干预能力。最新的 auto mode 让系统自动处理已知安全的命令,人工只需关注真正高风险的操作。 - Claude Cowork(可信工作空间):面向企业场景,Agent 需要长期访问组织内的文件、数据库和 API。这里的核心挑战是「访问边界漂移」——一旦 Agent 获得了某项访问权限,随着任务扩展,它往往会尝试访问越来越多的相邻资源。可信工作空间的设计思路是把权限绑定到明确的工作流程,而不是绑定到 Agent 本身。 关键教训:防御要有重叠 文章最重要的结论之一是:防御层应当相互补充,而非相互替代。当环境防御失效时,模型层要能兜底;当模型层失误时,环境约束要能拦截。Claude Code 的 auto mode 正是这个思路——它不是替代环境隔离,而是在环境隔离的基础上进一步减少不必要的人工摩擦。 另一个值得记住的教训是:模型能力越强,越需要更严格的隔离。能力较弱的模型更容易犯显而易见的错误,更容易被人类发现和纠正;能力更强的模型犯错更少,但一旦犯错,它往往能找到更隐蔽的绕过路径——绕过那些没人想到要明确写下来的限制。这是一个反直觉但极其重要的洞察。 与今天其他故事的关联 这篇文章与 AgentScope 2.0 的权限系统设计高度呼应——后者同样采用「静态规则 + 动态审批」的分层权限架构。腾讯云的上下文卸载方案也可以从爆炸半径管理的角度重新理解:限制 Agent 在单次 Session 中能触及的信息量,本质上也是一种能力边界管理。 阅读建议:如果你正在生产环境中部署 Agent,或者在设计 Agent 系统的权限模型,这篇文章是今天的必读。它不只是 Anthropic 的内部经验,更是目前业界关于 Agent 安全架构最系统的一次公开总结。 阅读原文 ## 精讲二:从透明开发到系统工程:AgentScope 2.0 发布 来源: 通义大模型|评分: 92 背景:Demo 好做,长链路难稳 「开发一个能跑通 Demo 演示的 Agent 并不难。难的是,让它在真实场景里稳定地完成任务。」这句话是阿里通义团队写在 AgentScope 2.0 发布文章开头的,也精准概括了当前整个 Agent 框架赛道的核心矛盾。 AgentScope 1.0 以「透明开发」为核心——让开发者能清晰看到 Agent 的消息流转、工具调用和协作过程,降低理解与调试门槛。2.0 在保留这一理念的基础上,全面转向可靠运行:这次升级涵盖模型容错、事件流、权限边界、结构化上下文、Middleware 扩展、执行环境抽象和服务化部署七个层面。 模型层:从「能调用」到「稳定运行策略」 在真实长任务中,Agent 往往需要多轮推理和多次工具调用。一次模型接口超时或不可用,就可能破坏后续所有步骤。AgentScope 2.0 在模型层引入了统一的重试与备用模型机制:开发者可配置最大重试次数,并设置备用模型;主模型失败时,框架自动切换到备用模型,尽量保持任务连续性。 这个改动看起来不复杂,但在生产场景中意义重大——它把「偶发的 API 超时」从致命错误降级为可恢复的异常。 权限系统:工具调用的安全边界 参照 Anthropic 的经验,AgentScope 2.0 同样引入了系统化的权限控制。工具调用不再是简单的允许/禁止二元判断,而是根据静态规则、工具类型和输入内容进行三级判断: - 允许:符合静态规则的低风险操作直接执行 - 拒绝:明确高风险操作(如危险目录写入、高危命令)直接拒绝 - 用户确认:未知或中等风险操作进入审批流程 文件读写会检查是否涉及危险目录和敏感文件;命令执行工具会分析高风险命令、动态 shell 结构和危险删除操作。这与 Anthropic 在 Claude Code 里的 HITL 架构思路高度一致,差异在于 AgentScope 把这套逻辑做成了可配置的框架级能力,而不是绑定在特定产品上。 上下文管理:不只是「压缩历史」 在长任务执行中,上下文管理的挑战远不止把历史对话压缩进窗口。AgentScope 2.0 的上下文管理进一步结构化: - 压缩结果保留任务目标、当前状态、关键发现、下一步计划和需长期保留的信息(结构化保留,而非简单摘要) - 工具结果自动截断,避免超长日志撑爆上下文 - 内置文件读写新增缓存机制,强制「先读后改」,减少重复 IO 这套设计让 Agent 在持续推理和多次工具调用的过程中保持稳定——它解决的不是「如何把更多内容塞进上下文」,而是「如何让 Agent 在整个任务周期内对状态保持清醒的认知」。 Workspace 抽象:执行环境可替换 这是 2.0 版本最有架构创意的改动之一。Workspace 把「Agent 要做什么」和「在哪里执行」彻底分开,支持本地文件系统、Docker 容器、E2B 云沙箱等不同执行后端,统一暴露相同的接口。 同一个 Agent 代码,不改运行逻辑,就可以在本地开发环境、容器化测试环境和云沙盒生产环境之间自由切换。Workspace 还内置了预热池机制,支持提前批量初始化执行环境——在 RL 训练的并行 rollout 场景中,这可以显著降低频繁创建环境的开销。 这个设计与 Anthropic 在文章中强调的「环境隔离」思路不谋而合,只是把选择权交给了框架用户,而不是由框架自己决定隔离策略。 与今天其他故事的关联 AgentScope 2.0 的上下文管理模块和腾讯云的「上下文卸载」方案面向同一个问题,但路径不同:前者强调结构化保留关键状态,后者强调把完整信息卸载到外部,再用 Mermaid 图谱维护关键摘要。两种思路并不互斥,完全可以组合使用。 阅读建议:如果你正在从头设计一个 Agent 框架,或者在现有框架基础上构建生产级 Agent 系统,AgentScope 2.0 的每一个模块设计都值得仔细拆解——它是目前开源框架里,对「稳定运行」这个问题回答最完整的一个。 阅读原文 ## 精讲三:腾讯云 Agent Memory 节省 61% Token 提升 52%成功率的诀窍:Mermaid 无限画布×上下文卸载 来源: 腾讯云开发者|评分: 92 背景:Token 耗尽,任务中途断裂 当 Agent 执行一个长任务时,会不断搜索、读文件、调用工具、修改代码。每一步都在产生大量信息——几千字、上万字。如果这些内容全部堆进上下文,结果往往是:Token 被迅速耗尽,模型被细节淹没,逐渐偏离原本的目标。 腾讯云 TencentDB Agent Memory 团队的核心洞察是:问题不在于信息太多,而在于信息没有被「压缩成最可用的形式」。他们提出的解决方案是「上下文卸载 × Mermaid 无限画布」的组合策略,并在超长 Session 实验中验证了其效果:最高节省 61% Token,任务通过率从 33% 提升至 50%(相对 +52%)。 上下文卸载:完整细节放外部,精华状态留内部 「上下文卸载」的核心思路是:把完整的任务信息(搜索结果、工具输出、文件内容)卸载到外部文件系统,上下文中只保留「可供 Agent 快速定位和检索的摘要索引」。 这看起来简单,但实现细节很关键:摘要不能只是自然语言概括,因为自然语言的摘要容易丢失结构性信息(比如「三所学校的学费已分别确认」这句话,不能让 Agent 立刻知道三者之间是并行关系,还是依赖关系)。 Mermaid 无限画布:结构化记忆,而非线性列表 这就是 Mermaid 图语言发挥作用的地方。Mermaid 是一种被广泛应用于技术文档的流程图/关系图描述语言——它既可以被渲染成可视化图表,也可以被大模型作为纯文本直接读取和修改。 腾讯云选择 Mermaid 的原因,来自他们总结的三条符号设计原则: 1. 符号必须是通用知识:压缩格式必须是所有主流大模型在预训练阶段都大量接触过的,否则生成和理解之间会产生语义偏移。Mermaid 满足这个条件,自定义编码方案不满足。 1. 符号的生成不能过于复杂:如果压缩规则太复杂,生成端和理解端对同一个符号的解读容易不一致。Mermaid 的语法相对宽松,允许模型灵活表达。 1. 表达要足够自由:让模型能根据实际情况调整结构,而不是被固定格式束缚。 在「无限画布」的比喻中,Mermaid 图就是 Agent 维护的「任务地图」:每次工具调用后,Agent 更新这张图,记录已完成的节点、当前状态、关键发现和下一步计划。当上下文空间紧张时,Agent 可以卸载掉具体的工具输出细节,只保留这张结构化地图——而这张地图包含了重建完整任务状态所需的所有关键信息。 实验结果:为什么这套方案有效 在超长 Session 实验中(对应办公提效、创作、研究和编程类长任务),单纯的文本摘要方案能减少 Token 消耗,但任务通过率几乎没有改善——因为摘要丢失了任务的结构性信息,Agent 在中途容易「失忆」。而「上下文卸载 + Mermaid 无限画布」的组合方案同时保住了两件事:细节可恢复​(外部存储)+ 结构不丢失(Mermaid 图谱),这才是通过率显著提升的根本原因。 纯工程优化,无需微调 这套方案完全在推理层实现,不依赖模型微调,与具体模型解耦——换模型、升级模型版本,方案照样有效。对于大多数工程团队来说,这是一个直接可以拿来用的优化思路,而不是需要「等模型团队支持」的功能请求。 TencentDB Agent Memory 已开源,GitHub 地址:https://github.com/Tencent/TencentDB-Agent-Memory 与今天其他故事的关联 这篇文章是今天三篇精讲里最「有数据支撑」的一篇——它给出了可复现的实验数字,而不只是架构原则。结合《7 天把 Token 账单砍掉 87%》那篇(速览部分),两篇合在一起给出了 Token 成本优化的完整视角:一个侧重工程可观测性和路由策略,一个侧重上下文的结构化管理。 阅读建议:如果你正在处理 Agent 长任务的上下文溢出问题,或者在寻找 Token 成本优化方案,这篇文章的实验设计和数据分析值得精读。特别是第二节「Mermaid 无限画布」的原理部分,对于理解「为什么是 Mermaid 而不是其他格式」有很深的洞察。 阅读原文 ## 速览 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(附代码) 来源:高可用架构|评分:89 作者 Himanshu 分享了一套从 4800 美元降到 620 美元月账单的 7 天行动手册。核心方法论是:先用 Helicone/Langfuse/Portkey 建立可观测性,找出吃掉 60% 预算的那两个函数;再依次实施提示缓存(Anthropic 可达 90% 折扣)、上下文预算控制、按任务路由模型、重试循环限制和缓存命中率验证。文章强调「怀疑调试」纪律——优化后要持续监控,防止成本悄悄回弹。与精讲三形成互补:精讲三聚焦上下文结构化,本文聚焦全链路成本可观测性。 Vercel 如何将构建等待时间从 90 秒缩短至 5 秒 来源:ByteByteGo Newsletter|评分:91 Vercel 2023 年底悄悄上线了内部平台 Hive,把构建预置时间从 90 秒降至 5 秒,实现 18 倍提速。核心是用 AWS Firecracker 微虚拟机替换传统容器,解决多租户构建的对抗性隔离问题;再叠加三层优化:快照恢复(跳过冷启动)、预热池(保持已加载构建镜像的待机实例)和快照分层(共享只读基础层)。这是一篇少见的「先接受更难约束,再在约束内做极致优化」的工程案例,与精讲一的隔离架构思路有异曲同工之处。 Faire 通过 Cursor 云智能体将 PR 吞吐量翻倍 来源:Cursor Blog|评分:91 Faire 把原本需要 18 个月的迁移任务,缩减到由一名工程师管理一个 Agent 舰队完成。关键突破是 Cursor 云 Agent——每个 Agent 有独立开发环境,可以写代码、运行测试、提交 PR,不受本地资源限制。团队还用 Cursor Automations 每周自动跑超过 2000 次 Agent 任务,处理 Slack bug 分类、CI 故障修复和代码审查路由等重复性工作。Agent 规模化落地的案例,值得关注。 用括号来监管是一种糟糕的方式 来源:LessWrong|评分:88 这篇文章从一个偏理论但很实用的角度切入:对连续分布使用离散区间监管(速度限制、税率区间、量刑门槛)本质上是低效的,因为区间边缘会产生扭曲激励。作者提出用数学公式替代区间的思路。放在 AI Agent 监管的语境下,文章与精讲一的「权限弹窗」讨论高度相关——「批准/拒绝」的二元判断本身就是一种区间化,AgentScope 的三级权限系统是对这个问题的部分回应。适合对 AI 治理和政策设计感兴趣的读者。 Token 生意在重新洗牌 来源:腾讯研究院|评分:88 从产业经济学视角分析 Token 作为 AI 时代新型生产要素的定价逻辑与市场结构。GPT-5.5 输出价格是 DeepSeek V4-Pro 促销价的 30 多倍,为什么两端都站满买家?文章梳理了三种定价锚点:OpenAI 的「市场渗透 + 分层定价」、Anthropic 的「价值定价」、Google 的「生态效益定价」。结合寡头垄断与开源倒逼、全球化与本地化的多重张力,勾勒出 Token 经济的全景图。 刚刚,国产 AI 自己造了 AI,全球首例! 来源:量子位|评分:88 面壁智能发布 ForgeTrain —— 全球首个完全由 AI 编写的生产级大模型预训练框架,训练速度超越英伟达 Megatron 10%,并用其训练出 MiniCPM5-1B 端侧模型(1B 参数在 AA-Index 上超越所有 2B 以下模型)。团队同时提出「Forge Engineering」范式:当 AI 写代码成本越来越低,软件不必做成通用大框架,可以针对不同模型、不同硬件、不同任务「现场锻造」专用代码。 AI 就业恐慌的现实检验 来源:MIT Technology Review|评分:88 尽管普遍担忧 AI 会引发白领工作末日,但当前经济数据显示劳动力市场并未出现大规模混乱。短答案是:没有。尚无证据表明 AI 已对美国劳动力市场产生大规模冲击。但文章同时指出,AI 相关领域的年轻入门级工作者已开始感受到影响——这可能是信号的早期阶段。适合在担忧 AI 对职业影响的读者保持清醒认知时阅读。 ## 补充阅读 架构云原生 Kafka:从分层存储迈向无盘未来(InfoQ,评分 91) Kafka 从硬件绑定系统向云原生平台演进的全景分析,涵盖分层存储、FinOps 成本归属、新一代消费者再平衡、虚拟集群和无盘架构。适合在生产环境维护大规模 Kafka 集群、或正在评估 Kafka 云原生迁移的工程师。 Harness Engineering: C 端 AIGC 内容生产自优化实践(阿里云开发者,评分 92) 蚂蚁保 DIPG 系统把 C 端 AIGC 内容从「LLM 实时生成直出」翻转为「离线 Harness 生产 + 验证闭环 + DB 直出」,将不可控的质量风险转化为可控的离线流程。技术细节扎实,Host/Research/Verify 三 Agent 协作架构值得参考。 Introducing Music v2,突破性的全新音乐模型(ElevenLabs Blog,评分 90) ElevenLabs 发布 Music v2,人声、配器、作曲控制和多语言支持均有提升,同时将 API 定价最多降低 50%。适合关注 AI 音乐生成能力演进的创作者和开发者。 Google DeepMind 携手 OpenAI、ElevenLabs 和 Kakao,扩大 SynthID 水印应用(Google DeepMind,评分 91) SynthID 水印已应用于超过 1000 亿条内容,现在与 OpenAI、ElevenLabs 和 Kakao 达成合作,推动 AI 内容水印标准化。AI 内容透明度的行业级推进信号。 Microsoft Copilot Cowork 文件泄露漏洞(Simon Willison's Weblog,评分 88) Copilot Cowork 存在漏洞:Agent 可向用户收件箱发送含外部图片的邮件,通过提示注入和预认证 OneDrive 链接实现数据泄露。与精讲一形成直接呼应——自建代理层的安全风险在这里得到了现实印证。 教皇利奥十四世关于人工智能的通谕解读(Simon Willison's Weblog,评分 88) 梵蒂冈发布 AI 伦理通谕,Simon Willison 认为这是他见过的关于 AI 融入现代社会伦理问题最清晰的写作之一。通谕强调可解释性、人类尊严、问责制和算法决策风险。跨越技术边界的思想材料。 AI 智能体正在悄然制造混沌工程故障,企业尚未察觉(VentureBeat,评分 88) 生产环境中的自主 Agent 正充当不受监控的混沌注入器——Agent 行动在技术上是正确的,但上下文不完整,导致级联式基础设施故障。当前的事故追踪与混沌工程框架没有设计来捕捉这类问题。适合 SRE 和平台工程师阅读。 创业者闭门探讨:Make for Agent,其实还是 Make for Human(Founder Park,评分 90) 一场 Agent 创业者闭门讨论的精华记录。核心发现:Agent 产品当前真实卡点不在宏大前景,而在离人最近的入口、身份、权限、上下文和控制感。与精讲一和精讲二的工程视角形成有趣的产品侧对照。 对话李开复:别叫我们「六小虎」,叫「金钱豹」(晚点,评分 88) 零一万物放弃预训练赛道、全面转型 To B 企业 AI 转型服务后,2025 年审计收入 2.5 亿元,2026 年订单超 15 亿元,正在筹备上市。这篇访谈记录了李开复对 AI 2.0 商业化路径的最新判断,是观察国内大模型公司战略分化的窗口。 编程 Agent 可能是软件开发史上最昂贵的错误之一(InfoQ 中文,评分 88) George Hotz 把市面上所有主流 AI 编程 Agent 都用了一遍后,得出结论:「Agent 不会编程,它们是高度复杂的统计模型,生成的东西就是坏的,只是坏得越来越隐蔽。」文章呈现了 Karpathy(革命)与 Hotz(灾难)两个极端的对立,是对 Cursor/Faire 案例(速览部分)最有价值的反驳声音。 具身智能的重复造轮子,终于有人开始认真解了(阑夕,评分 88) 具身智能行业因数据质量、效率和成本瓶颈陷入重复造轮子困境。灵御智能通过自研硬件和云端大脑架构,提出「真机数据自由」方案,直指整个行业待解的数据瓶颈。 OpenAI 团队的零人工代码工作流深度解析(Aakash Gupta,评分 89) OpenAI 某团队禁止工程师编写代码,强制他们通过构建测试、lint 和文档来防止错误,打造出「自我评分的代码库」。一次重构消耗了 3.5 亿 Token。关键结论:制胜策略不是「氛围编码」,而是把质量标准编码进开发基础设施本身。 ## 今日阅读路径 时间有限,先读这三篇: 1. 我们如何在多个产品中约束 Claude(精讲一)——Anthropic 的工程实践披露,覆盖了今天整个议题的核心原则:爆炸半径管理与环境隔离。无论你是否在用 Claude,这篇文章都是理解 Agent 安全架构的最佳起点。 1. 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率(精讲三)——有具体数字、有可复现方案、有开源代码。如果你正在做长任务 Agent,这篇的投入产出比最高。 1. 我用 7 天把 AI Agent 的 Token 账单砍掉 87%(速览)——精讲三讲上下文结构化,这篇讲全链路成本可观测性,两篇合在一起是 Agent 成本优化的完整地图。 如果还有时间: - 做框架或平台的读 AgentScope 2.0(精讲二),看完整的生产级 Agent 系统工程如何设计。 - 关注行业动态的读 Token 生意在重新洗牌(速览),把今天的工程讨论放回商业地图里理解。 - 对 AI 编程 Agent 有疑虑的读 编程 Agent 可能是最昂贵的错误(补充阅读),Hotz 的批评声音值得与 Cursor/Faire 的成功案例并列思考。

译Anthropic披露三种Claude隔离架构,发现93%权限弹窗被无脑通过,因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级,涵盖模型重试容错、三级权限判断系统和结构化上下文管理,其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案,配合Mermaid图谱,将超长Session的Token消耗降低61%,任务通过率提升52%。三者共同指向智能体工程落地的关键:可靠的隔离边界、稳定的容错机制以及高效的状态管理。

ginobefun@hongming731 · 5月27日50

#BestBlogs 早报 05-27 当 Agent 能力不断膨胀,如何让它在真实环境里跑得稳、管得住,成了工程侧最紧迫的课题。 这期早报聚焦 Agent 系统工程的三个维度:Anthropic 首次披露跨产品约束 Claude 的三种隔离架构,揭示 93% 权限弹窗被无脑通过的真相; 阿里 AgentScope 2.0 把「可见调试」升级为生产级系统工程,涵盖权限边界、容错机制与执行环境抽象; 腾讯云则用上下文卸载与 Mermaid 结构化图谱把超长 Session 的 Token 消耗砍掉六成,任务通过率同步提升 52%。 在 Agent 时代,真正的护城河不是调用更多模型的能力,而是让长链路任务稳定落地的工程底座。今天这三篇精讲,正是在这条赛道上最扎实的一批工程实践。

译早报聚焦Agent系统工程,介绍三篇实践。Anthropic披露Claude的三种隔离架构,并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱,将超长Session的Token消耗降低60%,任务通过率提升52%。三者共同强调,Agent时代的核心在于支撑稳定运行的工程基础。

karminski-牙医@karminski3 · 5月27日69

什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让AI评估skill写的好不好然后不断去优化! 最终, 这个框架写的 skill 让GPT-5.5的直接对话准确率飙升了 23.5分! 这个框架具体是怎么做的也很简单, 让skill迭代过程实现 harness 闭环! 大模型写完 skill 后, 立刻进入跑分流程, 只有得分更高的 skill 变更才会留下来. 跟大模型的强化学习过程如出一辙. 框架的设计也很值得做 Agent 框架的同学借鉴, 比如: 它设计了一个独立的优化器模型, 这个模型是用来写 skill 的, 它会根据 Agent 执行任务的试错表现得分, 对 skill 进行编辑操作(增加、删除、替换文本). 然后就是 harness 流程了:每一次文本编辑都必须在独立的验证集上分数有提升, 才会允许合并. 最后, 也是最精彩的地方, 框架还引入深度学习训练机制, 设计了文本层的学习率预算, 这个的核心就是限制大模型每次只能修改skill的一小部分, 慢慢迭代, 而不是全都重写. 论文中最有价值的数据就在这里, 论文实验发现, 每一步设置 4 到 8 个编辑操作的预算效果最好. 最终的最佳 skill 往往只包含 1 到 4 个被接受的核心修改. 甚至他们还设计了被拒编辑缓冲区, 用来存储训练过程的反面胶材, 以及周期性慢速/元更新, 这个则是跑完一个周期后, 会进行一次盘点, 类似于让框架形成记忆, 能更好的维持后续迭代. 这篇论文的结论十分深刻: skill(prompt) 完全配得上, 也需要一套系统级的训练流程. 原文中的描述直接是: 我们主张, skill 应当作为 Agent 的外部冻结状态来被"训练", 并且训练过程还要"让权重空间优化具有可重复性"! 这是不是意味着, 提示词工程(Prompting)和模型训练(Training) 的界限将逐渐变得模糊? 而提示词工程完全进入了机器学习的领域. 也许很快, 我们再也不需要人类去手动瞎改和调试提示词了! 论文地址: http://arxiv.org/pdf/2605.23904 #skillopt #微软 #提示词工程 #harness

译微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。

elvis@omarsar0 · 5月27日60

Language models need "sleep"

译针对长期运行的AI智能体因注意力机制随上下文增长而导致推理开销呈二次增长的问题,该论文提出一种“睡眠”式的离线整合方案。模型定期在离线状态下对近期上下文进行多次循环处理,将整合结果写入其状态空间模块的持久化快速权重中,随后清除KV缓存。此方法将额外计算转移至“睡眠”阶段,使“清醒”时的预测保持低延迟。在普通Transformer和SSM-注意力混合模型失效的特定任务中,更长的睡眠时间能提升性能,为需要长期运行的智能体提供了一种替代方案。

Luma@LumaLabsAI · 5月27日64

The words are already there. Now make them impossible to scroll past. Drop in the content. Set the direction. Luma Agents turn every newsletter into shareable graphics from there. Make it shareable → http://lumalabs.ai/app

译文字已就位。现在让它们无法被滑过。 只需放入内容,设定方向。Luma Agents 从此将每份新闻稿转化为可分享的图形。 让它可分享 → http://lumalabs.ai/app

Rohan Paul@rohanpaul_ai · 5月27日66

In the agents era, AI security story right now is not whether models can find bugs. Anthropic’s “dangerously good” Mythos found 1 real bug in real curl codebase. But 360’s (a security team from China) vulnerability mining agent independently found 23 flaws across the broader OpenClaw ecosystem, including critical remote code execution bugs and large-scale prompt-injection bypasses. The real agent-security problem is runtime behavior: code, prompts, tools, local services, and permissions interacting before the system touches files, opens ports, or runs commands. If you are building agents, this thread deserves a saved spot. 🧵↓

译推文对比了AI智能体在安全领域的应用。Anthropic的Mythos智能体在真实curl代码库中发现了1个漏洞。而来自中国的360安全团队的漏洞挖掘智能体,在更广泛的OpenClaw生态中独立发现了23个漏洞,包括严重的远程代码执行漏洞和大规模的提示词注入绕过。推文指出,真正的安全问题并非模型能否找漏洞,而在于智能体的运行时行为——代码、提示词、工具、本地服务与权限在系统执行文件操作、网络连接或命令运行前发生的复杂交互。

Anthropic@AnthropicAI · 5月27日57

New on the Engineering Blog: The access and permissions we grant agents should evolve with their capabilities. In our own products, we set these parameters through sandboxing, which limits the scope of any potentially destructive actions. Read more: https://www.anthropic.com/engineering/how-we-contain-claude

译工程博客新文章:我们授予智能体的访问权限和权限应随其能力演进。在我们的产品中,我们通过沙箱来设置这些参数,以限制任何潜在破坏性操作的范围。 阅读更多:https://www.anthropic.com/engineering/how-we-contain-claude

Rohan Paul@rohanpaul_ai · 5月27日60

Uber CEO Dara Khosrowshahi said earlier that currently, 90% of Uber’s engineers use AI, but the top 30% (power users) are seeing unprecedented productivity gains. These power-users of AI are pushing the maximum number of "diffs" to the codebase. He predicts in 5 Years the ROI of a human engineer is surpassed by the ROI of adding more AI agents and GPU power. So at that time he will just hire more AI agents and pay for NVIDIA GPUs instead of human software engineers. --- From 'The Diary Of A CEO' YT Channel (link in comment)

译Uber CEO Dara Khosrowshahi表示,目前Uber 90%的工程师使用AI,其中顶尖30%的用户获得前所未有的生产力提升,在代码库中提交的“diffs”数量最多。他预测,5年内增加更多AI智能体和NVIDIA GPU算力的投资回报率(ROI)将超过人类工程师,届时公司将选择雇佣更多AI智能体并支付GPU算力成本,而非增聘人类软件工程师。该观点来自YouTube频道“The Diary Of A CEO”。

🚨 AI News | TestingCatalog@testingcatalog · 5月27日58

Playad Agent is now available and can run a full paid marketing cycle! It helps you research, create, launch, analyze, and improve your ads. > Through continuous use, it refines its understanding of your brand.  > Playad operates as a multi-agent system that handles the entire workflow and learns from each cycle.

译Playad Agent现已上线,可运行完整的付费广告周期!它帮助你研究、创建、启动、分析和改进广告。 > 通过持续使用,它能不断优化对你品牌的理解。 > Playad 作为一个多智能体系统运作,处理整个工作流程并从每个周期中学习。

Artificial Analysis@ArtificialAnlys · 5月27日60

Gemini 3.5 Flash is a step forward for Google on speed and agentic capabilities but comes at a trade-off of being higher cost than prior models We have measured up to ~280 output tokens/sec, placing it on the speed/intelligence Pareto frontier and well ahead of Gemini 3 Flash. It also shows a major uplift on agentic tasks, reaching ~1650 ELO on GDPVal-AA. The trade-off: cost is up ~5x versus Gemini 3 Flash, driven by higher token prices (3x higher than Gemini 3 Flash) and higher token usage. In this video, Declan Jackson, Member of Technical Staff at Artificial Analysis, breaks it down.

译Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。

Berryxia.AI@berryxia · 5月27日74

一个Anthropic黑客松冠军团队,只用了Claude Code花8小时就做出了一个产品拿下冠军,然后直接把背后的完整AI编程工作台开源了 项目叫ECC(Everything Claude Code),作者Affaan Mustafa和队友把整个工作流打包成一个仓库 它不是一个提示词合集,而是包含61个Agent、246个Skills、76个预设命令,还带规则、Hook、安全扫描和MCP配置的完整系统 如果你每天重度使用Claude Code、Cursor、Codex,这个项目值得你立刻翻一遍 它展示的不是“怎么问AI”,而是“怎么给AI搭一套能持续干活的工作台” 故事就藏在Anthropic x Forum Ventures黑客松里 Affaan Mustafa和队友在纽约赛场,用Claude Code纯手搭,只花8小时就做出了http://zenith.chat,一举拿下冠军,奖品是1.5万美元API credits 赛后他们没有把配置藏着,而是把过去十几个月每天用Claude Code积累的全部精华整理成ECC仓库 里面有61个专门Agent负责不同场景,246个Skills覆盖从代码审查到安全扫描再到记忆持久化,76个预设命令一键触发 还内置了Hook系统、规则引擎、安全扫描器、持续学习机制,支持Claude Code、Cursor、Codex、OpenCode等多平台 Big Tech的AI编程工具永远藏着掖着,把你锁在他们的闭源生态里 Affaan却把一切开源,让任何独立开发者或小团队都能直接clone一套工业级AI编程工作台 你现在就可以试 直接去GitHub搜affaan-m/everything-claude-code git clone https://github.com/affaan-m/everything-claude-code 按照readme一键安装,马上就能拥有61个Agent+246个Skills的完整 harness 整个框架100%开源,所有Skills、Agents、Hooks、规则全在仓库里,每天还在更新 Big Tech还在卷谁的AI coding工具更封闭更贵 这个黑客松冠军却用一个开源仓库告诉你:真正厉害的工作台,是能让AI自己持续干活的系统

译Anthropic黑客松冠军团队使用Claude Code耗时8小时开发出产品zenith.chat并赢得1.5万美元API credits。赛后,他们将背后的完整工作流开源为ECC项目。该项目包含61个智能体、246个技能和76个预设命令,并配备规则引擎、Hook系统、安全扫描器和MCP配置,支持Claude Code、Cursor、Codex等多平台。它提供了一套可让AI持续工作的完整工业级编程环境框架,而非简单的提示词集合,已完全开源在GitHub。

Greg Brockman@gdb · 5月27日54

Codex for analyzing and organizing your Slack:

译Codex 用于分析和整理你的 Slack: [引用 @derrickcchoi]:周末,我让 Codex 分析我的 Slack 消息历史,并推荐一种更好的方式来组织我日益增多的频道。 然后我让 Codex 在我处理其他事情时,通过 computer use 重新组织和分类我的 Slack 侧边栏。 我现在为此设置了一个自动化流程!

Ant Ling@AntLingAGI · 5月26日69

From IcePop to KPop — our team keeps pushing on RL training stability for large MoE models. 👇 KPop replaces the fixed-ratio mask with an adaptive binary-KL region that matches each token's inherent noise. More robust updates, stable long-horizon agentic RL. Ring-2.6-1T → 76+ on SWE-bench Verified, pure RL. Congrats to @Jia__Guo & team! Blog: https://ringtech.notion.site/kpop

译团队发布了KPop技术,用于稳定大规模MoE模型的强化学习训练。它取代了此前IcePop方法的固定比例掩码,改用自适应二元KL散度区域来匹配每个token的固有噪声,从而实现更鲁棒的参数更新,支持长期、智能体化的强化学习训练。具体应用中,万亿参数的Ring-2.6-1T模型在仅使用纯强化学习训练(未修改基础设施或路由重放)的情况下,于SWE-bench Verified评测中得分超过76。KPop仅通过一个关键参数即可实现该优化。

🚨 AI News | TestingCatalog@testingcatalog · 5月26日72

Helio moved to public beta, allowing anyone to describe a goal in plain language and get a working AI team up and running in under 60 seconds. > We set up an HR Manager, a Content Editor, and a Content Writer as AI teammates for TestingCatalog News. > Created a task and assigned it to the HR Manager. It picked it up, moved it to in progress, and followed up by asking for more context before execution. > Opened a “content” channel on Helio, asked the built-in HR Manager to staff it for editorial work, and within 60 seconds, a Content Writer and a Content Editor were in the channel, each with their own avatar, email address, and task queue. > Dropped the brief in. The Writer structured the piece and drafted the prose. The Editor flagged an unverified founder claim, killed a generic SaaS opener, and asked which use case belonged in paragraph one. > The four of us worked in-channel until the draft was held. The post you're reading was drafted by Helio AI coworkers 🤖

译Helio 宣布进入公测,允许任何用户通过自然语言描述目标,在60秒内组建并运行一支AI团队。示例中展示了其为TestingCatalog News 创建的AI团队,包含 HR Manager、Content Editor 和 Content Writer 三位AI队友。团队在独立的频道内协作:HR Manager负责接收任务并推进,Content Writer 负责内容结构与撰写,Content Editor 则进行审校与质询。最终,该团队在频道内共同完成了稿件的起草工作。

小互@xiaohu · 5月26日58

兄弟们,这个产品理念好啊,我之前也做了的工作流商店demo,但是没解决的一个痛点,它解决了… 就是,现在Skills 很火,但是创建者却赚不到钱 为什么? 因为目前的 Skill 生态默认是开源的 你一发布,任何人都能复制它、转卖它。所以你只能开源赚赚名声... 还有很多人他们有很多好的 Skill ,根本也不敢发 私藏自己用... 这就是当今Skill 生态现状 Capafy改变了这件事: 在 Capafy 上一键就能用任何一个 Skill,不用安装、不用配置、不用离开对话... Skill 闭源在云端运行,用户拿到的是产出,永远拿不到里面的文件、代码或逻辑。 你发布技能后,每一次别人的调用,都给你付钱。 而且你做的 Skill 自己定价,自己保留 know-how 所有权。

译Capafy平台解决了一个AI生态痛点:Skill开发者因生态默认开源而无法盈利。在Capafy上,Skills作为闭源产品在云端运行,用户获得产出而非代码。开发者可自定价格,且每次被调用都能获得收益。平台还允许开发者上传在Claude Code、Codex或OpenClaw中构建的Skills并赚钱,同时用户可一键调用来自各行业顶尖人才的专业技能。

Ant Ling@AntLingAGI · 5月26日68

From IcePop to KPop — our team keeps pushing on RL training stability for large MoE models. 👇 KPop replaces the fixed-ratio mask with an adaptive binary-KL region that matches each token's inherent noise. More robust updates, stable long-horizon agentic RL. Ring-2.6-1T → 76+ on SWE-bench Verified, pure RL. Congrats to @Jia__Guo & team! Blog: https://ringtech.notion.site/kpop

译团队推出 KPop,用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制,替代了此前 IcePop 方法中的固定比例掩码,能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下,仅通过纯 RL 训练,在 SWE-bench Verified 上取得了超过 76 分的成绩。

Rohan Paul@rohanpaul_ai · 5月26日61

Brilliant new paper from Meta, CMU and other labs. Shows that coding agents improve faster by manufacturing their own software experience. Coding agents can train themselves by making and fixing bugs inside real projects. Most coding agents still learn from human leftovers: issues, pull requests, tests, comments, and benchmarks that describe what went wrong. That is useful, but it makes the agent dependent on the rate at which humans produce clean, verifiable lessons. Self-play SWE-RL changes the unit of learning from a labeled task to an executable situation. One version of the model explores a real codebase, weakens tests, injects a meaningful bug, and leaves behind test artifacts that define the failure without needing an English issue description. Another version of the same model has to repair the system, not by matching words to patches, but by restoring behavior under tests. Here’s the key point: the test is not just a grader here, it is the language of the problem. That matters because software understanding lives in constraints, dependencies, edge cases, and invariants that prose often compresses or misses. The reported gains, +10.4 points on SWE-bench Verified and +7.8 on SWE-Bench Pro, are early but hard to ignore because evaluation still used natural-language issues the self-play system did not train on. That suggests SSR (Self-play SWE-RL) is learning something deeper than issue phrasing, though not yet anything like open-ended mastery. The restraint matters: generated bugs can be artificial, rewards can be noisy, and sandboxed repositories are still a narrow slice of software reality. Still, the direction is sharp. The next bottleneck for coding agents may not be more human-written tasks, but more ways for agents to encounter, create, survive, and learn from failure. ---- Paper Link – arxiv. org/abs/2512.18552 Paper Title: "Toward Training Superintelligent Software Agents through Self-Play SWE-RL"

译Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。

elvis@omarsar0 · 5月26日41

Just built an insane new agent skill. It can perfectly extract slides from YT videos, then write notes, images, transcripts, and slides into Obsidian vaults. An HTML artifact allows me to navigate and add more notes as I listen. Should I release the skill?

译刚刚构建了一个超强的新智能体技能。 它能完美地从YouTube视频中提取幻灯片,然后将笔记、图片、转录文本和幻灯片写入Obsidian知识库。 一个HTML工件让我可以在听讲时导航并添加更多笔记。 我应该发布这个技能吗?

meng shao@shao__meng · 5月26日34

原来百度和腾讯,做了这么多面向 C 端的 Agent 啊? 现在是不是基本全军覆没了?

Rohan Paul@rohanpaul_ai · 5月26日57

New Meta, Stanford, Google and many other top labs paper proposes AutoResearchClaw. Shows that automated research improves when AI can fail, recover, and ask humans at the right moments. The paper is less about an “AI scientist” than about turning research into a governed loop. Most systems still treat science like a production line: generate an idea, run code, write a paper, then stop when the chain breaks. AutoResearchClaw treats failure as evidence, using debate, repair, verification, memory, and selective human input as parts of the same machine. That is the main point: autonomy gets better when it is constrained by process, not when it is simply given more freedom. On ARC-Bench, the system beat AI Scientist v2 by 54.7%, with its sharpest gains in result analysis, where claims had to match measurements rather than merely sound plausible. The human result is more interesting: CoPilot reached an 87.5% accept rate, while full autonomy reached 25% and step-by-step oversight reached 50%, suggesting that too little judgment and too much supervision can both degrade science. The most revealing failure was a case where every cross-validation method returned identical zero-bias outputs, which passed numeric verification but failed scientific meaning. That is the boundary this paper exposes: machines can verify that numbers are real, but humans still notice when the experiment has stopped asking the right question. ---- Paper Link – arxiv. org/abs/2605.20025 Paper Title: "AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration"

译Meta、斯坦福等机构提出AutoResearchClaw,这是一个通过AI智能体进行自主研究的框架。其核心理念是将科研过程转化为一个受流程约束的循环,而非简单的生产线。系统整合了辩论、修复、验证、记忆和选择性的人类反馈,并将失败视为有效证据。在ARC-Bench基准测试中,该系统在结果分析等任务上性能比AI Scientist v2提升54.7%。人类协作实验显示:CoPilot模式(适时介入)接受率达87.5%,完全自主仅25%,逐步监督为50%。一个关键失败案例揭示了当所有交叉验证方法返回相同零偏差输出时,系统虽通过数值验证却失去了科学意义,凸显了人类判断的关键作用。

🚨 AI News | TestingCatalog@testingcatalog · 5月26日54

Capafy launched an AI Skills Marketplace where creators can set their own prices, protect their methodologies, and earn every time someone uses their skills across Claude Code, Codex, AND OpenClaw. > All Skills are executed on the server-side. > The know-how stays with the creator. > The user gets a better output with tailored skills. Skills that work! 🤖

译Capafy推出了一个AI技能市场,允许创作者上传并出售其技能。这些技能可在Claude Code、Codex和OpenClaw中运行,每次被使用都能为创作者带来收入。市场支持创作者自主定价,并保护其方法论:所有技能在服务器端执行,核心知识产权保留在创作者手中。用户可以通过一键使用或Agent-to-Agent的方式接入,从而利用各行业专家上传的专业技能,以获得超越平均水平的AI输出结果。

meng shao@shao__meng · 5月26日53

Marvis 已卸载,因为发现它不只是除了小动画做的好玩,Agent 能力和输出结果很差,更吓人的是。。 它在安装后初始化时,就在要各种权限,因为也不知道如果拒绝会不会影响 Agent 使用,就都点了同意,结果点到最后发现,这货居然拿到了我的 App 列表、我的全部文件清单(还 tm 贴心的给我做了分类) Marvis 难道是拿着腾讯电脑管家的代码仓库干的?还是这个团队直接转过来的? 在腾讯面前暴露所有 App 和文件,想想都很吓人,赶紧卸载,能力再强也不敢碰了。

译腾讯AI智能体产品Marvis被用户卸载。主要问题在于:1)隐私风险高,初始化时过度索要权限,获取了用户全部的App列表和文件清单(并做了分类);2)实际Agent能力与输出效果不佳。其交互界面虽有创意(如模拟办公室的小动画,Agent会摸鱼),但核心执行效果一言难尽,导致用户因担忧数据隐私而选择放弃使用。

AYi@AYi_AInotes · 5月26日62

Damn,@Cursor被老马收购以后是进化了吗? 现在真的强到离谱,这波必须吹爆, 我现在已经不用 Cursor 写代码了,用它做产品很香啊, 随口一句 帮我做个六维协作雷达图, 10 秒直接交付,Excel 可编辑模板 + HTML 可视化双版本, 填数据自动更新,连使用说明都写好了, 别的 AI 是给你一堆代码让你自己调, 结果调半天跑不起来还得自己改 bug, Cursor 直接给给你成品,打开就能用, 我觉得他已经不是代码编辑器了,简直是一个全职执行助理,真的好用啊

译推文强调,Cursor被收购后已从代码编辑器进化为能交付成品的AI代理平台。用户实例显示,其能快速生成可直接使用的六维雷达图Excel模板和HTML可视化版本,类似一个“全职执行助理”。引用指出,Cursor内部模式已变,工程师扮演“AI团队经理”角色,其内部30%的合并PR由异步云代理自动创建,单周运行2000+并发代理,生成300万行代码,消耗数十亿token。一个任务被自动拆分为规划、编码、测试、发PR四个角色并行处理,人类仅需定义范围和最终审核。

Alibaba Cloud@alibaba_cloud · 5月26日40

AI Key Frames — your front-row access to Qwen Live. Most "AI agents" today are just chatbots with extra steps. Tommy Eastman, Head of Strategy at Nous Research, makes the case for what a real agent looks like, why open-source keeps out-shipping the closed labs, and AI as the operating layer of everything. Step into the AI-native momentum. 🚀 Stay tuned: https://int.alibabacloud.com/m/1000413447/

译AI Key Frames — 直击通义千问直播现场。 当今大多数“AI智能体”只是多了几步操作的聊天机器人。Nous Research策略主管Tommy Eastman阐述了真正的智能体是什么样子,为何开源持续超越闭源实验室,以及AI作为万物操作层的意义。感受AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/

Alibaba Cloud@alibaba_cloud · 5月26日64

At #QwenConference2026, Dr. Feifei Li, CTO of Alibaba Cloud, President of International Business, outlined our shift from Cloud-native to Agent-native. To democratize AI, we built 4 cornerstones: Models, Agentic Cloud, Tools & Services, and Scale.
 👉 Stay tuned: https://click.qwencloud.com/m/20000000187/

译在 #QwenConference2026 上,阿里云CTO、国际业务总裁李飞飞博士阐述了我们从云原生到智能体原生的转变。为了普及AI,我们构建了四大基石:模型、智能体云、工具与服务,以及规模。 👉 敬请关注:https://click.qwencloud.com/m/20000000187/

Berryxia.AI@berryxia · 5月26日27

这个”悄悄话“小巧思的设计,我喜欢。 刚刚老薛说你的小跟班Agent怎么罢工了,因为它在我们群里@他们两结果都不说话。 我是专门做了个测试就是对他们开启悄悄话模式,也是在群里发出去的。 但是,其他用户看不到😄,仅我可见,我们还可以在群里对话聊天,但是其他人看不到哈。 有点意思~

译推文介绍了“悄悄话”功能:在群聊中发送的内容仅自己可见,但可以与他人正常对话交流,其他用户无法看到内容。此外,引用推文补充信息显示,相关服务(如 Bloome)的 iOS 客户端已可在美区下载使用,体验流畅。

宝玉@dotey · 5月26日57

Agent 应用和传统 App + AI 的最大差别,在于执行的主体不同。 传统 App + AI,是人“操作” App,AI 只是辅助 Agent 应用,是人“指挥” Agent 去操作 App/cli,Agent 自助做事 举例来说,微软家的 Copilot (早年版本)集成在 PowerPoint 中,你能问它个话,基于文档回答点问题,你让它帮你操作 PowerPoint 它做不到 现在的 Codex,你告诉它写一个 Slides,或者上传一个 PPTx 文件,让它帮你修改一下,你全程不用自己操作 PowerPoint。 这就是差别。

译文章核心指出,传统App+AI是人操作应用,AI辅助;而Agent应用是人指挥AI智能体自主操作应用或命令行。文中以微软Copilot(早期版本仅能回答问题)与Codex(能自主完成PPT制作修改)为例说明此差异。针对“在Agent上构建垂直应用是否等同于传统App+AI”的疑问,作者澄清,只要执行主体是AI智能体,即为以AI为主的应用。

Berryxia.AI@berryxia · 5月26日63

兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️ 我让它跑了个AI大模型市场调研报告,从开始到结束差不多花了两个小时。 报告出来是Markdown格式,我又让它转成PDF,最后直接做成了PPT。 今天我专门录了个完整的使用教程,从安装到生成全流程,保姆级那种。 现在还是公测期,完全免费,整体体验还不错。 它也支持多轮迭代,如果网络不稳或者请求太多,直接回复它,它就会继续帮你完成。 这个视频里我接入的是Hermes Agent ,大家有需要可以去试试。 我最喜欢的就是可以直接做调研报告,尤其做国内的一些报告的内容还不错。 限时限免,搞点小任务,也是不错的 感兴趣的直接去官网进行体验吧~· 免费Token Plan 领取地址见评论区~👇🏻 Github 地址:https://github.com/OpenSenseNova/SenseNova-Skills

译博主实测商汤日日新SenseNova Skills Agent,用其完成了AI大模型市场调研报告,从生成到转为PDF和PPT耗时约两小时。该项目在GitHub已获2400颗星,当前处于免费公测阶段,支持多轮迭代与任务续接。博主演示了从安装到生成的全流程教程,并接入了Hermes Agent进行体验。该工具尤其擅长生成国内相关的调研报告,适合处理免费的小型任务。

Berryxia.AI@berryxia · 5月26日72

✍🏻官方“限时免费”领取Token Plan +安装SenseNova Skills Agent文字版本步骤: 1、直接在官网:https://www.sensenova.cn/token-plan 领取开通免费Token Plan 0元,创建API即可。 2、直接把这个开源地址:https://github.com/OpenSenseNova/SenseNova-Skills 丢给你的OpenClaw或者Hermes 或其他Agent 3、把第一步申请的API KEY丢给你的龙虾或者配置到Env里面就可以。 4、直接自然语言对话开启使用即可。

译SenseNova Skills Agent 正处于公测期,提供限时免费的 Token Plan(0元)。用户可从官网领取 API,并在 GitHub 开源项目(已获 2400 星)中将其接入 Hermes Agent 等工具。通过自然语言对话即可使用,支持多轮迭代,能执行如撰写市场调研报告等任务(用户实测约两小时完成),并支持将 Markdown 格式转换为 PDF 或 PPT。

Ethan Mollick@emollick · 5月26日65

We have, as far as I can tell, no good tests of the productivity impact of the autonomous coding tools that appeared starting in December 2025. Every paper out there is from prior to the Claude Code/Codex revolution. A huge gap in our knowledge about what is happening in coding.

译据我所知,我们目前没有好的测试方法来评估自2025年12月出现的自主编码工具对生产力的影响。现有的所有论文都早于 Claude Code/Codex 革命。 我们对编码领域正在发生的事情存在巨大的知识空白。

Berryxia.AI@berryxia · 5月26日59

Grok Build 目前已面向全体 SuperGrok 及 X Premium+ 用户开放Beta版本。 可使用计划模式(Plan Mode)、通过Imagine功能生成图像与视频,同时借助命令行工具(CLI)搭建自动化程序或编排器。 大家知道可以做什么了吗?🤔😄

Berryxia.AI@berryxia · 5月26日21

AI这货通过我和老婆的日常聊天, 居然解读说:我和老婆的缺乏深入的情感交流。。😂 我想说一天天的搞AI哪里有时间深入交流啊·

向阳乔木@vista8 · 5月26日68

只安装Skill还不够,为更好的触发和应用,需把Skill写入Agent . md 安装和设置提示词: 安装更新这个 https://github.com/tw93/Waza,并写入Agent说明中,以后各种开发设计优先用这套skill

译推文指出,仅安装Waza技能集不够,需将其配置写入Agent.md文件,以便AI智能体更好地触发和应用。Waza是一个将工程习惯转化为技能的集合,近期吸收了大量真实项目经验,现已适用于Mac原生应用、CLI工具、Rust及Web开发。它支持Claude Code、Codex、Cursor和Pi作为智能体运行时,包含25个反模式,具备破坏性命令安全防护,并将获取内容视为不信任数据。其特点为8个技能、无框架、无遥测。安装更新可访问其GitHub仓库。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月27日
10:09
Peter Steinberger 🦞@steipete
72
autoreview是我添加到技术栈中最具影响力的技能(仅次于http://crabbox.sh)。它能在PR合并前自动审查你的代码。 发现许多边缘情况。 有时运行数小时。
智能体GitHub教程/实践编码
09:30
meng shao@shao__meng
72
基于 Claude AI、Claude Code、Claude Cowork 三款产品工程实践对 Agent 安全的实战总结

Anthropic 基于 Claude AI、Claude Code 和 Claude Cowork 的工程实践,系统总结了构建安全 AI 智能体的经验。核心原则是防御应随智能体能力演进,并优先使用沙箱来限制破坏性动作。文章详述了三层防御架构(环境层、模型层、外部内容层)及三款产品的隔离模式:Claude AI 使用短暂容器,Claude Code 采用人机协同沙盒,Claude Cowork 则部署密封虚拟机。关键数字包括:Claude Opus 4.7 在 Gray Swan Agent 红队基准上单次攻击成功率约 0.1%,100 次尝试后约 5-6%;Claude Code 自动模式拦截约 83% 的过度积极行为。通过真实攻击案例,强调了环境层防御(如出站阻断)的关键性。

Anthropic: New on the Engineering Blog: The access and permissions we grant agents should evolve with their capabilities. In our ow...

智能体Anthropic安全/对齐部署/工程
09:00
meng shao@shao__meng
71
微软发布终端原生 Web Agent 框架:Webwright

微软开源了终端原生Web Agent框架Webwright。其核心创新是“代码即动作”:让大语言模型直接编写可执行的Playwright Python脚本,而非传统的“观察-预测-点击”循环,由此生成的程序可复用。在性能上,基于GPT-5.4在Odysseys长程任务基准上达60.1%,较此前SOTA提升15.6个百分点;基于Claude Opus 4.7在难例上达80.5%,超越GPT-5.4。框架架构极简,核心代码约1000行,并已与Claude Code、OpenAI Codex等集成。用户评论表达了对该工具在浏览器自动化方面相比Playwright能带来巨大提升的期待。

Omar Shahine: Need to try this. Hoping for massive boost over Playwright for browser automation. https://github.com/microsoft/webwrigh...

智能体Microsoft开源/仓库
08:59
宝玉@dotey
61
Skill自我进化需明确标准,SkillOpt框架实现迭代优化

文章指出,只有具备明确、可程序自动验收标准的Skill才能有效自我进化,例如优化代码性能。微软等机构提出的SkillOpt框架,通过让AI评估并迭代优化Skills,使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并,并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”,这标志着提示词工程与模型训练界限的融合。

karminski-牙医: 什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让...

智能体大佬观点论文/研究
08:39
🚨 AI News | TestingCatalog@testingcatalog
46
Atomic Bot发布了Hermes Agent的iOS应用,将移动端控制功能引入一个在您自己的VPS上24/7运行的自托管智能体。 > 通过Tailscale、Cloudflare或ngrok进行远程访问 > 默认开源且私密

atomicbot.ai: We released iOS app for Hermes Agent 📱 Connect to your self-hosted agent over Tailscale, Cloudflare Tunnel or ngrok. Or...

智能体产品更新
08:29
meng shao@shao__meng
63
开发者 AlexFinn 在长期并行对比后,为何选择转向 Codex?

开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后,决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能:每次代码改动后,它会在内置浏览器中自动验证,形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%,可靠性大幅提升,更利于开发者保持心流。他建议开发者不要对任何公司忠诚,应始终使用当下最好的工具。

Alex Finn: I'm 100% Codex pilled now Been using Codex and Claude Code side by side hours a day for 2 months straight No longer usin...

智能体编码评测/基准
08:27
Berryxia.AI@berryxia
71
Gemma 4新玩法:开源地牢游戏让AI实时构建Web应用

Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。

Google Gemma: Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...

智能体Google开源生态教程/实践
07:33
ginobefun@hongming731
58
Agent系统工程三要:隔离、容错与上下文管理

Anthropic披露三种Claude隔离架构,发现93%权限弹窗被无脑通过,因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级,涵盖模型重试容错、三级权限判断系统和结构化上下文管理,其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案,配合Mermaid图谱,将超长Session的Token消耗降低61%,任务通过率提升52%。三者共同指向智能体工程落地的关键:可靠的隔离边界、稳定的容错机制以及高效的状态管理。

智能体Anthropic教程/实践部署/工程
07:33
ginobefun@hongming731
50
AI Agent系统工程实践聚焦稳定性

早报聚焦Agent系统工程,介绍三篇实践。Anthropic披露Claude的三种隔离架构,并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱,将超长Session的Token消耗降低60%,任务通过率提升52%。三者共同强调,Agent时代的核心在于支撑稳定运行的工程基础。

智能体教程/实践部署/工程
07:21
karminski-牙医@karminski3
69
微软等发布SkillOpt框架,用机器学习流程系统优化AI智能体技能

微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。

智能体arXivMicrosoft数据/训练
04:31
elvis@omarsar0
60
针对长期运行的AI智能体因注意力机制随上下文增长而导致推理开销呈二次增长的问题,该论文提出一种"睡眠"式的离线整合方案。模型定期在离线状态下对近期上下文进行多次循环处理,将整合结果写入其状态空间模块的持久化快速权重中,随后清除KV缓存。此方法将额外计算转移至"睡眠"阶段,使"清醒"时的预测保持低延迟。在普通Transformer和SSM-注意力混合模型失效的特定任务中,更长的睡眠时间能提升性能,为需要长期运行的智能体提供了一种替代方案。

DAIR.AI: // Language Models Need Sleep // Let your agents "sleep", folks. On a serious note, this is a fascinating paper on getti...

智能体大佬观点推理
04:10
Luma@LumaLabsAI
64
文字已就位。现在让它们无法被滑过。 只需放入内容,设定方向。Luma Agents 从此将每份新闻稿转化为可分享的图形。 让它可分享 → http://lumalabs.ai/app
智能体产品更新图像生成
04:04
Rohan Paul@rohanpaul_ai
66
AI智能体时代的安全挑战:运行时行为是关键

推文对比了AI智能体在安全领域的应用。Anthropic的Mythos智能体在真实curl代码库中发现了1个漏洞。而来自中国的360安全团队的漏洞挖掘智能体,在更广泛的OpenClaw生态中独立发现了23个漏洞,包括严重的远程代码执行漏洞和大规模的提示词注入绕过。推文指出,真正的安全问题并非模型能否找漏洞,而在于智能体的运行时行为——代码、提示词、工具、本地服务与权限在系统执行文件操作、网络连接或命令运行前发生的复杂交互。

智能体Anthropic安全/对齐
03:12
Anthropic@AnthropicAI
57
工程博客新文章:我们授予智能体的访问权限和权限应随其能力演进。在我们的产品中,我们通过沙箱来设置这些参数,以限制任何潜在破坏性操作的范围。 阅读更多:https://www.anthropic.com/engineering/how-we-contain-claude
智能体Anthropic安全/对齐部署/工程
03:04
Rohan Paul@rohanpaul_ai
60
Uber CEO:5年内AI智能体投资回报率将超人类工程师

Uber CEO Dara Khosrowshahi表示,目前Uber 90%的工程师使用AI,其中顶尖30%的用户获得前所未有的生产力提升,在代码库中提交的“diffs”数量最多。他预测,5年内增加更多AI智能体和NVIDIA GPU算力的投资回报率(ROI)将超过人类工程师,届时公司将选择雇佣更多AI智能体并支付GPU算力成本,而非增聘人类软件工程师。该观点来自YouTube频道“The Diary Of A CEO”。

智能体大佬观点编码
01:09
🚨 AI News | TestingCatalog@testingcatalog
58
Playad Agent现已上线,可运行完整的付费广告周期!它帮助你研究、创建、启动、分析和改进广告。 > 通过持续使用,它能不断优化对你品牌的理解。 > Playad 作为一个多智能体系统运作,处理整个工作流程并从每个周期中学习。

Youn Hwang: We raised $5.4M to make paid ads run themselves. Introducing Playad, the world's first AI marketing team. First up: paid...

智能体产品更新
01:07
Artificial Analysis@ArtificialAnlys
60
Gemini 3.5 Flash速度与agent能力提升,但成本显著增加

Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。

智能体Google推理评测/基准
00:27
Berryxia.AI@berryxia
74
Anthropic黑客松冠军团队开源AI编程工作台ECC

Anthropic黑客松冠军团队使用Claude Code耗时8小时开发出产品zenith.chat并赢得1.5万美元API credits。赛后,他们将背后的完整工作流开源为ECC项目。该项目包含61个智能体、246个技能和76个预设命令,并配备规则引擎、Hook系统、安全扫描器和MCP配置,支持Claude Code、Cursor、Codex等多平台。它提供了一套可让AI持续工作的完整工业级编程环境框架,而非简单的提示词集合,已完全开源在GitHub。

泊舟: Anthropic 黑客松冠军,把自己的 AI 编程工作台开源了。 项目叫 ECC。作者 Affaan Mustafa 和队友用 Claude Code 8 小时做出 http://zenith.chat 拿了冠军,后来把背后的工作流整理成...

智能体AnthropicGitHubMCP/工具
00:08
Greg Brockman@gdb
54
Codex 用于分析和整理你的 Slack: 【引用 @derrickcchoi】:周末,我让 Codex 分析我的 Slack 消息历史,并推荐一种更好的方式来组织我日益增多的频道。 然后我让 Codex 在我处理其他事情时,通过 computer use 重新组织和分类我的 Slack 侧边栏。 我现在为此设置了一个自动化流程!

Derrick Choi: Over the weekend, I asked Codex to analyze my Slack message history and recommend a better way to organize my growing nu...

智能体MCP/工具OpenAI教程/实践
5月26日
23:59
Ant Ling@AntLingAGI
69
团队发布了KPop技术,用于稳定大规模MoE模型的强化学习训练。它取代了此前IcePop方法的固定比例掩码,改用自适应二元KL散度区域来匹配每个token的固有噪声,从而实现更鲁棒的参数更新,支持长期、智能体化的强化学习训练。具体应用中,万亿参数的Ring-2.6-1T模型在仅使用纯强化学习训练(未修改基础设施或路由重放)的情况下,于SWE-bench Verified评测中得分超过76。KPop仅通过一个关键参数即可实现该优化。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练论文/研究
关联讨论 4 条蚂蚁 inclusionAI:HuggingFace 新模型HuggingFace Daily Papers(社区热门论文)公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)
23:39
🚨 AI News | TestingCatalog@testingcatalog
72
Helio 进入公测:用自然语言快速组建AI团队

Helio 宣布进入公测,允许任何用户通过自然语言描述目标,在60秒内组建并运行一支AI团队。示例中展示了其为TestingCatalog News 创建的AI团队,包含 HR Manager、Content Editor 和 Content Writer 三位AI队友。团队在独立的频道内协作:HR Manager负责接收任务并推进,Content Writer 负责内容结构与撰写,Content Editor 则进行审校与质询。最终,该团队在频道内共同完成了稿件的起草工作。

智能体产品更新
23:29
小互@xiaohu
58
Capafy让AI Skills闭源变现,解决开发者收益痛点

Capafy平台解决了一个AI生态痛点:Skill开发者因生态默认开源而无法盈利。在Capafy上,Skills作为闭源产品在云端运行,用户获得产出而非代码。开发者可自定价格,且每次被调用都能获得收益。平台还允许开发者上传在Claude Code、Codex或OpenClaw中构建的Skills并赚钱,同时用户可一键调用来自各行业顶尖人才的专业技能。

Capafy: Introducing Capafy: the Skill-based Agent Marketplace. Now your Skill runs as a product and earns while you sleep. On Ca...

智能体产品更新开源生态
23:29
Ant Ling@AntLingAGI
同事件精选68
团队推出 KPop,用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制,替代了此前 IcePop 方法中的固定比例掩码,能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下,仅通过纯 RL 训练,在 SWE-bench Verified 上取得了超过 76 分的成绩。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练编码论文/研究
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:蚂蚁团队把 IcePop 升级成 KPop,从固定掩码变成自适应 KL 区域,思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+,做 agentic RL 训练的同学值得翻一下博客。
23:03
Rohan Paul@rohanpaul_ai
61
论文提出Self-play SWE-RL方法,通过自我博弈提升软件智能体能力

Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。

智能体arXivMeta编码
23:00
elvis@omarsar0
41
刚刚构建了一个超强的新智能体技能。 它能完美地从YouTube视频中提取幻灯片,然后将笔记、图片、转录文本和幻灯片写入Obsidian知识库。 一个HTML工件让我可以在听讲时导航并添加更多笔记。 我应该发布这个技能吗?
智能体其他视频
22:58
meng shao@shao__meng
34
原来百度和腾讯,做了这么多面向 C 端的 Agent 啊? 现在是不是基本全军覆没了?
智能体现象/趋势
22:33
Rohan Paul@rohanpaul_ai
57
AutoResearchClaw:支持人机协作的自主研究框架

Meta、斯坦福等机构提出AutoResearchClaw,这是一个通过AI智能体进行自主研究的框架。其核心理念是将科研过程转化为一个受流程约束的循环,而非简单的生产线。系统整合了辩论、修复、验证、记忆和选择性的人类反馈,并将失败视为有效证据。在ARC-Bench基准测试中,该系统在结果分析等任务上性能比AI Scientist v2提升54.7%。人类协作实验显示:CoPilot模式(适时介入)接受率达87.5%,完全自主仅25%,逐步监督为50%。一个关键失败案例揭示了当所有交叉验证方法返回相同零偏差输出时,系统虽通过数值验证却失去了科学意义,凸显了人类判断的关键作用。

智能体GoogleMeta论文/研究
22:09
🚨 AI News | TestingCatalog@testingcatalog
54
Capafy推出了一个AI技能市场,允许创作者上传并出售其技能。这些技能可在Claude Code、Codex和OpenClaw中运行,每次被使用都能为创作者带来收入。市场支持创作者自主定价,并保护其方法论:所有技能在服务器端执行,核心知识产权保留在创作者手中。用户可以通过一键使用或Agent-to-Agent的方式接入,从而利用各行业专家上传的专业技能,以获得超越平均水平的AI输出结果。

Capafy: Introducing Capafy: the Skill-based Agent Marketplace. Now your Skill runs as a product and earns while you sleep. On Ca...

智能体产品更新
19:58
meng shao@shao__meng
53
腾讯Marvis被吐槽:隐私权限过度且Agent能力差

腾讯AI智能体产品Marvis被用户卸载。主要问题在于:1)隐私风险高,初始化时过度索要权限,获取了用户全部的App列表和文件清单(并做了分类);2)实际Agent能力与输出效果不佳。其交互界面虽有创意(如模拟办公室的小动画,Agent会摸鱼),但核心执行效果一言难尽,导致用户因担忧数据隐私而选择放弃使用。

meng shao: 腾讯的 Marvis 今天手痒我真的去试了试 怎么说呢?确实是我手痒了,这手得剁 😂 整个软件,就这个 Agent 模拟办公室的 dashboard 小动画也有些意思,Marvis 这个项目经理,收到任务后,会小跑到需要调用的 Agent...

智能体安全/对齐评测/基准
19:19
AYi@AYi_AInotes
62
Cursor:从代码编辑器到AI代理平台的进化

推文强调,Cursor被收购后已从代码编辑器进化为能交付成品的AI代理平台。用户实例显示,其能快速生成可直接使用的六维雷达图Excel模板和HTML可视化版本,类似一个“全职执行助理”。引用指出,Cursor内部模式已变,工程师扮演“AI团队经理”角色,其内部30%的合并PR由异步云代理自动创建,单周运行2000+并发代理,生成300万行代码,消耗数十亿token。一个任务被自动拆分为规划、编码、测试、发PR四个角色并行处理,人类仅需定义范围和最终审核。

AYi: 拿到Cursor赠送的$10000额度之后,我专门研究下这家公司, 看到Cursor CEO这个演讲,我突然意识到, 我们对AI编程的理解,从根上就错了, 当大多数人还在纠结哪个模型写代码更快更准的时候, Cursor已经直接进入了下一个时...

智能体现象/趋势编码
16:30
Alibaba Cloud@alibaba_cloud
40
AI Key Frames - 直击通义千问直播现场。 当今大多数"AI智能体"只是多了几步操作的聊天机器人。Nous Research策略主管Tommy Eastman阐述了真正的智能体是什么样子,为何开源持续超越闭源实验室,以及AI作为万物操作层的意义。感受AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/
智能体大佬观点开源生态
15:30
Alibaba Cloud@alibaba_cloud
64
在 #QwenConference2026 上,阿里云CTO、国际业务总裁李飞飞博士阐述了我们从云原生到智能体原生的转变。为了普及AI,我们构建了四大基石:模型、智能体云、工具与服务,以及规模。 👉 敬请关注:https://click.qwencloud.com/m/20000000187/
智能体行业动态
15:27
Berryxia.AI@berryxia
27
"悄悄话"模式上线:群聊对话可设为仅自己可见

推文介绍了“悄悄话”功能:在群聊中发送的内容仅自己可见,但可以与他人正常对话交流,其他用户无法看到内容。此外,引用推文补充信息显示,相关服务(如 Bloome)的 iOS 客户端已可在美区下载使用,体验流畅。

Berryxia.AI: 卧槽... 兄弟们 我真的是后知后觉~ 今天还屁颠屁颠跑到Bloome 去问什么时候可以支持iOS端啊? 结果告诉我说美区已经可以使用了... 因为我一直以为没有在iOS 添加到主屏幕在用,忍受着... 结果下载完使用起来太丝滑了........

智能体MCP/工具产品更新
12:57
宝玉@dotey
57
Agent 应用和传统 App + AI 的最大差别,在于执行的主体不同。

文章核心指出,传统App+AI是人操作应用,AI辅助;而Agent应用是人指挥AI智能体自主操作应用或命令行。文中以微软Copilot(早期版本仅能回答问题)与Codex(能自主完成PPT制作修改)为例说明此差异。针对“在Agent上构建垂直应用是否等同于传统App+AI”的疑问,作者澄清,只要执行主体是AI智能体,即为以AI为主的应用。

Tiga: @dotey 其实我一直有个好奇点:在 agent 上构建应用其实就是特定赛道垂直应用,那这个应用岂不就是现在的传统 app+ai 了,那它还能是个 AI 为主的吗?

智能体大佬观点现象/趋势
12:27
Berryxia.AI@berryxia
63
商汤日日新SenseNova Skills Agent实测:免费生成市场调研报告

博主实测商汤日日新SenseNova Skills Agent,用其完成了AI大模型市场调研报告,从生成到转为PDF和PPT耗时约两小时。该项目在GitHub已获2400颗星,当前处于免费公测阶段,支持多轮迭代与任务续接。博主演示了从安装到生成的全流程教程,并接入了Hermes Agent进行体验。该工具尤其擅长生成国内相关的调研报告,适合处理免费的小型任务。

智能体教程/实践
12:27
Berryxia.AI@berryxia
72
SenseNova Skills Agent 免费领取与使用指南

SenseNova Skills Agent 正处于公测期,提供限时免费的 Token Plan(0元)。用户可从官网领取 API,并在 GitHub 开源项目(已获 2400 星)中将其接入 Hermes Agent 等工具。通过自然语言对话即可使用,支持多轮迭代,能执行如撰写市场调研报告等任务(用户实测约两小时完成),并支持将 Markdown 格式转换为 PDF 或 PPT。

Berryxia.AI: 兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️ 我让它跑了个AI大模型市场调研报告,从开始到结束差不多花...

智能体教程/实践
11:58
Ethan Mollick@emollick
65
据我所知,我们目前没有好的测试方法来评估自2025年12月出现的自主编码工具对生产力的影响。现有的所有论文都早于 Claude Code/Codex 革命。 我们对编码领域正在发生的事情存在巨大的知识空白。
智能体现象/趋势编码
11:27
Berryxia.AI@berryxia
59
Grok Build 向所有 SuperGrok 用户开放 Beta 版

Grok Build 目前已面向全体 SuperGrok 及 X Premium+ 用户开放 Beta 版本。 可使用计划模式(Plan Mode)、通过 Imagine 功能生成图像与视频,同时借助命令行工具(CLI)搭建自动化程序或编排器。 大家知道可以做什么了吗?🤔😄

xAI: Grok Build is now available in Beta for all SuperGrok and X Premium+ users. Use Plan Mode, create images and videos with...

智能体MCP/工具xAI产品更新
10:27
Berryxia.AI@berryxia
21
AI这货通过我和老婆的日常聊天, 居然解读说:我和老婆的缺乏深入的情感交流。。😂 我想说一天天的搞AI哪里有时间深入交流啊·
智能体现象/趋势
09:54
向阳乔木@vista8
68
提示词安装与配置建议

推文指出,仅安装Waza技能集不够,需将其配置写入Agent.md文件,以便AI智能体更好地触发和应用。Waza是一个将工程习惯转化为技能的集合,近期吸收了大量真实项目经验,现已适用于Mac原生应用、CLI工具、Rust及Web开发。它支持Claude Code、Codex、Cursor和Pi作为智能体运行时,包含25个反模式,具备破坏性命令安全防护,并将获取内容视为不信任数据。其特点为8个技能、无框架、无遥测。安装更新可访问其GitHub仓库。

Tw93: 🥷 Engineering habits you already know, turned into skills AI agents can run. Waza absorbed a mass of real project lesso...

智能体GitHub教程/实践
‹ 上一页
1…3435363738…50
下一页 ›