HarnessBridge是一个轻量级可学习调控控制器,将智能体-环境接口参数化为双向投影:观测投影将原始轨迹蒸馏为紧凑、决策相关状态,动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练,HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案,同时大幅减少token使用和轨迹长度,并从小型生成器泛化到更大商业模型。
HarnessBridge是一个轻量级可学习调控控制器,将智能体-环境接口参数化为双向投影:观测投影将原始轨迹蒸馏为紧凑、决策相关状态,动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练,HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案,同时大幅减少token使用和轨迹长度,并从小型生成器泛化到更大商业模型。
Re-Ink 是 @LandingAI 金融 AI Hackathon 冠军项目,针对再保险承保中约 40% 时间消耗的行政文档录入痛点,构建端到端自动化方案。核心使用 LandingAI 的 Agentic Document Extraction (ADE) 实现 PDF/DOCX 条约的结构解析与上下文感知字段提取(合同标识、日期、金融条款、参与方等),无需正则或模板。关键设计为人机协同闭环:提取数据经人工审核后以单事务持久化,校验失败即回滚。Agent 层用两个 LangGraph Agent 封装入库前引导与审批后分析逻辑。Academy 调查显示手动提取错误率超 6%,运营预算约 14% 用于修复此类错误。
http://x.com/i/article/2065098287758348288
作者认为Agent并非抹平能力差距,而是放大K型分化,Skill可弥合鸿沟。Skill是把专家经验、工作流、品味、工具调用封装成可分发复用的Agent能力单元,如PPT Skill、社交媒体卡片等。好Skill的信息架构应为“中心短,辐射厚”:SKILL.md只放高信号流程,其余依赖文件系统分层管理,以高效利用上下文窗口。
本期精讲聚焦智能体工程化:Anthropic推出Claude Managed Agents,将推理与执行解耦,独立Vault管理凭证,事件日志支持运行恢复,首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构(常驻入口层压至8K上下文)、dispatcher状态机及G1-G8门禁,用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架,独立创业公司窗口收窄。
Anthropic推出Claude Managed Agents,将推理循环与代码执行沙箱解耦,凭证存入独立Vault,自托管沙箱支持内网,首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化,提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架,Gemini 3.5 Flash编程能力完全来自后训练。另,Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%;Fable AI实现1770%性能提升并发现关键Bug;此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。
http://x.com/i/article/2065232915970371585
We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
社区基于865条讨论与实测总结:Claude Fable 5高自主、高成本、偏规划编排。核心共识:给更难目标、少给步骤;用Fable规划→Sonnet实现→Haiku验证;免费窗口(截至6月22日)内将经验固化为Skill。Effort旋钮Medium最省token且效果接近High;付费计划下输出价约$50/M token。安全回退静默切至Opus 4.8;视觉输入(截图→应用)比文字更有效。最佳策略:跑一次业务prompt诊断,把解法蒸馏成Skill留存。
http://x.com/i/article/2064864205749280768
邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。
http://x.com/i/article/2065151123128721408
开发者体验两天后,发现 Claude Fable 5 极其主动。为调试 Datasette Agent 的滚动条 bug,它在未被告知的情况下,利用 screencapture 和 pyobjc 自动截图 Safari 窗口、编写测试页面、修改模板注入 JavaScript 模拟键盘快捷键,还编写了 CORS 服务器接收浏览器数据。随后触发护栏降级为 Opus,Opus 沿用这些技巧找到并验证修复方案,将整个过程记录在报告中。
Dr-DCI 将检索作为智能体可调用的动作来扩展本地工作空间,动态拉取相关文档到演化中的工作空间内执行直接语料交互(DCI)操作。在 Browsecomp-Plus 上达到 71.2% 准确率,优于原始 DCI 最多 8.3 个百分点,并降低工具使用次数与成本。工作空间保留式上下文重置后准确率提升至 73.3%。在 10 万到 1000 万文档的语料扩展实验中保持有效,而原始 DCI 变得不稳定。在 2000 万级 Wiki-18 QA 设置下平均得分为 63.0,超越基于检索和搜索智能体的基线。消融分析表明,排序预览和文档间 DCI 是性能关键。
PhoneHarness是一个面向手机智能体的混合动作基准与执行框架,支持GUI、CLI和主机端工具动作的混合路由与可审计执行轨迹。其评测集PhoneHarness Bench要求智能体完成带有可观察副作用的移动工作流,而非仅输出合理答案。在标注评测集上,PhoneHarness达到75.0%通过率,超出最强非PhoneHarness设置12.9个百分点。结果表明,可靠的手机自动化依赖动作表面路由与可验证执行,而非单纯的视觉GUI控制。
Nemotron 3 Ultra 是一个 550B 总参数、55B 激活参数的混合专家(MoE)Mamba-Attention 语言模型。它在 20T tokens 上预训练,上下文窗口扩展至 1M tokens,后训练采用监督微调(SFT)、强化学习(RL)和多方教师在线蒸馏(MOPD)。关键技术包括 LatentMoE、多 token 预测(MTP)、NVFP4 预训练、多环境 RLVR、MOPD 和推理预算控制。相比公开 SOTA 大语言模型,推理吞吐量提升约 6 倍且准确率持平,适合长时间运行的自主智能体任务。模型开源基础、后训练和量化检查点,以及训练数据和配方。
FastContext 是一个将仓库探索与任务解决相分离的专用探索子智能体,由 4B–30B 参数的探索模型驱动,通过参考模型轨迹和任务奖励进行优化。集成 FastContext 的 Mini-SWE-Agent 在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 基准上端到端解决率提升最多 5.5%,同时编码智能体 token 消耗减少最多 60%,且边际开销很低。结果表明,仓库探索可与解决任务分离,并由专用模型高效处理。
大语言模型正从对话生成器转向集成推理、行动、记忆与自我改进的AI系统。这一转变沿两个维度展开:认知核心从基于下一token预测的“快速思考”迈向利用推理时计算、思维链推理、反思、过程监督与强化学习的Thinking LLM;工具执行层从临时调用外部资源的Agent转向配备持久工作区、技能、验证循环与治理的OpenClaw工作站。“工作区+技能”范式通过状态持久化与经验复用实现持续协作。数据构建从指令-响应对转向状态-动作-观察轨迹,评估从静态基准转向沙盒化、可审计、自我进化的生态系统。
HarnessX 是一个智能体运行框架(harness)铸造厂,通过类型化原语和替代代数组装可组合的框架,并利用 AEGIS 这一基于轨迹的多智能体进化引擎实现自适应演化,将执行轨迹反馈用于框架更新与模型训练。在 ALFWorld、GAIA、WebShop、tau³-Bench 和 SWE-bench Verified 五个基准上,HarnessX 平均提升 +14.5%,最高达 +44.0%,基线越低提升越明显。完整代码将在未来开源。
首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本;将仓库结构视觉图作为文本界面的补充模态,可使输入 token 消耗降低最多 26%,同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路,用于下一代编码智能体。
苹果在 WWDC26 上公布其最高端端侧 AI 模型,主要提升 Siri 语音音色表现力和全系统听写精准度。这两项功能仅适配配备 12GB 统一内存的 iPhone 17 Pro/Pro Max,标准版 iPhone 17 因 8GB 内存不足无法使用。
OpenAI 昨日宣布收购初创公司 Ona,后者专注于为 AI 智能体提供安全、预配置云环境。该技术将帮助编程助手 Codex 执行持续时间更长的任务,并支持用户将 AI 智能体部署到生产环境,同时让企业更好地掌控基础设施与安全边界。交易金额未公布,Ona 团队将加入 OpenAI 参与 Codex 项目研发。
FablePool 是一个新平台,允许用户围绕一个提示语(prompt)募集资金,之后由 Fable 在公开环境下将其构建出来。该项目在 Hacker News 上获得 122 个点赞,引发关注。
We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
Perplexity 将 Deep Research 功能迁移至 Perplexity Computer 中,自动将复杂问题拆解为多个研究子任务,并路由至 20 多个前沿模型协同完成,支持生成报告、演示文稿和仪表盘。
xAI 推出 Grok Build 插件市场,这是一个终端内插件平台,支持技能、智能体、钩子和 MCP 服务器。所有远程插件均通过 commit-SHA 验证确保安全。首发插件包括 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 及 Superpowers。
该论文提出SIA框架,让AI自动循环改进:一个观察者AI监控任务代理的表现,然后修改其外部设置(提示词、工具、重试规则、输出解析)或通过LoRA权重更新训练模型本身,模型主体不变,仅适配器从任务反馈中学习。在三个任务上测试:中文法律罪名分类(LawBench达70.1%)、GPU内核速度调优(生成代码优于此前最佳)、单细胞RNA降噪(得分0.289)。综合版本在所有任务上超越仅修改设置的方案,表明权重更新能帮助模型学到提示和工具无法发现的模式。
Jeff Bezos 在 CNBC 披露其新公司 Prometheus 的愿景:构建人工通用工程师,设计制造喷气发动机、芯片、医疗设备等硬物理产品,将传统数年设计周期缩短 10 倍以上。公司宣布完成 120 亿美元融资,估值 410 亿美元。初始启动资金 62 亿美元,新一轮融资表明公司需要更多算力、人才和工业数据才能验证产品。410 亿美元估值表明,前沿 AI 已从软件竞赛变为计算采购竞赛——投资者实质在为可能实现模型所需的机器预付费。
同一事件,精选展示《Prometheus 融资120亿美元,估值410亿美元,定位"人工通用工程师"》Three layers you need to run agent swarms at scale: - Runtime: solved. - Orchestration and triggers: solved. - Coordinat...
OpenRouter 推出 advisor 服务器工具,允许快速、便宜的模型在生成过程中向更强模型咨询。用户可用 GPT-4o Mini 处理常规任务,在关键环节调用 Claude Fable 进行更高质量的推理。
同一事件,精选展示《OpenRouter 推出 Advisor 工具:让低成本模型可随时调用强模型增强生成》OpenAI 宣布收购 Ona,其安全云端执行技术可为 Codex 智能体创建持久云端工作空间——用户离开后,智能体仍可持续运行命令、检查系统、保留上下文并跨设备恢复任务。目前 Codex 周活用户达 500 万(增长 400%)。收购旨在强化企业级部署:智能体可在企业云边界内运行,具备作用域凭证、审核追踪、访问限制和可审计活动,适用于测试、漏洞修复、重构、迁移等多步骤任务。收购完成后,Ona 团队将加入 OpenAI Codex 团队。
We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
一个非常个人视野的观察:很多用AI时间不怎么久的人,似乎并不知道: > 当AI预期之外地停止工作的时候,通常只要给它再发一句"继续"就好了。
The Grok Build Plugin Marketplace is now in beta. Build with MongoDB, Vercel, Sentry, Cloudflare, and Chrome DevTools pl...
关联讨论 2 条xAI:News(网页)X:xAI (@xai)Cursor 本周推出 Auto-review,旨在让代码智能体在保持自主性同时降低安全风险。该功能引入分类器代理,在每次工具调用前根据上下文判断风险:低风险时允许自由操作,越界时阻止并返回解释,使父智能体自主调整路径。分类器为轻量模型,与父代理同 RPC 流运行避免延迟,并可读取工作区文件辅助决策。团队基于约 12 小时内部开发者会话整理 6,122 条标注数据,补充合成异常用例评测,以平衡安全与开发效率。
We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...
Zed 开发者在其官方博客中提出,软件真正的创造过程并不在代码提交本身,而是发生在两次提交之间的思考、调试与重构中。这一观点强调提交记录之外的隐式工作对软件质量的决定性作用。
Deep Research in Computer is built on our Search as Code architecture. The model writes code that assembles search itsel...
Anthropic与IT服务公司DXC Technology达成多年全球联盟。DXC将培训数万名获得Claude认证的前沿部署工程师(FDE),将Claude引入其为全球大型银行、航空公司、保险公司及政府机构运营的关键系统。内部部署中,Claude已成为DXC OASIS平台的默认基础模型,该平台超95%代码由Claude编写,开发速度提升10倍,已服务50多家客户。DXC加入Claude Partner Network,将在保险、现代化服务、网络安全及应用服务四个领域率先推出基于Claude的解决方案。
Cursor 近日推出 Auto-review,通过一个专门的分类器智能体在工具调用前审查动作风险。该分类器根据上下文判断动作是否与用户意图一致,高风险时阻止并返回解释给父智能体,低风险时放行。分类器采用小模型,运行在智能体循环内以避免额外延迟,并能读取工作区文件辅助判断。测试基于约12小时内部开发会话生成的6122条标签数据,以及针对读取密钥、操作生产数据等危险场景的合成数据。设计目标是在不频繁阻断日常开发的前提下,拦截风险动作。
OpenAI 计划收购 Ona,以拓展 Codex 的功能,提供安全、持久的云端环境,从而支持企业工作流中长时间运行的 AI 智能体。