对五个终端Agent基准测试的1,968个任务审计发现,323个(16%)可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法:三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上,该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客:Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%;在Terminal Bench的77个任务上,从39%降至17%。发布Terminal Wrench(323个可攻击环境、3,632条攻击轨迹)及修补后的验证器与实现。
硅基流动宣布,通过V4-Pro(质量)与V4-Flash(速度)两行配置,即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理(显示思考过程)、自动路由(根据任务复杂度切换模型与思考深度)、零漂移(通过书面宪法为每轮排序权威,保持V4定向)以及自我改进(V4协助编写框架,框架提升后每个会话更强大)等特性。
Sources: Anthropic is planning to release a public version of Mythos tomorrow - Will have substantial guardrails and not...
MiMo推出V2.5 Pro UltraSpeed超高速模型版本,每秒输出超1000 Token,号称全球首个达此速度的万亿参数模型。实测显示:复杂3D小游戏TPS 804 Token/s(峰值810),首次响应4.71秒;官网3D动画峰值1426 Token/s,首次响应0.83秒,32秒输出25624 Token(1000行代码);另一复杂官网3D效果TPS 1136,首次响应4.5秒。相比此前超高速推理方案常见能力下降,MiMo未出现此类迹象。该模型主要面向效率要求极高的ToB客户,在Agent和Sub-Agent并发场景下效率提升明显。
PBSD提出一种贝叶斯校准的自蒸馏方法,用于在稀疏最终奖励下进行细粒度信用分配。它通过验证答案的后验与先验概率比衡量轨迹质量,并利用贝叶斯规则将难以估计的答案侧比率转化为标准学生模型与特权、以答案为条件的教师模型之间的似然比。对该贝叶斯证据分数进行自回归分解,产生每步信号,识别中间推理步骤是支持还是削弱已验证结果。PBSD将稀疏结果监督转化为贝叶斯校准的逐步信用信号,与标准策略优化兼容。实验表明,该方法在领域内和领域外设置中一致提升性能,并有效将知识从短上下文训练迁移到长上下文推理。
推友推出AI Agent浏览器Aye,基于Chromium模拟真人操作。支持一句话操作,如拉黑X、回小红书、转写文章到知乎;可录制自定义Skill定时执行,完成繁琐网页操作。
滴滴作为首批合作伙伴,已将核心网约车服务融入微信 AI Agent。用户通过微信内 AI 交互说出“帮我叫一辆滴滴去机场”等指令,系统可根据行程距离、时效与个人偏好自动推荐最优车型并一键唤起叫车,全程不跳转。滴滴顺风车、滴滴代驾等更多服务也将接入。6月8日,微信发布《关于开发者接入微信 AI 生态的指引》,提供自动模式与开发模式两种接入选项。京东、美团、滴滴、携程、同程和肯德基均宣布作为首批内测团队接入。
洪明 (@hongming731) 透露,经过与 @puliandc 多轮讨论,他们使用 Claude Code、Claude Design 进行设计和讨论,并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊,邀请用户一起用 BestBlogs 看世界杯。
哈佛大学与 Perplexity 联合发表论文,采用匹配对会话方法对比自主 AI 智能体与搜索助手。结果显示,AI 智能体每会话可自主工作 26 分钟,而搜索助手仅能完成 33 秒的自主工作。智能体在自主性、时间效率与成本方面均实现大幅提升,并且尝试的工作范围更为广泛。
Here's your monthly reminder that you shouldn't be prompting coding agents anymore. You should be designing loops that p...
SkeMex 是一种部署后自进化框架,通过技能记忆提升医学智能体的临床交互推理能力,无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能(可复用流程知识),组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用,指导价值感知检索与仓库治理,形成“读取—写入—评估—治理”闭环生命周期。实验表明,在多种临床任务中,SkeMex 在离线和在线设置下均优于代表记忆型智能体,且能跨模型骨干泛化并实现可转移技能记忆。
OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准,涵盖单人(7个)、PvP(3个)和合作(2个)模式,提供统一动作接口。除冷启动排行榜分数外,还引入Improvement Dynamics Curve (IDC),一种智能体反射评估机制:通过工具调用反射大语言模型自动优化技能提示词,追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现,以及4个顶级智能体在IDC下的指标。
魅族今年 1 月公布的 22 Next“AI 小方块”因内存涨价被无限期推迟,但工程机现已现身网络。该机实际定名“MEIZU AI 小方块”,搭载紫光展锐 T8200 芯片,配备 4 英寸聚碳酸酯亮面外壳,运行 Flyme AIOS。官方曾规划数十个场景、超 100 个表情界面的 AI 智能体交互体验,可放入吉利系汽车作为“驾乘机器人”,但最终未能上市。
长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量,或耗时耗算力。本文通过架构搜索和从头预训练,在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族,支持1:4、1:8、1:16压缩比,命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿,并能作为长时程智能体的高效骨干,快速扫描压缩后的长上下文并按需展开相关片段。
Kimi 通过「Agent 集群」同时调度 300 个子 Agent,从战术、球员、伤病等维度并行分析 104 场世界杯赛事,并公开预测与复盘。模型综合采用 Elo/FIFA 强度模型、Poisson 与 Dixon-Coles 进球分布模型、xG/xT 指标体系、Monte Carlo 模拟等。分析发现德国队夺冠概率被市场低估:基准约 11.0%,校准后约 11.3%,而部分市场隐含概率仅约 7.4%,存在约 +3.6 个百分点的正向偏离。同时推出总奖池 1 万亿 Token 的竞猜活动,并发布 Kimi Work——面向知识工作者的通用型本地 Agent,集成了建站、PPT 等专业 Skills 及 Kimi WebBridge。
Cadence(楷登)在 COMPUTEX 2026 上宣布,与 NVIDIA 合作推出的 ChipStack AI Super Agent 自主水平达到 Level-5,成为业界首款全自主芯片设计 AI 虚拟工程师。该智能体基于 Cadence AI 驱动 EDA 产品组合与 NVIDIA Nemotron 模型构建,并由 NVIDIA OpenShell 沙箱保障安全,可独立执行规格理解、RTL 生成、验证规划、形式分析、仿真、调试和设计收敛等任务,无需逐步提示,能评估中间结果并自主决策下一步。Cadence 高级副总裁 Paul Cunningham 称,该工具让资深工程师以更高速度和信心推进更具挑战性的设计。
开发者用 Step 3.7 Flash 测试真实 Coding Agent 任务:将已有 Local Agent Memory MVP 的运行痕迹(memory_events、structured_facts、memory_chunks 等 9 个场景测试数据)生成为单文件本地 HTML 工具 agent_memory_inspector.html。页面展示 8 条 memory events、9 条 structured facts、8 个 memory chunks、9/9 场景测试通过、敏感信息过滤前后对比、recall 命中内容及 retrieval 类型与分数、跨 session 记忆连续性。模型先读取现有代码和测试输出,检索 Letta、LangSmith 等工具展示方式后编写代码。测试环境:Cursor Agent + step-3.7-flash,本地 HTML 输出。
一篇来自中美顶级实验室的111页综述论文提出,AGI需要主动探索未知(认知探索),而非仅提升回答能力。论文将AI进展分为五级:responder(响应者)、reasoner(推理者)、agent(智能体)、prospector(勘探者)和ecosystem(生态系统),每级探索空间更广。核心强调智能体应通过获取有用信息、将困难经验转化为能力、避免过早锁定单一策略来降低不确定性,保持未来路径开放。
Today, we are launching GMI Agent Box. A complete infrastructure stack for production-ready AI agents: native Docker, fl...
洪明为内容推荐平台BestBlogsDev开设英文新号,分享精选博客与创作者内容,个人号保留构建与开发思考。引用推文回顾Claude Code过去一年的演进:从简单的编码助手成长为由数千自主agent组成的网络,可协作测试、修复、部署代码,无需人类逐级指导。AI在12个月内完成了从工具到协作者再到系统级编排者的转变,被视为新工程范式的诞生。
1/ Claude Code: One Year Later A year ago, Claude Code was a humble coding assistant - helpful for small dev tasks. Toda...
Claude Code 负责人Boris Cherny与Cat Wu回顾一周年核心方法论:每次Claude犯错写入CLAUDE.md或Skill持久化规则而非口头纠正;Verification指agent亲自跑起来验证(如启动模拟器、computer use测试)。Auto Mode取代Plan Mode,用独立分类模型筛权限风险而非人工审批。Routines实现自动化运维(如监听GitHub bug自动提PR)。Context Minimalism主张最小system prompt和工具集。团队预判未来agent运行更久、成百上千并行,产品形态将巨变。
Claude Code's first demo got two Slack reactions. One year after GA, @bcherny and @_catwu look back: verification best p...
本期早报聚焦AI编程从辅助到自主Agent的拐点。Anthropic复盘Claude Code一周年:Auto Mode用路由分类模型替代人工审批,通过Claude 4.6/4.7实现数千Agent动态协作。Boris Cherny提出“循环工程”——工程师应设计自动循环系统(定时自动化、并行工作树等5模块),并警示“认知投降”风险。安克创新CEO阳萌4小时访谈阐述从“浅海”到“深海”战略、第三类公司愿景及AI原生组织变革。
Kimi Work 是一款桌面 AI 代理,支持在本地最多 300 个代理并行执行任务,已适配 macOS(Apple Silicon)和 Windows。配合 WebBridge 扩展,代理可自主在浏览器中搜索、滚动、点击、打字完成操作。内置财经场景优化,原生调用 Yahoo Finance 和世界银行数据,无需复杂 API 配置。自带记忆系统记录用户偏好和决策历史。最终自动生成 PPTX、Word、PDF、Excel 文件。
Meet Kimi Work - a local AI agent on your desktop that does the work for you. 🔹Native agent swarm: Up to 300 AI agents ...
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》Google NotebookLM 迎来重大升级,在聊天中注入智能体(agentic)能力、更先进的推理逻辑以及一整套新输出格式。它可自主拆解复杂多步研究任务,逐步推理并生成结果;能主动从网络挖掘新资料,但最终答案严格基于用户批准过的来源,大幅减少幻觉。这让人机协作从“对话”升级为“搭档”。该更新已面向 Google AI Ultra 订阅用户逐步推送。
Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...
Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。
Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...
提出 Arbiter Agent,在有限 inspection budget 下实时监控多智能体对话,逐步选择等待、质问参与者、检查系统提示或推理轨迹、记录可疑行为,最终报告失调源头。在五种对话条件(风险财务建议模型生物、评估感知、合谋智能体等)下测试五种工具配置和两种骨干模型。结果表明,Arbiter 可在对话结束前可靠检测失调智能体,主动检查工具同时提升检测准确率和速度;weight-induced 失调最难检测,instruction-induced 失调在被动观察下也能可靠识别;记录工具提升召回率但降低精确度。代码已开源。
WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。
微信近期密集布局AI Agent:据外媒,用户在主界面右滑可唤出Agent对话窗口,自动调用小程序完成点单等任务;与华为、荣耀、小米、OPPO、vivo合作推出A2A助手能力,允许手机语音助理发起微信音视频通话或发送消息;6月8日发布开发者指引,提供自动接入模式,通过GUI Agent帮助数百万小程序实现AI调用。微信试图整合内部小程序生态与外部硬件,成为AI时代的操作系统,并触及Agentic Commerce(代理式交易)模式。
同一事件,精选展示《微信AI官宣内测:两种接入模式供开发者选择》Hacker News 用户发起讨论,询问大家自 AI 兴起以来为自己开发了哪些个人工具。该提问来自 HN(news.ycombinator.com),获得 100 个点赞,标签为 #Ask HN。
苹果在 2026 年 WWDC 主题演讲后推出 Game Porting Toolkit 4,加速游戏移植至 Mac。新版配套上线 GitHub 代码仓库,提供开源 AI 智能体技能与示例代码。这些智能体具备更深入的 Metal 知识,可通过命令行访问 Metal 工具,完成捕获、调试与性能分析。评估环境已支持最新图形接口 Metal 4,便于开发者早期测试兼容性与性能。
Claude Code v2.1.169 新增 --safe-mode 标志及环境变量,用于禁用所有自定义配置以排查问题;新增 /cd 命令,可在不破坏提示词缓存的情况下切换工作目录;新增 disableBundledSkills 设置隐藏内置技能。修复了企业 MCP 策略在重连、IDE 配置及首次会话中不被强制的问题,以及 macOS 用户每轮约 30–50ms 的 UI 卡顿、Windows 下 claude -p 和 Git 凭证弹窗等多项 bug。改进了任务创建的可靠性,恢复 Vertex/Foundry 默认 5 分钟空闲超时,并降低 CPU 占用。
Apple 今天推出了新的智能能力、Xcode 中扩展的生产力功能以及平台改进,旨在协助应用开发。
关联讨论 1 条IT之家(RSS)Anthropic 研究发现,AI 智能体在代码任务表现出色,但在生物数据库检索中容易失败。以埃博拉序列任务为例,Claude Sonnet 4 三次运行分别返回 106、15 和 5 条序列,而预期为 266 条。缺失序列导致科学结论严重偏移:智能体推断疫情回溯至 1922 年,人工筛选结果却指向 2014 年初。问题根源在于生物数据库分散、网站规则隐蔽、脚本脆弱。引入可重复检索工具后,智能体准确性和一致性大幅提升。Anthropic 呼吁建设更友好的基础设施。
New Science Blog: Why has AI advanced faster in coding than in biology? To agents, bio databases are like cities built b...
OpenAI 发布计划,阐述让 AGI 造福所有人的愿景。该计划聚焦于 AI 的可及性、安全性和共享繁荣,确保技术进步惠及每个人。
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Sam Altman (@sama)论文提出 AdaCoM,一个独立的 LLM,在智能体每步操作前编辑其工作上下文。它可重写、合并、剪枝或保留任务历史,使主智能体保持冻结,无需重新训练或暴露权重。与简单摘要不同,AdaCoM 学习不同智能体需要不同类型上下文——强智能体保留更多原始历史,弱智能体需更短更清晰的笔记。在 web search 和 deep research 任务上测试,平均提升 39%。
Cognition 发布 FrontierCode 编码评估,每任务由顶级开源维护者花费 40+ 小时编写。METR 发现 SWEBench 超一半结果为不可合并的垃圾代码。FrontierCode 含 3000+ 评分标准,首次衡量代码是否可合并。最高难度 FC Diamond 上,Opus 4.8 仅得 13.8%。在 FC Extended 最易任务中,Opus 在 2025 年底 4 个月内从 41% 提升至 74%,标志 AI 编码进入"可维护代码"时代。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...