Perplexity 将 Deep Research 功能迁移至 Perplexity Computer 中,自动将复杂问题拆解为多个研究子任务,并路由至 20 多个前沿模型协同完成,支持生成报告、演示文稿和仪表盘。
Perplexity 将 Deep Research 功能迁移至 Perplexity Computer 中,自动将复杂问题拆解为多个研究子任务,并路由至 20 多个前沿模型协同完成,支持生成报告、演示文稿和仪表盘。
xAI 推出 Grok Build 插件市场,这是一个终端内插件平台,支持技能、智能体、钩子和 MCP 服务器。所有远程插件均通过 commit-SHA 验证确保安全。首发插件包括 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 及 Superpowers。
OpenRouter 推出 advisor 服务器工具,允许快速、便宜的模型在生成过程中向更强模型咨询。用户可用 GPT-4o Mini 处理常规任务,在关键环节调用 Claude Fable 进行更高质量的推理。
同一事件,精选展示《OpenRouter 推出 Advisor 工具:让低成本模型可随时调用强模型增强生成》Cursor 本周推出 Auto-review,旨在让代码智能体在保持自主性同时降低安全风险。该功能引入分类器代理,在每次工具调用前根据上下文判断风险:低风险时允许自由操作,越界时阻止并返回解释,使父智能体自主调整路径。分类器为轻量模型,与父代理同 RPC 流运行避免延迟,并可读取工作区文件辅助决策。团队基于约 12 小时内部开发者会话整理 6,122 条标注数据,补充合成异常用例评测,以平衡安全与开发效率。
Zed 开发者在其官方博客中提出,软件真正的创造过程并不在代码提交本身,而是发生在两次提交之间的思考、调试与重构中。这一观点强调提交记录之外的隐式工作对软件质量的决定性作用。
Anthropic与IT服务公司DXC Technology达成多年全球联盟。DXC将培训数万名获得Claude认证的前沿部署工程师(FDE),将Claude引入其为全球大型银行、航空公司、保险公司及政府机构运营的关键系统。内部部署中,Claude已成为DXC OASIS平台的默认基础模型,该平台超95%代码由Claude编写,开发速度提升10倍,已服务50多家客户。DXC加入Claude Partner Network,将在保险、现代化服务、网络安全及应用服务四个领域率先推出基于Claude的解决方案。
Cursor 近日推出 Auto-review,通过一个专门的分类器智能体在工具调用前审查动作风险。该分类器根据上下文判断动作是否与用户意图一致,高风险时阻止并返回解释给父智能体,低风险时放行。分类器采用小模型,运行在智能体循环内以避免额外延迟,并能读取工作区文件辅助判断。测试基于约12小时内部开发会话生成的6122条标签数据,以及针对读取密钥、操作生产数据等危险场景的合成数据。设计目标是在不频繁阻断日常开发的前提下,拦截风险动作。
OpenAI 计划收购 Ona,以拓展 Codex 的功能,提供安全、持久的云端环境,从而支持企业工作流中长时间运行的 AI 智能体。
关联讨论 1 条X:小北 (@frxiaobei)Visa 将支付基础设施接入 ChatGPT,使 AI 智能体能够推荐零售产品并执行金融交易。该部署去除了零售漏斗最后阶段的人工干预——自主智能体将处理用户提示、评估商家目录,并利用 Visa 支付通道在任何支持商户处完成结账流程。
Xebia全球CTO Niels Zeilemaker指出,为组织引入AI智能体加速流程必须从数据基础着手——让数据可供AI消费。Agentic AI的规模取决于数据强度,忽视这一点将无法推进。
Claude Fable 5(Mythos 安全公开版)6月22日前对 Pro/Max/Team 订阅用户开放,之后转 API。作者用 100 美元/月的 Max 会员,让 Fable 5 开发了开源“鲁班 Skill”,专用于打磨其他 AI Skill。该 Skill 通过前提验证(真实问题、安装理由、唯一性)、并行搜索同类(GitHub/ClawHub/skills.sh 等)、横纵分析、Darwin 式 9 维度评分(权重最高的实测表现)、SkillOpt 式单方向改写等步骤,将作者已有的 ai-news-radar 项目升级至 v0.7。Fable 5 自动录制操作视频并剪辑,追加了热点模式和时间轴模式,改进了消息评分算法并公开回测工具。鲁班 Skill 已开源至 github.com/LearnPrompt/luban-skill,强调 Skill 本质是清晰提示语而非复杂脚本。
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克京东6月11日发布国内首个智能体自主支付协议A2P2,将支付自主化划分为L0至L5六个等级,重点聚焦L3和L4。L3智能体可在单一任务内自主发起支付请求;L4在预设范围内自主完成支付。协议引入任务委托凭证(Mandate),将自然语言指令转为可校验凭证。资金安全方面首创ARI机制,支付时绑定真实用户、智能体身份与运行环境,三方核验通过才放行。另设专用隔离账户限制金额、场景、有效时间等。支付后形成证据闭环,通过存证链确保每笔AI交易可审计。
TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题,将每个 ReAct 轮次视为语义独立节点,把预算分配从 prompt 根节点扩展到中间前缀,形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率,优先向易产生混合奖励的节点分配有限采样预算,从而增强策略更新信号。在典型智能体基准上,TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。
Nous Research 为 Hermes Agent 仪表盘新增 Profile Builder,用户可在单一流程中构建包含身份、模型、技能和 MCP 服务器的完整 Agent 配置文件,替代以往多步 CLI 配置方式。
阿里云今日推出 Meoo(秒悟)开源命令行工具 Meoo CLI,面向开发者,支持 Claude Code、Codex、Cursor 等本地 AI 编程助手。通过调用阿里云云端能力,可自动完成数据库接入、用户登录、文件存储及项目发布,将本地项目一键部署上线并生成可分享的访问链接。该工具定位为本地 Agent 与秒悟云端能力的连接入口,已开放下载,支持主流 Linux、macOS 及 Windows 平台。
据彭博社报道,Meta 已完成与 Manus 的运营分离,停止两家公司数据共享。自本月初起,Meta 禁止 Manus 及其员工访问其内部数据系统,Meta 员工也无法再为内部项目使用 Manus 工具。去年 12 月,Meta 宣布以约 20 亿美元收购 Manus 母公司蝴蝶效应;今年 4 月,中国外商投资安全审查机制禁止该交易,要求撤销收购。今年 6 月,Manus 将总部迁至新加坡并停止国内运营。今年 5 月报道称,Manus 创始人肖弘、季逸超、张涛正考虑融资约 10 亿美元回购公司。
追觅生态品牌Eclix负责人俞雷透露,团队已与国内头部大模型厂商达成合作,预计2026年9月发布第一代AI手机,双十一前上市,定价5000元以上。首代产品出货量控制在5万-10万台,京东线上首发,目标极客用户。盈利模式为AI算力服务订阅,按token消耗实时计费。当前最大妥协是无法打通所有App,需为微信等超级App保留“旧世界逃生窗口”,传统App界面作为兜底方案。
Claw-SWE-Bench是一个多语言SWE-bench风格基准和适配器协议,用于在公平设置下比较通用智能体框架(claws)的编程能力。完整基准包含350个GitHub issue解决实例,覆盖8种语言和43个仓库,来源于SWE-bench-Multilingual和SWE-bench-Verified-Mini。同时发布80实例的Lite子集用于快速验证。在完整基准上,OpenClaw搭配最小适配器仅得19.1% Pass@1,而完整适配器使用相同GLM 5.1骨干达到73.4%,表明适配器设计至关重要。模型选择改变Pass@1达29.4个百分点,框架选择改变27.4个百分点;相似精度的系统总API成本差异巨大。Claw-SWE-Bench将框架和成本核算作为SWE风格编码智能体评估的第一类维度。
Arbor是一个结合长期协调器、短期执行器和假设树优化(HTR)的通用自主研究框架。该框架通过持久化树结构跨时间链接假设、工件、证据和提炼洞察,将自主研究从局部尝试转变为累积过程。在模型训练、工具工程和数据合成等六个真实研究任务中,Arbor均取得最佳留出结果,平均相对留出增益超过Codex和Claude Code的2.5倍。在MLE-Bench Lite上,Arbor使用GPT-5.5达到86.36%的Any Medal,为对比中最优成绩。
Xcode 27 Beta 新增原生谷歌 Gemini 集成,成为继 OpenAI Codex 和 Anthropic Claude Agent 之后第三个内置的 AI 编程智能体。开发者无需切换工具或窗口,即可在 Xcode 内完成构建新功能、审查代码和修复 Bug 等复杂多步骤任务。通过 Intelligence 设置面板配置 Gemini 后,Gemini 能理解项目上下文、辅助生成样板代码,并根据项目文档和文件结构更新整个项目。
InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。
该综述系统研究了大语言模型智能体的环境工程生命周期,涵盖环境建模、合成、评估与应用。从八个属性和八个领域梳理代表性环境的发展路径;归纳自动环境合成的符号合成与神经合成两种范式及对应评估方法。从智能体-环境共同演化视角,总结四种智能体演化路径(记忆中心、编排中心、轨迹中心、探索中心)与三种环境演化范式(神经驱动、难度驱动、规模驱动)。最后展望环境即服务(EaaS)、多智能体环境和神经符号环境等方向。
小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议。内置限时免费MiMo-V2.5多模态模型,性能比肩Claude Sonnet 4.6;支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统(项目记忆、会话检查点、任务进度)和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化,SWE-Bench Pro达62%(Claude Code 57%),Terminal Bench 2达73%(68%)。内置语音输入和/dream命令,每7天自动合并记忆。终端输入mimo即可使用,所有设置中文汉化。
WorkBuddy是面向国内用户的通用Agent产品,支持Windows和Mac,提供免费版和58元/月个人专业版,企业版已推出。内置代码开发、日常办公、设计创意三种场景模式及100多个行业领域AI专家。模型集成腾讯混元、DeepSeek(推荐V4 Pro)、GLM、Kimi等国产大模型,也支持接入兼容OpenAI协议的外部API。拥有Skills市场和MCP连接器生态,可打通QQ邮箱、腾讯会议、腾讯文档等服务。教程通过公众号周报生成和功能网页开发两个案例演示实际用法。
关联讨论 1 条公众号:数字生命卡兹克datasette-agent 0.2a0 新增两个核心功能。工具可通过 ToolContext 对象的 await context.ask_user(...) 向用户提问,支持 yes/no、多选(options=[...])或自由文本(free_text=True)。问题未回答时 agent 挂起,问题以表单形式渲染在聊天界面并持久化到内部数据库,服务器重启后对话可继续。工具应在执行副作用前调用 ask_user(),回答后从头重放。另一内置工具 save_query 允许 agent 将 SQL 保存为 Datasette 存储查询,但必须经人工批准——显示完整 SQL 及提议的名称、数据库和可见性,用户确认后才会存储。ask_user 功能基于作者昨日用 Claude Fable 5 构建的新 LLM alpha 实现。
DailyReport 是一个用于评估搜索智能体(Search Agents)在日常搜索任务中能力的开放基准。它包含 150 个开放式任务和 3,546 条级联评分规则,将每个任务分解为子任务,并在可分离维度上进行细粒度评分。通过级联性能归因和以用户为中心的聚合,得到每个维度的可解释分数及用户偏好分数。在 17 个智能体系统上的测试结果显示,当前系统仍未达到用户期望。数据集和代码已公开。
子智能体现可创建自己的子智能体,最多嵌套5层。Amazon Bedrock 在未设置 AWS_REGION 时从 ~/.aws/config 读取区域。插件市场新增搜索栏。修复了使用1M上下文且无使用额度的会话永久卡住的问题,现会自动压缩回标准上下文限制。修复了多个图片导致重复报错等问题。改进了长对话性能,减少冗余消息归一化和不必要的UI重绘,降低空闲CPU占用。Claude in Chrome 工具加载改为单次批量调用。/code-review 在未登录时保留 ultra 选项并提示需要 claude.ai 账户。
6 月 11 日,小米 MiMo 发布并开源 MiMo Code V0.1.0,一款终端 AI 编程助手,基于 OpenCode 二次开发,采用 MIT 协议。内置限时免费多模态模型 MiMo-V2.5,支持接入 DeepSeek、Kimi、GLM 等模型。独创持久记忆系统通过项目记忆、会话检查点、任务进度三重机制解决长会话遗忘,由独立 subagent 自动保存状态并在窗口快满时生成简报。Compose 模式可一键完成设计、规划、编码、测试、审查全流程。内置 /dream 命令每 7 天自动合并、去重、验证路径并压缩记忆文件。支持语音输入与控制(MiMo-V2.5-ASR)。
Cursor 的代码审查工具 Bugbot 迎来重大更新:运行速度提升超 3 倍,成本降低 22%,每轮审查多发现 10% 的 bug,90% 的运行在三分钟内完成。新增 /review 命令,可在推送代码前运行 Bugbot 和安全审查,并与 GitHub/GitLab 同步——若已通过 /review 审查过同一 diff,打开 PR 时 Bugbot 会自动跳过并备注。支持配置仅审查 PR 中新增内容。性能提升源于驱动 Bugbot 的 Composer 2.5 模型训练改进。Bugbot 遵循模型阻止列表,若组织禁用 Composer 2.5 则自动回退。该功能已在 Cursor 3.7+ 和 cursor.com/agents 上线,CLI 支持即将推出。
Claude Desktop 会在用户无授权的情况下自动启动一台虚拟机,且提供任何停止或关闭该虚拟机的途径。这一行为已在 GitHub 上引发讨论,用户担忧其可能带来的资源占用及隐私安全风险。
Apache Burr 是一个用于构建可靠 AI 智能体和应用程序的框架,已在 Apache 基金会下发布。该项目提供工具和抽象,帮助开发者设计、开发和部署可信任的智能体应用,强调可靠性、可观测性和生产级部署能力。
Anthropic 推出 Claude Managed Agents,一套可组合 API 套件,用于构建和部署生产级智能体。该产品从早期简单 API 演进至 Claude Agent SDK,再到将智能体调度层与代码执行沙箱解耦的 Managed Agents。通过只追加日志的会话机制,Managed Agents 解决了托管伸缩、会话持久化、文件系统管理、执行隔离、凭证安全与可观测性等生产部署挑战。团队借助该方案可在数天内完成从原型到生产环境的转化,无需自建基础设施。
同一事件,精选展示《Code w/ Claude 伦敦活动:重塑开发体验》现有智能体强化学习多基于工具调用边界等粗粒度单元分配回报。APPO将分支与信用分配迁移至序列中的细粒度决策点:通过分支分数(结合token不确定性与后续延续的策略诱导似然增益)选择分支位置,过滤高熵噪声;引入过程级优势缩放优化分支轨迹间的信用分布。在13个基准测试上,APPO在保持工具调用效率和行为可解释性的前提下,将强基线性能平均提升近4个点。
DeLM是一种去中心化多智能体系统框架,通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能,相比最强基线提升最多10.5个百分点,每任务成本降低约50%。在LongBench-v2多文档问答上,DeLM在四个前沿模型家族中取得最高平均准确率,提升最多5.7个百分点。代码已开源。
Jedify 完成 2400 万美元融资,由 Norwest 领投,S Capital VC、Cerca Partners、Oceans Ventures 及战略投资者 Snowflake Ventures 参投。该公司致力于帮助企业为其 AI 智能体提供业务上下文信息。
Google 为 NotebookLM 推出重大升级。该研究工具现基于 Gemini 3.5 Flash 运行,拥有自己的云计算机用于代码执行,并能通过 Google Search 自主查找来源。内部测试中,新系统在 78.2% 的情况下击败了上一版本。
软件开发的模式已然改变——工程师不再手动输入大部分代码,而是描述意图,由 AI 智能体规划任务、跨文件编辑、运行测试并提交 Pull Request。许多工具已能在有限监督下直接部署到生产环境。这篇指南对比了 Atoms、Devin、Windsurf、Cursor、Warp 等主流 AI 编码代理与开发平台,帮助开发者选择最适合需求的工具。
小米MiMo-V2.5-Pro UltraSpeed模式在单8卡节点上实现万亿参数MoE推理模型输出速度1000 token/s,峰值达2140 token/s,是普通版的3倍,且此前已降价99%。接入Claude Code桌面端开启UltraCode模式后,可调度12个Agent在11分钟内完成项目升级报告并打包成Skill;3分钟内生成含灯光、剪影、星光特效的3D吉他英雄网页。技术层面通过FP4混合量化、提前草稿机制及计算/搬数据/通信流水线调度实现高速推理。
快手开源 Kwai Keye-VL-2.0-30B-A3B,一个 MoE 多模态基础模型,激活仅 3B 参数,专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构,实现无损 256K 上下文处理,并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏(MOPD)结合 Context-RL 和 Video-RL,缓解多任务对齐中的灾难性遗忘,原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA,模型权重已开源。
阿里巴巴旗下千问上线国内首个全周期高考志愿填报Agent,基于千问高考志愿大模型和夸克8年高考数据打造,免费提供“志愿日历”“志愿报告”“志愿问答”三项核心能力。志愿日历将填报拆解为步骤,持续理解考生兴趣;志愿报告支持动态调整、主动建议及自我检查,加入就业前景、考公考编、AI趋势等数据;志愿问答可调用位次法等专业方法作答。针对老旧机型与弱网环境进行了优化。