哈佛大学与 Perplexity 联合发表论文,采用匹配对会话方法对比自主 AI 智能体与搜索助手。结果显示,AI 智能体每会话可自主工作 26 分钟,而搜索助手仅能完成 33 秒的自主工作。智能体在自主性、时间效率与成本方面均实现大幅提升,并且尝试的工作范围更为广泛。
哈佛大学与 Perplexity 联合发表论文,采用匹配对会话方法对比自主 AI 智能体与搜索助手。结果显示,AI 智能体每会话可自主工作 26 分钟,而搜索助手仅能完成 33 秒的自主工作。智能体在自主性、时间效率与成本方面均实现大幅提升,并且尝试的工作范围更为广泛。
SkeMex 是一种部署后自进化框架,通过技能记忆提升医学智能体的临床交互推理能力,无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能(可复用流程知识),组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用,指导价值感知检索与仓库治理,形成“读取—写入—评估—治理”闭环生命周期。实验表明,在多种临床任务中,SkeMex 在离线和在线设置下均优于代表记忆型智能体,且能跨模型骨干泛化并实现可转移技能记忆。
OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准,涵盖单人(7个)、PvP(3个)和合作(2个)模式,提供统一动作接口。除冷启动排行榜分数外,还引入Improvement Dynamics Curve (IDC),一种智能体反射评估机制:通过工具调用反射大语言模型自动优化技能提示词,追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现,以及4个顶级智能体在IDC下的指标。
魅族今年 1 月公布的 22 Next“AI 小方块”因内存涨价被无限期推迟,但工程机现已现身网络。该机实际定名“MEIZU AI 小方块”,搭载紫光展锐 T8200 芯片,配备 4 英寸聚碳酸酯亮面外壳,运行 Flyme AIOS。官方曾规划数十个场景、超 100 个表情界面的 AI 智能体交互体验,可放入吉利系汽车作为“驾乘机器人”,但最终未能上市。
长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量,或耗时耗算力。本文通过架构搜索和从头预训练,在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族,支持1:4、1:8、1:16压缩比,命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿,并能作为长时程智能体的高效骨干,快速扫描压缩后的长上下文并按需展开相关片段。
Kimi 通过「Agent 集群」同时调度 300 个子 Agent,从战术、球员、伤病等维度并行分析 104 场世界杯赛事,并公开预测与复盘。模型综合采用 Elo/FIFA 强度模型、Poisson 与 Dixon-Coles 进球分布模型、xG/xT 指标体系、Monte Carlo 模拟等。分析发现德国队夺冠概率被市场低估:基准约 11.0%,校准后约 11.3%,而部分市场隐含概率仅约 7.4%,存在约 +3.6 个百分点的正向偏离。同时推出总奖池 1 万亿 Token 的竞猜活动,并发布 Kimi Work——面向知识工作者的通用型本地 Agent,集成了建站、PPT 等专业 Skills 及 Kimi WebBridge。
Cadence(楷登)在 COMPUTEX 2026 上宣布,与 NVIDIA 合作推出的 ChipStack AI Super Agent 自主水平达到 Level-5,成为业界首款全自主芯片设计 AI 虚拟工程师。该智能体基于 Cadence AI 驱动 EDA 产品组合与 NVIDIA Nemotron 模型构建,并由 NVIDIA OpenShell 沙箱保障安全,可独立执行规格理解、RTL 生成、验证规划、形式分析、仿真、调试和设计收敛等任务,无需逐步提示,能评估中间结果并自主决策下一步。Cadence 高级副总裁 Paul Cunningham 称,该工具让资深工程师以更高速度和信心推进更具挑战性的设计。
提出 Arbiter Agent,在有限 inspection budget 下实时监控多智能体对话,逐步选择等待、质问参与者、检查系统提示或推理轨迹、记录可疑行为,最终报告失调源头。在五种对话条件(风险财务建议模型生物、评估感知、合谋智能体等)下测试五种工具配置和两种骨干模型。结果表明,Arbiter 可在对话结束前可靠检测失调智能体,主动检查工具同时提升检测准确率和速度;weight-induced 失调最难检测,instruction-induced 失调在被动观察下也能可靠识别;记录工具提升召回率但降低精确度。代码已开源。
WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。
微信近期密集布局AI Agent:据外媒,用户在主界面右滑可唤出Agent对话窗口,自动调用小程序完成点单等任务;与华为、荣耀、小米、OPPO、vivo合作推出A2A助手能力,允许手机语音助理发起微信音视频通话或发送消息;6月8日发布开发者指引,提供自动接入模式,通过GUI Agent帮助数百万小程序实现AI调用。微信试图整合内部小程序生态与外部硬件,成为AI时代的操作系统,并触及Agentic Commerce(代理式交易)模式。
同一事件,精选展示《微信AI官宣内测:两种接入模式供开发者选择》Hacker News 用户发起讨论,询问大家自 AI 兴起以来为自己开发了哪些个人工具。该提问来自 HN(news.ycombinator.com),获得 100 个点赞,标签为 #Ask HN。
苹果在 2026 年 WWDC 主题演讲后推出 Game Porting Toolkit 4,加速游戏移植至 Mac。新版配套上线 GitHub 代码仓库,提供开源 AI 智能体技能与示例代码。这些智能体具备更深入的 Metal 知识,可通过命令行访问 Metal 工具,完成捕获、调试与性能分析。评估环境已支持最新图形接口 Metal 4,便于开发者早期测试兼容性与性能。
Claude Code v2.1.169 新增 --safe-mode 标志及环境变量,用于禁用所有自定义配置以排查问题;新增 /cd 命令,可在不破坏提示词缓存的情况下切换工作目录;新增 disableBundledSkills 设置隐藏内置技能。修复了企业 MCP 策略在重连、IDE 配置及首次会话中不被强制的问题,以及 macOS 用户每轮约 30–50ms 的 UI 卡顿、Windows 下 claude -p 和 Git 凭证弹窗等多项 bug。改进了任务创建的可靠性,恢复 Vertex/Foundry 默认 5 分钟空闲超时,并降低 CPU 占用。
Apple 今天推出了新的智能能力、Xcode 中扩展的生产力功能以及平台改进,旨在协助应用开发。
关联讨论 1 条IT之家(RSS)OpenAI 发布计划,阐述让 AGI 造福所有人的愿景。该计划聚焦于 AI 的可及性、安全性和共享繁荣,确保技术进步惠及每个人。
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Sam Altman (@sama)在 2026 全球开发者大会(WWDC)上,苹果发布 Xcode 27 Beta 并推出 Core AI 框架。新版 Foundation Models 框架支持图像输入,开发者可将图片与文本一并传给设备端模型,处理多模态任务。Xcode 编码助手升级为智能体式编码工作流,已覆盖应用本地化、与模拟设备交互以及测试与调试环节。苹果软件工程高级副总裁 Craig Federighi 称 Xcode 已成为构建智能体 AI 应用的“最佳场所”。
Apple 发布了 Siri AI,一款由 Apple Intelligence 驱动的个人助理,具备个人上下文、世界知识和屏幕感知能力,能提供更强大、更个性化的交互体验。
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》苹果在 2026 年全球开发者大会(WWDC)上发布 Siri AI,称为“全新版本的 Siri”,具备更强的对话能力和表现力,用户可自定义语速、语气和口音。Siri AI 支持系统范围内读取屏幕内容并与应用互动,配有独立 App,灵动岛会显示大气泡。苹果强调每一步以隐私为重。语音优化同时适用于 CarPlay 和 AirPods,可用于查询演唱会信息、提醒报名抽奖、搜索照片等场景。
关联讨论 8 条TechCrunch:AI(RSS)X:Kim (@kimmonismus)Apple:Newsroom(RSS)IT之家(RSS)公众号:数字生命卡兹克The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)Apple Machine Learning Research(RSS)一项实验让Claude、Biomni、Edison Analysis、GPT等科研智能体从病毒学数据库NCBI Virus中检索序列数据,即使最强模型也无法稳定达到可靠数据集构建所需的准确率。加入确定性检索层gget virus后,准确率接近100%。研究指出,当前生物学数据基础设施存在碎片化、格式特殊、接口不统一等问题,导致AI智能体难以像在软件领域那样高效工作。确定性检索工具是实现可靠智能体工作流的关键,生物学数据库需为智能体作为规模化用户而设计。
苹果 WWDC 2026 临近,Siri 备受期待的改造、Apple Intelligence 和 iOS 27 是本次大会的主要看点。
微信宣布向开发者提供 AI 生态接入功能,目前处于内测阶段。美团作为首批内测团队,已与微信联合开发并测试接入。未来用户可通过微信 Agent 调用美团外卖等本地生活服务,实现智能便捷的 AI 生活服务体验。此前携程已官宣接入微信 AI 生态,围绕酒店预订、机票等核心场景接入微信 AI Agent。另有传闻称京东也已作为首批内测团队接入。
月之暗面 Kimi 宣布调度 300 个子 Agent 并行分析 104 场世界杯赛事。每个 Agent 有独立视角,覆盖战术、球员、伤病、赛程、历史、舆情、赔率等维度,采用 Elo、FIFA 排名、Poisson、Dixon-Coles、xG/xT、Monte Carlo 模拟、贝叶斯等模型。最终以概率呈现并标注风险,不简单多数决。Kimi 框架认为西班牙、法国是夺冠热门,但模型发现德国队夺冠概率可能被市场低估。历史回测显示高置信度预测准确率约 85%-90%,中等约 55%-65%,低置信度接近随机。官方提示结果不构成投注建议。
生成式AI商业模式正从月订阅制转向按token消耗计费。智能体工作流消耗数倍于传统对话的token,可自主运行数小时,使固定费率不可持续。token价格因响应速度、专业化程度及结果经济价值而异。本期报告梳理订阅制向消费制迁移、看似低廉的token单价背后的实际成本,以及为何仅凭token消耗量衡量AI价值创造是片面的。
Kimi Code 开源 Coding Agent 迎来大版本升级:一行命令安装,毫秒级启动;新增视频理解能力,支持提取视频风格生成 LUT 文件、长视频切片、根据录屏生成代码;集成同花顺、天眼查等权威数据源,可查询股票价格、财报、学术论文;支持 ACP 协议,可在 JetBrains、Zed 中使用;丰富 hook 生态方便集成其他工具。底层视觉推理由 Kimi K2.6 模型提供。
同一事件,精选展示《Kimi Code 焕新升级(附视频教程)》今日,Hugging Face 宣布 OpenEnv 项目进一步开放,由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调,并获得 PyTorch Foundation、vLLM、SkyRL(UCB)等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具,定位为训练器与环境间的互操作层,标准化环境的发布、部署和消费,但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API(reset()、step()、state()),支持 HTTP、WebSocket、Docker 打包,并将 MCP 作为一等公民,使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证,以推动开源智能体 RL 基础建设。
用五个不同实验室的AI模型(OpenAI、NVIDIA、OpenBMB及一个自微调的5亿参数模型)各自驱动一个智能体构建经济市场,试图复现此前单一模型下出现的银行挤兑式价格崩溃。结果同一场景下模型不仅不抛售反而囤积,导致价格不跌反涨。通过纯谣言、库存泛滥、加大做空三种方式均无法重现崩溃。最终在结算环节直接覆盖价格,使崩溃成为设计事实。实验表明,AI智能体的涌现行为是偶然的而非稳健的,有效系统需在涌现纹理与确定性控制之间找到精确接缝。
Kimi Code 开源 Coding Agent 大版本升级:一行命令安装,毫秒级启动;新增视频理解,可提取参考视频色调生成 LUT、将长视频切分为短视频、根据录屏生成代码;接入同花顺、天眼查等权威数据源,支持实时查询股票价格、财报和学术论文;兼容 ACP 协议,可在 JetBrains、Zed 等 IDE 使用;拓展 hook 生态方便集成。视频理解基于 Kimi K2.6 模型。通过 /plugins 安装 kimi-datasource 插件即可使用权威数据源。
字节跳动火山引擎宣布Agent Plan和Coding Plan限时优惠,两款套餐均集成MiniMax M3、DeepSeek V4系列、GLM-5.1等模型。即日起至2026年8月27日,新购、升级或续费Coding Plan Lite(原价40元/月)和Coding Plan Pro(原价200元/月),以及Agent Plan Small(原价40元/月)和Agent Plan Medium(原价200元/月),首两个月享2.5折,对应限时价9.9元/月和49.9元/月,第三个月起恢复原价。Agent Plan为火山引擎首推的“Agent套餐包”,内置字节自研Doubao-Seed、Seedance、Seedream模型,支持文本、代码、视频等多模态任务。
6 月 8 日,微信开放平台发布指引,为开发者提供接入微信 AI 生态的能力,开发者可主动授权接入。携程小程序已作为首批内测开发者完成初步适配,未来将围绕酒店预订、机票查询、旅游度假、出行服务等核心场景接入微信 AI Agent。微信提供两种接入模式:自动模式(授权平台读取小程序源码,无需额外开发)和开发模式(开发者自主个性化开发,通过评测后可被微信 AI 调用),两种模式可同时开启。
OpenRouter 的 Agent SDK 新增人类参与循环(HITL)工具,用于 AI 智能体的合规监督。该工具可帮助 AI 智能体满足欧盟 AI 法案、科罗拉多州自动化决策技术法(SB26-189)以及 NIST AI 风险框架(NIST AI RMF)的监管要求。
同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》火山方舟Coding Plan与Agent Plan升级,集成MiniMax M3、DeepSeek V4系列、GLM-5.1等多款三方模型。即日起至2026年8月7日,新购/升级/续费40元、200元档位可享首两月2.5折(9.9元/月、49.9元/月)。MiniMax M3为新一代旗舰,支持100万token上下文窗口及原生多模态理解。Agent Plan为业界首个Agent套餐包,整合字节自研Seed系列模型与Harness工具,免费提供联网搜索和Embedding记忆能力,可配合Claude Code、OpenClaw、TRAE等工具使用。
京东作为首批内测团队率先接入微信AI,将围绕电商、外卖、物流等业务接入微信AI Agent。微信开放平台提供自动模式和开发模式两种接入方式:自动模式由平台读取小程序源码并分析页面,无需额外开发;开发模式允许开发者基于业务特性自主开发,通过审核后可被微信AI调用。
腾讯正测试嵌入微信的AI Agent,用户右滑唤出对话窗口,通过自然语言指令调用数百万小程序完成点咖啡等任务。微信还与华为、荣耀、小米、OPPO、vivo合作推出A2A助手能力,可通过手机语音助理发起微信音视频通话或发送消息。6月8日,微信官方发布《关于开发者接入微信AI生态的指引》,提供自动接入模式,利用微信沙箱全自动改造小程序,使其可被AI直接调用。这一布局被视为Agentic Commerce(代理式交易)的雏形。
同一事件,精选展示《微信AI官宣内测:两种接入模式供开发者选择》Google Research 在 Gemini Enterprise Agent Platform 中推出一个 Agentic RAG 框架。该框架中的 Sufficient Context Agent 会持续重新搜索,直到多跳、多源查询拥有足够的 grounding 来生成回答。相比标准 RAG,该框架将事实准确性最高提升 34%。
微信开发者官方今日发布指引,确认微信AI正在内测阶段。开放平台提供两种接入模式:自动模式可授权平台读取小程序源码,无需额外开发即可让微信AI直接操作页面;开发模式下开发者可自主开发技能,审核后由微信AI调用。两种模式可同时开启。微信AI是微信内的AI助手,用户通过自然语言对话即可调用、访问和操作小程序。服务条款称“微信AI”可能非最终名称。接入与否不影响现有小程序服务。
关联讨论 1 条IT之家(RSS)datasette-agent-edit 0.1a0 插件发布,为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor,实现三个工具:view(按行号查看文件片段)、str_replace(精确替换唯一字符串)、insert(在指定行号后插入文本)。该插件作为基础组件,可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。
iOSWorld 是首个基于持久用户身份构建的原生 iOS 模拟器基准,包含 26 个新开发的互联应用及 133 个任务,分为单应用(27 个)、多应用(60 个,跨 2–8 个应用)和记忆与个性化(46 个,需从个人数据推断模式)三类。在纯视觉和特权视觉+XML 设置下评估前沿及开源模型,最佳准确率 52%(多应用仅 37%);特权 XML 使前沿模型提升最多 26 个百分点,小模型未受益。基准已开源发布。
Visual Para-Thinker++ 是一种单策略多智能体框架,将共享 MLLM 策略实例化为角色条件化的 Main、Worker 和 Summary Agent。Main Agent 按固定模式分解任务,Worker Agent 在上下文隔离下并行推理,Summary Agent 整合全部 Worker 推理轨迹而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦多智能体优化训练,为对应 token 片段分配角色特定奖励和优势以减少梯度冲突。推理引擎通过共享视觉前缀和 KV cache 重用实现高效多智能体 rollout。在 V*、CountBench、RefCOCO 系列和 HallusionBench 上,该框架一致优于单轨迹和推理时并行基线,在幻觉敏感任务上增益尤为显著。
WeaveBench 包含 114 个任务,覆盖 8 个真实工作领域,要求智能体在单次轨迹中结合 GUI 操作、CLI 与代码执行。评估在真实 Ubuntu 桌面进行,并设计了轨迹感知评判器以检测伪造视觉证据等捷径。前沿模型-运行时组合的最佳 PassRate 仅为 41.2%,表明基准远未饱和;仅依据结果评分会显著高估智能体性能。该基准揭示了当前计算机使用智能体评估的关键缺口。
τ-Rec 是一个面向智能体型推荐系统的评估基准,用可验证奖励和 reveal-tagged elicitation(RTE)机制替代主观的 LLM-as-a-judge 评估。该基准通过结构化目录谓词测试智能体,并采用 pass^k 可靠性指标衡量一致性推理。对五个模型族(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B 和 GPT-5 mini)的九种配置评估发现显著的可靠性悬崖:最佳模型在 pass^1 上仅约 57%,在 pass^4 上降至约 38%,暴露出当前对话智能体部署中的关键差距。全部代码和数据已公开。