微信Agent小微灰度内测已开始,主入口位于微信首页左上角,支持给好友发消息和红包(需确认),但无法读取聊天记录或向群聊发消息。群聊和私聊的“问小微”子入口则可读取聊天记录并支持群发。小微可创建日程提醒、待办、总结朋友圈,打通公众号和视频号进行问答。收藏仅可读取小微自建笔记。内置“小工具”功能,支持语音创建简易小程序(暂不可发布),还可调用第三方小程序。
关联讨论 1 条公众号:数字生命卡兹克微信Agent小微灰度内测已开始,主入口位于微信首页左上角,支持给好友发消息和红包(需确认),但无法读取聊天记录或向群聊发消息。群聊和私聊的“问小微”子入口则可读取聊天记录并支持群发。小微可创建日程提醒、待办、总结朋友圈,打通公众号和视频号进行问答。收藏仅可读取小微自建笔记。内置“小工具”功能,支持语音创建简易小程序(暂不可发布),还可调用第三方小程序。
关联讨论 1 条公众号:数字生命卡兹克PlanBench-XL是一个交互式基准测试,包含327个零售任务和1,665个工具,用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性,迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示,GPT-5.4在无阻塞条件下准确率为51.90%,最严重阻塞下骤降至11.36%。分析表明,当故障缺乏明确错误信号或恢复需要更长替代工具路径时,智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。
Netflix 高级工程师 Tejas Chopra 开发的开源工具 Headroom(v0.26.0)在 AI 应用与 LLM 间建立本地透明压缩层,通过压缩 JSON、代码、RAG 片段和对话历史等冗余数据减少 Token 消耗,支持可逆压缩与 CCR 缓存机制。实测代码搜索场景 Token 从 17765 降至 1408(节省 92%),SRE 事故调试场景从 65694 降至 5118(同样节省 92%)。累计帮助用户节省约 70 万美元成本、释放超 2000 亿 Token。提供 Python/TypeScript 库、智能体代理模式、直接包装现有 AI 编程智能体以及 MCP 服务器模式,并可精简 AI 回复中客套话进一步降低成本。
MCP 相较于 skills/CLI 的关键优势在于,它能将认证流程隔离在 Agent 的上下文窗口之外,甚至完全脱离 Agent 框架。其理想形态可能仅仅是作为 API 的认证网关——即便如此也是一项胜利。
客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中,易导致信息过时或策略违规。LedgerAgent 是一种推理时方法,将观察到的任务状态单独维护于分类账中并渲染到提示词;在改变环境的工具调用前,用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上,LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法,在多轮一致性指标上提升最大。
Cloudflare 在 Workers 上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 wrangler deploy --temporary,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。
Humanize PPT v0.9 是一款专为演讲场景设计的PPT Skill,核心通过AST(Audience, State, Transfer)逻辑重新编排大纲,将页面渲染外包给下游Skill。渲染前先输出4张真实预览页,并将图片、视频素材的占位与生成prompt写入大纲。新增质检环节自动修复常见渲染问题,并支持演讲模式:按S键在独立窗口显示演讲稿备注,按ESC键打开全局索引快速跳页。项目已开源至github.com/LearnPrompt/humanize-ppt,由卡尔 & yc星辰开发。
Agent Builder 正式上市(GA)。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类,分别存入独立索引,各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合,再经交叉编码器重排序。在 168 道 QA 题评估中,R@10 平均 0.89,零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问,不绑定特定运行时,已开源至 GitHub。
研究指出聚合分数排行榜无法反映部署场景真实表现,排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现,涵盖多模态扩展、编排、检索、推理、基础设施及评估探针,并合并7个先前智能体基准。提出以预测有效性(样本内与样本外排名相关性)替代均值排名,构建12层测量框架,暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准,最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。
Enterprise-Managed Authorization (EMA) 扩展现已稳定。该扩展允许组织通过受信任的身份提供商(如 Okta)集中控制 MCP 服务器的访问权限。终端用户首次登录即可自动连接所有已授权的 MCP 服务器,无需逐个执行 OAuth 授权。Anthropic 已在 Claude、Claude Code 和 Cowork 中实现该扩展,Visual Studio Code 也已支持。Asana、Atlassian、Canva、Figma、Granola、Linear、Supabase 等服务器已启用 EMA,Slack 正在添加支持。Microsoft、Okta 等也参与了采用。
hermes claw migrate 命令可将 OpenClaw(及遗留的 Clawdbot/Moldbot)配置导入 Hermes,包括角色(SOUL.md)、工作区指令(AGENTS.md)、长期记忆、用户画像、技能(来自 4 个来源)、默认模型、自定义提供商及 API 密钥等。迁移前会展示完整预览并确认。支持 --dry-run 预览、--preset full 全量迁移(API 密钥需额外指定 --migrate-secrets)、--overwrite 覆盖冲突、--no-backup 跳过备份等选项。默认读取 ~/.openclaw/,旧版目录自动检测。技能冲突可设为跳过、覆盖或重命名。迁移前自动创建 ~/.hermes/backups/ 备份,可用 hermes import 恢复。
从今日起,Claude Code 可将工作进度生成为 artifacts——实时、可分享的交互式网页,涵盖 PR 走查、系统说明、仪表盘、发布清单等。artifacts 基于会话完整上下文(代码库、连接器、对话)自动构建,更新时页面原地刷新,同事即时可见。默认仅作者可见,可分享给组织内成员,由管理员通过组织层级开关和角色权限管控。内部测试中最常见用例为调试:工程师调查事件,Claude Code 分析日志并发布包含时间线、嫌疑提交和错误率图表的 artifact,团队无需再“走过场式汇报”。
Claude Enterprise 推出企业托管授权功能,管理员可通过身份提供商(率先支持 Okta)为整个组织配置 MCP 连接器。用户首次登录 Claude 时自动获得授权,无需手动操作,实现零接触设置。该功能基于 Model Context Protocol 的 Enterprise-Managed Authorization 扩展构建,支持 Asana、Atlassian、Canva、Figma、Granola、Linear、Supabase 等 MCP 提供商,Slack 即将支持。授权管理集成到现有 IdP 工作流中,可按组限定范围、通过 IdP 快速撤销授权,并支持要求连接器仅通过 IdP 连接以隔离工作与个人使用。
Claude Code 提供七种自定义指令方式:CLAUDE.md(根目录始终加载,子目录按需加载)、规则(无范围或路径范围)、技能(按需调用,共享 token 预算)、子智能体(隔离上下文运行并返回最终消息)、钩子(生命周期事件触发,绕过压缩)、输出样式(注入系统提示,永不压缩)和附加系统提示(CLI 标志,仅单次有效)。每种方式在加载时机、压缩行为、上下文成本和适用场景上各有不同,例如 CLAUDE.md 适合存放构建命令与编码规范,路径范围规则避免无关上下文消耗,子智能体用于并行隔离任务,钩子用于确定性自动化(如运行 linter 或备份聊天记录)。
月之暗面旗下 Kimi Work(Beta 版)新增「目标模式」,支持设定终点后由 Agent 自主循环推进任务,最长连续运行24小时,过程中人类可随时中断调整。同时上线「插件中心」,可选装百度网盘、Canva可画、钉钉、飞书、WPS、Notion、Cloudflare 等外部应用。6月限时福利期间,Kimi 电脑客户端 Work 模式所有任务会员额度消耗减半,即从0.02%降至0.01%。
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式,旨在结合两者优势。A2UI 采用声明式框架,通过 JSON payload 定义 UI,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 MCP 服务器提供 A2UI,利用 MCP Resources 或 Tool 调用传递 JSON,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。
6月17日,Claude Design 更新,支持跨项目使用统一设计系统,并与Claude Code同步工作流。用户可直接拖拽、对齐和缩放画布元素,编辑器稳定性大幅提升。设计系统可从GitHub、设计文件或原始上传导入,团队管理员可锁定标准系统防止篡改。新增桌面端侧边栏入口及独立网页端claude.ai/design。使用限制与聊天、Claude Cowork、Claude Code共享,每次任务消耗更少token,错误率下降。支持导出PDF、PPT,集成Adobe、Canva、Gamma等工具。发布首周用户超一百万。
关联讨论 3 条X:Replit (@Replit)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)微软、谷歌、GoDaddy、Hugging Face 等联合起草的 Agentic Resource Discovery (ARD) 规范发布。该开放标准定义静态清单 ai-catalog.json 和动态注册表 API(POST /search),使智能体运行时通过自然语言搜索发现能力,无需预装。Hugging Face 推出参考实现 Discover Tool,集成 Hub 语义搜索与 Agent Skills,覆盖数千个 Skills、ML 应用和 MCP 服务器;支持 CLI(hf discover search)、REST API 或 MCP Server 按 media type 筛选运行时状态为 RUNNING 的 Space 或 MCP 标签条目。
Agentic Resource Discovery(ARD)是一项开放规范,用于在Web上发布、发现和验证AI工具、技能与智能体。它基于两个原语:组织在其自有域名下托管catalog描述可用能力,registry作为搜索引擎索引catalog并响应发现请求。ARD支持加密验证,使客户端与端点连接前确认发布者身份,然后直接通过原生协议调用能力。Google Cloud的Gemini Enterprise Agent Platform通过Agent Registry提供企业级支持,包括URN命名、出站策略、工具固定和基于Agent Identity的信任验证。该规范现已发布,开发者可通过托管ai-catalog.json文件使其服务可发现。
本周三,Pinterest 发布实验性应用 Ask Pinterest,通过对话式界面实现个性化购物推荐。该应用基于其 Taste Graph 数据映射用户兴趣与审美,支持多步查询(如规划晚宴),并能利用用户保存的 Pin 和 Board 进行个性化回答。初期仅限有限访问。同时,Pinterest 还推出了面向美国广告商的 AI 助手(Ads Manager 内测版)、全球上线的 Performance+ 创意模型,以及 Pinterest MCP,让广告商通过标准化第三方智能体工具管理广告活动。
微信支付正式发布 AI 专属卡,授权接入 Agent 后,用户只需在对话中提出消费需求,即可体验从智能推荐到下单支付的自动化消费。目前已支持在 WorkBuddy 里使用美团服务(Mac 端升级至 5.1.1 即可体验),未来将支持更多平台。安全方面,AI 专属卡与微信支付主账户完全隔离,余额由用户设定并可随时调整,每笔订单需用户最终确认才能完成支付。
Anthropic暂停Claude Agent SDK按API Token计费变更计划。该开源SDK允许通过Python或TypeScript调用Claude Code底层能力。原计划6月15日起将外部SDK调用从标准订阅改为按API费率计费,订阅用户仅获等额抵扣。开发者指出以Opus作为编码助手成本将快速超支,Zed团队警告成本大增。Anthropic于6月15日更新支持页面称“暂停所述变更,目前没有任何变化”,正在优化计划。
OpenRouter 推出 openrouter:subagent 服务器工具,允许前沿模型在生成过程中将独立的琐碎任务(如文档总结、结构化数据提取、文本重格式化)委托给更小、更便宜、更快的 worker 模型执行,从而节省前沿模型的 token 消耗。
小米推出云端轻量化 Claw 类产品 MiMo Claw 正式版,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 旗舰模型。该模型原生兼容 MCP 工具调用协议,内置百万级超长上下文,支持单会话千次以上连续工具调用;依托 MTP 三层解码架构,在 OpenClaw 标准 Agent 工作流中吞吐效率提升约 3 倍。ClawEval 测试中任务达标率(Pass³)达 63.8%,Token 消耗较同类产品降低 40%-60%。联动金山办公生态,提供 Word、Excel、PPT、PDF 等格式的 AI 生成、预览与在线编辑一站式服务。免费用户每日单次体验时长从1小时升级至4小时,面向高频用户推出 TokenPlan 分层订阅(Lite/Standard/Pro/Max),支持灵活叠加,限时定价14.9元/月、19.9元/月、233.8元/年。
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)小米云端轻量化 Claw 产品正式版发布,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 模型,原生兼容 MCP 协议,无需额外提示词。支持百万级上下文、单会话千次以上工具调用,MTP 三层解码架构使推理吞吐效率提升约 3 倍。联动金山办公,支持 Word/Excel/PPT/PDF,实现 AI 生成、预览与在线编辑闭环。ClawEval 中 Pass³ 达 63.8%,Token 消耗降低 40%-60%。免费用户每日体验时长升级至 4 小时,上线 TokenPlan 分层订阅,限时特惠 ¥14.9/月。
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)腾讯网盘官网近日上线,页面显示“COMING SOON”。该产品连接多个AI应用,共享存储并聚合上下文,将AI应用数据沉淀为长期记忆资产。核心能力包括:多应用数据互通(打通腾讯文档、WorkBuddy等)、OneID统一身份、跨应用全局搜索、高效共享协作、支持Agent通过CLI/MCP调用网盘数据,以及个人版、SaaS版、VPC版、私有化版等多版本灵活交付。
Anthropic 暂停了原定 2026 年 6 月 15 日生效的计费改革。原计划将 Agent SDK、claude -p 命令及第三方应用从订阅限制中分离,改为按套餐给予月度积分(Pro 用户 20 美元,企业最高 200 美元),超出后转为 API 按用量计费。该方案此前已引发 OpenClaw 开发者不满,指责 Anthropic 吸收功能后封锁开源替代。Anthropic 现已撤回,称计费不变,相关使用仍计入常规订阅额度。反转可能受与 OpenAI 价格战在即、Anthropic 已提交 IPO 申请,以及美国政府要求对非美国公民关闭 Fable 5 和 Mythos 5 访问的多重压力驱动。
Nous Research 为开源个人代理 Hermes Agent 新增异步子代理功能。原先的 delegate_task 工具同步阻塞主聊天,现通过 async_delegation 工具集(issue #5586)实现非阻塞:delegate_task_async 立即返回 task_id,主聊天可继续操作。异步工具涵盖 spawn、check、steer、collect、cancel 和 list 全生命周期。子代理完全隔离,仅向父代理返回最终摘要,继承父代理的 API 密钥和配置。现有用户运行 hermes update 即可启用。该更新由 Nous Research 及联合创始人 Teknium 于 6 月 15 日宣布。
Google Cloud 发布 Open Knowledge Format (OKF) v0.1,一种供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文知识。OKF 将知识表示为带 YAML 前置元数据的 markdown 文件目录,每个概念对应一个文件,通过 type、title、description 等少量保留字段实现互操作。无需专有服务、SDK 或运行时,目录可托管在 GitHub、以 tarball 传输或挂载到任意文件系统。OKF 旨在解决组织内部知识碎片化问题——表结构、指标定义、runbook 等散落在不同 catalog 和 wiki 中,各厂商方案互不兼容。遵循最少意见原则,只强制 type 字段,生产者和消费者可独立实现。使用场景包括数据团队将 BigQuery 表定义导出为代码、为智能体存储 incident runbook、跨组织知识交换等。
Anthropic调整了Claude的订阅政策,允许第三方AI智能体共享Max订阅额度。此前在第三方Agent中使用Claude只能单独计费,每月100美元的订阅额度用完后按API标准价收费。调整后,用户可在第三方工具中直接走订阅额度,无需额外计费。该变化解除了此前用户因高额API费用而不得不绕开单独计费的限制。
datasette-agent 0.3a0 发布,新增 execute_write_sql 工具,可在用户批准后写入数据库并考虑权限。新版增强了 datasette agent chat 终端模式,支持用户审批流程,新增 --root(以 root 运行)、--yes(自动批准所有询问)和 --unsafe(同时启用两者)选项。工具现在可为 CLI 提供纯文本替代 HTML 显示。使用命令 datasette agent chat content.db -m gpt-5.5 --unsafe 可直接对话并修改数据库。
微信支付 AI 接入工具箱升级至 2.0 版本,全面支持中、英、日、韩、法、俄、葡、西、阿拉伯语共 9 种语言。Skill 从仅覆盖“支付”和“券”升级为全线覆盖所有产品知识,新增技术专家(全链路问答、动态排障)和金融级研发专家(代码质量审查)。新增 CLI 动态排障,支持自然语言查询支付单、退款单实时状态。文档时序图和状态图转为 Mermaid 格式,整体 Token 消耗比原始 HTML 降低 50%。Skill 启动时自动比对本地与官网知识库版本差异并触发同步。
Google Cloud 发布 Open Knowledge Format (OKF),一种将分散的组织知识标准化为带 YAML frontmatter 的 Markdown 文件的极简规范。OKF 使知识可移植且可直接供 AI 智能体使用,正式化了 Andrej Karpathy 近期推广的 “LLM Wiki” 模式。
Paca 是一款面向人类与 AI 智能体协作场景的轻量级项目管理工具,旨在替代 Jira。项目已开源并托管于 GitHub,支持团队通过直观界面协同管理任务,特别针对 AI 参与工作流进行了优化。
火山引擎 Agent Plan Harness 新增专业数据搜索服务,通过 Data MCP 接入股票金融、企业工商、学术论文三类数据源。用户可用自然语言搭建个人投资助手,自动生成带引用的个股简评并定时监控盘后风险。配置 Base URL、获取 API Key、安装 Data MCP 三步即可上手。即日起至8月7日,Agent Plan 首两月2.5折,入门版9.9元/月,热门模型用量提升2.5倍。
6月12日,字节跳动旗下AI应用豆包大范围上线“任务模式”,支持定时执行、零代码网页生成、一键PPT生成、数据可视化分析等全链路Agent执行。原“思考模式”升级为“专家模式”,调用豆包大模型2.0 Pro版本,强化深度推理能力。App顶部模式切换改为“快速、专家、任务”。基础功能免费,高阶服务付费,专业版三档:标准版68元/月或688元/年,加强版200元/月或2048元/年,专业版500元/月或5088元/年。
Nous Research 于 6 月 11 日发布 Hermes Agent 的 Profile Builder,将分散的命令行配置整合到网页端。用户通过 Dashboard 可在五步内完成智能体角色创建:设置身份名称与描述、选择模型与服务商、开关内置技能、从 Skills Hub 安装技能、配置 MCP 服务器,最后检查预览。技能以 SKILL.md 形式存储,智能体先读取短描述,命中任务再加载全文。MCP 服务器支持 HTTP URL 和本地 stdio 命令,Nous 批准的目录可一键安装并内联提示输入密钥。Hermes Agent 为开源智能体,主打记忆用户习惯并自动构建技能库。
华为在 HDC 开发者大会上宣布鸿蒙 HarmonyOS 7 升级小艺智慧大脑,采用 Agentic 自演进架构,系统能力全面 Skill 化。新小艺支持规划、工具(2100 项系统能力)、记忆(200+ 用户数据)和执行框架,并公布 Skills 示例:制定训练计划、打包资料、预约打车。还支持用户创建个人 Skill 及 Vibe Coding。
HarnessBridge是一个轻量级可学习调控控制器,将智能体-环境接口参数化为双向投影:观测投影将原始轨迹蒸馏为紧凑、决策相关状态,动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练,HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案,同时大幅减少token使用和轨迹长度,并从小型生成器泛化到更大商业模型。
xAI 推出 Grok Build 插件市场,这是一个终端内插件平台,支持技能、智能体、钩子和 MCP 服务器。所有远程插件均通过 commit-SHA 验证确保安全。首发插件包括 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 及 Superpowers。