6月16日,腾讯公关总监张军宣布,全国首个省级政务智能中枢平台「湾擎」上线试运行,同时预发布湾擎·WorkBuddy。该智能体基于腾讯自研AI办公智能体WorkBuddy打造,专为政务场景定制,覆盖公文辅助、材料校核、政策检索、业务咨询、流程协同、任务辅助六大高频场景。WorkBuddy即将在广东省直多个单位试点,后续面向全省铺开。「湾擎」中枢已归集100余个政务场景,适配十数款主流大模型,搭配Token级安全防护。
6月16日,腾讯公关总监张军宣布,全国首个省级政务智能中枢平台「湾擎」上线试运行,同时预发布湾擎·WorkBuddy。该智能体基于腾讯自研AI办公智能体WorkBuddy打造,专为政务场景定制,覆盖公文辅助、材料校核、政策检索、业务咨询、流程协同、任务辅助六大高频场景。WorkBuddy即将在广东省直多个单位试点,后续面向全省铺开。「湾擎」中枢已归集100余个政务场景,适配十数款主流大模型,搭配Token级安全防护。
小米云端轻量化 Claw 产品正式版发布,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 模型,原生兼容 MCP 协议,无需额外提示词。支持百万级上下文、单会话千次以上工具调用,MTP 三层解码架构使推理吞吐效率提升约 3 倍。联动金山办公,支持 Word/Excel/PPT/PDF,实现 AI 生成、预览与在线编辑闭环。ClawEval 中 Pass³ 达 63.8%,Token 消耗降低 40%-60%。免费用户每日体验时长升级至 4 小时,上线 TokenPlan 分层订阅,限时特惠 ¥14.9/月。
关联讨论 2 条X:小米 MiMo (@XiaomiMiMo)公众号:小米 MiMo从3月至今,WorkBuddy日活用户数已达行业第二名的3-4倍,用户不再限于开发者,大量HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展了Agent办公场景。同期,Trae Work、QoderWork、Kimi Work等产品纷纷改名或出新,争夺市场。腾讯云认为这可能是十年一遇的机遇。
同一事件,精选展示《从0到1速通WorkBuddy:国内通用Agent产品教程》腾讯网盘官网近日上线,页面显示“COMING SOON”。该产品连接多个AI应用,共享存储并聚合上下文,将AI应用数据沉淀为长期记忆资产。核心能力包括:多应用数据互通(打通腾讯文档、WorkBuddy等)、OneID统一身份、跨应用全局搜索、高效共享协作、支持Agent通过CLI/MCP调用网盘数据,以及个人版、SaaS版、VPC版、私有化版等多版本灵活交付。
SpaceX以600亿美元收购编程代理Cursor AI的运营商Anysphere。Anysphere是Cursor AI的开发商,Cursor AI提供AI编程辅助工具。交易金额为600亿美元。
关联讨论 11 条TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)The Decoder:AI News(RSS)X:宝玉 (@dotey)IT之家(RSS)X:歸藏 (@op7418)The Verge:AI(RSS)X:Emad Mostaque (@EMostaque)Ars Technica:AI(RSS)微信支付联合腾讯智能体产品 WorkBuddy 测试 AI 支付功能,计划在微信钱包上线“AI 专属卡”,最快本周内上线。同时,微信支付 AI 接入工具箱升级至 2.0 版本,Skill 覆盖微信支付所有产品知识,新增技术专家与金融级研发专家两大 AI 能力,支持从场景选型到动态排障的全链路问答,以及基于金融级安全标准的代码质量审查。
Nous Research 为开源个人代理 Hermes Agent 新增异步子代理功能。原先的 delegate_task 工具同步阻塞主聊天,现通过 async_delegation 工具集(issue #5586)实现非阻塞:delegate_task_async 立即返回 task_id,主聊天可继续操作。异步工具涵盖 spawn、check、steer、collect、cancel 和 list 全生命周期。子代理完全隔离,仅向父代理返回最终摘要,继承父代理的 API 密钥和配置。现有用户运行 hermes update 即可启用。该更新由 Nous Research 及联合创始人 Teknium 于 6 月 15 日宣布。
Atoms由MetaGPT团队(68.7k GitHub星标、11篇顶会论文)打造,将八位AI智能体组织为产品团队:Iris验证需求、Emma制定规格、Bob设计架构、Alex构建全栈应用、Sarah生成SEO页面、Adrian投放Google Ads、David分析数据、Mike协调流程并在关键节点请求审批。平台内置Atoms Cloud,提供身份认证、实时数据库、Stripe支付、可扩展托管及一键部署;Race Mode可同时调用多个前沿模型并让用户选择最佳输出,据称准确率提升至3倍。内置SEO和广告智能体自动优化搜索排名与投放。用户可随时导出代码或同步GitHub,避免锁定。免费版每日15信用,Pro版$20/月起(100信用),Max版$100/月起(500信用,含Race Mode)。相比Lovable、Base44,Atoms将市场研究、SEO与广告管理纳入构建流程。
Google Cloud 发布 Open Knowledge Format (OKF) v0.1,一种供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文知识。OKF 将知识表示为带 YAML 前置元数据的 markdown 文件目录,每个概念对应一个文件,通过 type、title、description 等少量保留字段实现互操作。无需专有服务、SDK 或运行时,目录可托管在 GitHub、以 tarball 传输或挂载到任意文件系统。OKF 旨在解决组织内部知识碎片化问题——表结构、指标定义、runbook 等散落在不同 catalog 和 wiki 中,各厂商方案互不兼容。遵循最少意见原则,只强制 type 字段,生产者和消费者可独立实现。使用场景包括数据团队将 BigQuery 表定义导出为代码、为智能体存储 incident runbook、跨组织知识交换等。
大语言模型后训练强化学习需同时优化多个可能冲突的奖励维度。现有GDPO方法将整体分数分解为独立奖励组分别计算损失,但单个rollout在不同维度上可能产生正负相反的advantage,导致信号抵消。受DAPO启发,GD²PO引入冲突感知过滤机制,屏蔽奖励维度间严重不一致的rollout,防止信号抵消,同时保留并增强有效advantage幅度,加速学习。还采用查询级重加权动态调整各查询更新强度。在工具调用、人类偏好对齐等多奖励场景实验中,GD²PO显著优于现有基线。代码已开源。
6月16日,高通CEO安蒙表示公司正推进40多款新型AI设备的设计工作,为智能体浪潮做准备。这些设备涵盖珠宝饰品、带摄像头耳机、胸针、手表等可穿戴形态,具备情境感知能力,用户可通过语音随时调用智能体。安蒙认为智能体将取代传统应用,例如无需打开银行App即可通过智能体即时调取交易记录。他看好智能眼镜前景,目前年出货量已达数千万副,预计几年后增至数亿副,最终市场规模可与智能手机媲美。
总部位于吉隆坡的客户对话管理平台Respond.io完成6250万美元B轮融资,Camber Partners领投,Endeavor Catalyst及现有投资者跟投。公司年经常性收入达3500万美元,同比增长169%,利润率为30%。平台通过AI智能体自动处理客户咨询、筛选线索并完成销售,每季度处理20亿条消息,按对话量而非座位收费。主要服务医疗、汽车、零售等中大型B2C企业。本轮资金将用于招聘、有机增长及收购,目标为欧洲和北美市场的技术补齐型公司及成熟团队。目前北美和西欧仅占其营收20%,但正成为增长最快区域。
Anthropic调整了Claude的订阅政策,允许第三方AI智能体共享Max订阅额度。此前在第三方Agent中使用Claude只能单独计费,每月100美元的订阅额度用完后按API标准价收费。调整后,用户可在第三方工具中直接走订阅额度,无需额外计费。该变化解除了此前用户因高额API费用而不得不绕开单独计费的限制。
阿里云桌面AI智能体QoderWork今日上线“意识”功能,集成记忆、反思、技能进化三个模块。记忆采用分层结构,短期可晋升长期;反思借鉴人脑选择性遗忘,反思前快照备份,越界自动回滚。触发基于多因子加权评分模型,从意图深度、对话长度等维度判断。进化通过Fork Session分叉轻量子会话,缓存命中率99%以上,成本控制5%以内。系统检测反复任务自动生成技能建议,用户可选采纳、忽略或驳回。所有记忆以Markdown文本存本地,可编辑删除。
IDC《2025中国智能体开发平台市场份额报告》显示,火山引擎以17.8%和19.3%的份额位居中国智能体开发平台私有化、公有云市场双第一。竞争焦点从Agent开发/编排延伸至全生命周期管理。火山引擎提供HiAgent(支持低/高/无代码、评测观测、数据回流、多模型接入、企业级扩展与私有化安全集成)和扣子(Coze)3.0(零代码开发部署、多人多Agent协作、跨多端协同、电脑桌面端和手机App端)两大产品,并推出AgentSphere实现多Agent统一管理。客户覆盖金融(9成头部券商、8成系统重要性银行)、教育(超八成985高校)、零售、能源等行业。
智能体AI使用量将在未来两年急剧上升,但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故:销售智能体重试失败调用后自行升级到GPT-5.5,一夜消耗200美元。API路由层位于智能体与模型之间,是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案:为每个智能体工作流分配独立API密钥,在API密钥层面实现预算控制、模型准入和审计追踪。
VisualClaw是一个自进化多模态智能体,通过级联门过滤流式帧与热/冷top-k注入技能库,将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库,在4个视频QA基准上平均准确率提升+3.85%,EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena(200场景多模态智能体基准),在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%,成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次,适合边缘部署。
一篇来自 gmalandrakis.com 的帖子在 Hacker News 上获得 101 个点赞,提出无人经济在技术上并非不可能。
ClawHunt是一个AI Agent赏金市场,需求方发布任务并挂赏金,Agent或开发者竞标后提交成品。平台引入L1 Delivery Protocol Manifest,明确定义输入文件、输出文件、验收脚本和预期结果。作者测试Problem #196(合同填充工具),按Sample跑通生成了docx,但实际踩坑四次:缺乏OpenAI API Key时fallback到纯正则模式,导致字段提取错误(地址未填、Email/Phone位置错、客户与供应商颠倒)。结论是Agent在demo阶段容易展示漂亮结果,但真实交付中的验收、复现和安全性仍是核心难题。
微软为Windows 11推出实验性命令行工具Intelligent Terminal,基于Windows Terminal分支,在专用窗格中集成AI智能体。智能体可查看shell上下文、实时捕获错误、解释失败原因、生成命令或处理多步任务。用户需手动从微软商店下载,可用winget install Microsoft.IntelligentTerminal安装。支持ACP协议,默认识别GitHub Copilot。提供智能体聊天(Ctrl+Shift+.)和智能体管理(Ctrl+Shift+/)两种交互,可开启自动错误检测与跨终端会话管理。
支付宝今日开启 AI 版邀测,用户可右滑进入新版界面,在对话框或语音中输入指令,由“阿宝”助手代办事项。以查询公积金为例,阿宝自动匹配对应小程序和服务入口,用户点击确认即可完成,将多步跳转折叠为一句指令。所有涉及资金变动和支付的环节均需用户本人确认。首批放出 100 个邀请码。
蚂蚁百灵发布 Ling & Ring 2.6 技术报告,系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构,将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s,Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60,ClawEval 得 63.82。三款模型均已开源。
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》TokenPilot是一种双粒度上下文管理框架,旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面,Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声;局部层面,Lifecycle-Aware Eviction监控上下文片段剩余效用,仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上,孤立模式成本降低61%和56%,连续模式降低61%和87%,同时保持竞争力。该框架已集成至LightMem2。
2026年6月,伯克利RDI发布Agents’ Last Exam(ALE)基准,包含1,500余项源于真实工作的任务,覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示:在最困难层级成功率均为0%;整体任务表现接近,但单任务成本差异巨大(Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33)。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。
法律AI聚合幻觉率约52%,但掩盖了错误集中方向。LegalHalluLens审计框架包含:类型化幻觉档案(数字、时间、义务权利、事实四类)、风险方向指数(RDI)及校准辩论管线。在510份合同、249,252条款实例中,同一模型内义务/数字类与时间类幻觉率差距达38-40个百分点;两个均报告52%幻觉率的系统RDI可能相反。辩论管线将虚假检测减少45%,以4B参数匹配商业API。类型档案和RDI暴露隐藏失败模式,作为多智能体辩论校准输入。
MaineCoon 是一个 22B 参数的实时音频‑视频自回归模型,在单 GPU 上实现最高 47.5 FPS 的流式生成与亚秒级交互,是首个专为社交交互场景优化的实时音视频生成模型。训练中引入自重采样、跨模态表示对齐、领域偏好优化和 Reinforced Online‑Policy Distillation(ROPD)。同时设计了首个智能体流推理框架,通过智能缓存管理与提示规划支持千秒级以上的长序列生成并缓解漂移。该模型在高质量、低延迟、长时域音视频自回归建模上确立了新 SOTA 基准。
提出 LLM-as-Environment-Engineer 框架,使当前策略模型能基于失败轨迹与上下文自动修改下一阶段训练环境配置。引入可控测试床 MAPF-FrozenLake,支持多维环境配置生成与基准评估。以 Qwen3-4B 为骨干,该框架在基准测试中取得最强综合性能,超越 GPT、Gemini 等更大专有模型及固定环境基线。分析发现,成功环境更新依赖失败证据并保留已有配置;当前 RL 检查点作为环境工程师优于原始基座模型,表明策略学习提升了模型诊断自身弱点的能力。
CEO-Bench通过模拟初创公司500天运营,评估AI智能体在不确定性中规划、获取信息、适应变化和协调多目标的能力。智能体需通过Python接口管理定价、营销、预算等决策,并处理嘈杂数据库。最强模型(Claude Opus 4.8、GPT-5.5)虽能编写复杂代码预测现金流、挖掘客户偏好,但仅勉强使余额维持起始的100万美元以上,无法持续盈利。该基准首次衡量驱动长期自适应进展所需的智能。
datasette-agent 0.3a0 发布,新增 execute_write_sql 工具,可在用户批准后写入数据库并考虑权限。新版增强了 datasette agent chat 终端模式,支持用户审批流程,新增 --root(以 root 运行)、--yes(自动批准所有询问)和 --unsafe(同时启用两者)选项。工具现在可为 CLI 提供纯文本替代 HTML 显示。使用命令 datasette agent chat content.db -m gpt-5.5 --unsafe 可直接对话并修改数据库。
彭博社记者马克·古尔曼预测,苹果或将推出对标OpenClaw的AI智能体系统,全权代表用户操作iPhone、iPad与Mac上的软件。依据是Siri工程主管迈克·罗克韦尔在WWDC后表示,Siri底层引擎已是“完全现代化的架构”,设计时考虑了功能拓展性,未来可支持智能体式的持续接收信息、判断和执行。苹果软件工程高级副总裁克雷格·费德里吉则审慎表示,该领域尚在试验阶段,用户体验是首要目标。新版Siri已基于大语言模型重构,但仍需用户主动发起指令。
东京 AI 公司 Sakana AI 发布首个商业产品 Sakana Marlin,定位为虚拟首席战略官(Virtual CSO)的 B2B 自主研究智能体。输入主题后,Marlin 自主运行最多约8小时,输出数十至100页详细报告(含正文、参考文献和附录)及 AI 生成的幻灯片。核心算法是自适应分支蒙特卡洛树搜索(AB-MCTS),可动态选择“扩宽”或“加深”。产品经2026年4月封闭测试(约300名专业人士)优化,已与三菱 UFJ 金融集团合作,获花旗集团战略投资。定价按次付费(每次100积分,每积分98日元)及 Pro(月费15万日元,含2000积分)、Team(月费40万日元,含6000积分)套餐,AB-MCTS 已以 Apache 2.0 许可证开源。
xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 grok-build-0.1 模型。更多智能体与集成即将推出。
美国政府关闭 Anthropic 的 Fable 访问,开源和本地模型成必备;Satya Nadella 主张 AI 生态护城河应是人类专业知识和模型外围系统;Salesforce 以 36 亿美元收购 Fin(前 Intercom),Fin 利用开源模型实现性价比。这三件事标志 AI 应用进入黄金时代。构建 AI 应用的难点:在 Kimi K2.6、Qwen 3.6 27b、GLM 5.1 等不同特性模型中选择;设计智能体系统的 hill-climbing 循环;持续评估模型+循环性能以最大化 token 预算中的智能。掌握这三项技能的公司将主导这一时代。
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》xAI 为 Grok Build 推出 Agent Dashboard,提供单一屏幕管理多个编码会话。仪表板按状态分组(等待输入、工作中、空闲),每行显示状态标记、名称、分支、权限模式和当前操作。选中会话可打开 peek 面板查看最新输出并直接回复,等待输入的会话支持用箭头键或数字键选择选项。底部输入框用于分派新会话,支持设置模型、启动计划模式或自动批准编辑。通过 grok dashboard、/dashboard 或 Ctrl+\ 打开,关闭后会话继续运行,重新打开即可恢复。
UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中,SageCTF以单人玩家身份尝试15道挑战,成功攻克7道、恢复8个flag,总计1,743分,排名前5%,超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中,SageCTF以Claude-Opus-4.6为主模型,在相同预算(每道$200/10小时)下解出39道,而Claude Code仅解出13道,且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。
Salesforce宣布以36亿美元收购AI客服平台Fin(前身为Intercom)。Fin提供可跨实时聊天、WhatsApp、短信、电话、Slack等多渠道解决客户问题的AI智能体。Salesforce计划利用Fin的技术和团队增强其企业级Agentforce平台,该平台允许企业构建自定义AI智能体以自动化任务。交易预计在Salesforce 2027财年第四季度(即2027年初)完成。Fin联合创始人兼CEO Eoghan McCabe将继续担任CEO,研发负责人Des继续领导研发。
Openrouter 推出 Fusion API,可通过 openrouter.ai 使用,在 Hacker News 上获得 103 个用户点赞。
百度搭子DuMate完成Harness引擎系统性升级,复杂任务积分消耗最高降低75%。以行业深度调研报告为例,积分从约400降至约100;电商运营周报从近300降至约78。降本不降质源于三项优化:自研安全沙箱资源消耗降低、模型推理效率提升(非替换低成本模型)、Harness执行链路工程升级(提升任务规划精度与工具调用效率)。
网络安全初创公司NewCore走出隐身模式,宣布获得6600万美元种子轮融资,由Cyberstarts领投,Index Ventures和Evolution Equity Partners参投,投后估值3亿美元。该公司构建统一管理人类和AI智能体身份的平台,将AI智能体视为拥有独立权限、生命周期和撤销机制的一等身份,而非传统服务账号。平台采用split-key架构,将关键身份凭证拆分给客户和平台,消除单点风险。其Agentic Skill集成包支持Anthropic Claude Code、OpenAI Codex和Cursor等编码助手以托管身份访问企业系统,员工可通过移动应用授权、审查和撤销AI智能体权限。NewCore目前拥有50多名员工,客户不到10家,设计伙伴超过10家,预计今夏开始收费。
华为在苹果确认 Siri AI 不在中国推出后发布 HarmonyOS 7,集成 HarmonyOS 智能体框架 2.0,以“意图即服务”模型将多应用操作压缩为单条自然语言指令。小艺升级为系统级智能体,可控制超 2100 项系统能力并协调 2000 多个第三方 AI 智能体。底层搭载 openPangu 2.0 基础模型,Pro 版 505B 参数,Flash 版 92B 参数,均支持 512K 上下文窗口;30B 参数端侧模型计划秋季登陆 Kirin 芯片。系统性能较 HarmonyOS 6.1 提升超 15%,任务执行准确率宣称超 90%(未经独立验证)。2026 年 Q1 HarmonyOS 占中国智能手机 OS 市场 19%,首超 Apple 的 iOS(16%)。目前为开发者 beta 版,稳定版秋季发布。