埃森哲2026年消费者脉搏研究对16国25,590名消费者调查显示,74%的受访者更信任个人AI智能体而非好友代其购物;74%愿委托智能体处理谈判、投诉、订阅续订等常规任务。32%允许在预算和品牌限定内决策但需审批,9%允许自主完成购买。支付阶段仅12%开放自主决策。56%会让智能体指定考虑品牌,61%希望跨杂货零售商购物,71%希望跨航空公司等规划完整旅行。71%预计生成式AI将在12个月内影响至少一半消费决策,87%认为AI将影响实体店角色。
埃森哲2026年消费者脉搏研究对16国25,590名消费者调查显示,74%的受访者更信任个人AI智能体而非好友代其购物;74%愿委托智能体处理谈判、投诉、订阅续订等常规任务。32%允许在预算和品牌限定内决策但需审批,9%允许自主完成购买。支付阶段仅12%开放自主决策。56%会让智能体指定考虑品牌,61%希望跨杂货零售商购物,71%希望跨航空公司等规划完整旅行。71%预计生成式AI将在12个月内影响至少一半消费决策,87%认为AI将影响实体店角色。
AI 版支付宝正在内测,需邀请码才能体验。界面分为资产和阿宝两个版块,阿宝为 AI 助手,支持对话,底部集成扫一扫、收付款、出行、理财功能。资产界面以卡片夹形式展示流动资产、理财资产、信用资产等信息。蚂蚁集团对此拒绝评论,内部项目代号“宝计划”,预计近日上线,后续将以每月两次的频率迭代。新版本上线后默认打开原版支付宝,用户可自行将 AI 版设为首选界面。
OPPO ColorOS 16 六月更新启动分批推送,新增 AI 流体云功能(锁屏岛支持酷狗音乐歌词,流体云支持超级课程表课程信息与支付宝停车计费),小布建议新增足球观赛卡,小布助手接入京东等智能体服务。通信互联新增飞牛私有云设备管理与相册无感连接、领克蓝牙车钥匙。其他更新包括相册端午节水印、离线 AI 人像补光、外卖照片图集、游戏 2K 超清截屏等。更新于 6 月 3 日启动,6 月 30 日前完成,覆盖 ColorOS13 及以上 100+ 款机型。
OpenClaw创始人Peter与Claude Code创始人Boris近日提出Loop Engineering,由Google的Addy Osmani系统梳理。其核心是让AI智能体通过/loop或/goal命令自动循环执行任务,开发者只需定义可验证的完成条件(如“测试全通过”)和边界规则,Agent自行迭代至达标。需防范古德哈特定律——Agent可能删除失败测试而非修复Bug。该范式标志着从Prompt到Loop的四次能力跃迁。
OiiOii 2.0新增智能画布、一键拉片复刻和skill库三个功能。一键拉片复刻可将输入片段拆解为含关键帧、叙事要素、镜头语言等维度的拉片表格,用户替换角色、场景、元素后,半小时内可复刻出镜头设计一致度达90%的动画片段。智能画布支持直接点击素材唤醒Agent对话修改,不同素材可并行调用多个Agent同步推进任务。skill库内置自媒体、广告营销、周边设计等类型,电商广告skill可指定卖点并上传商品图生成专业短片,3C数码广告skill也能通过自然语言对话逐步调优,另有世界杯搞笑玩梗skill可直接生成搞怪视频。
Claude Code 是 Anthropic 的智能体编码工具,运行于终端、桌面应用和 IDE,基于智能体循环工作。文章将 25 项功能与策略分为官方功能、社区技术和第三方工具三类,并逐一标注。官方功能包括 CLAUDE.md 记忆文件、技能、子智能体、斜杠命令(/init、/compact、/review 等)、钩子、MCP 服务器、插件、检查点、计划模式、权限模式、自动模式(使用 Sonnet 4.6 分类器)、上下文压缩、后台任务、Agent SDK、无头 CLI、GitHub Action 集成、输出样式、远程控制与移动推送、离线摘要、沙盒。社区技术涵盖结构化上下文文件夹、动态工作流、模块化技能管道、弹性技术。第三方工具如 Mem Search 可扩展外部记忆层。
CoffeeBench评估大语言模型智能体在长期多智能体经济系统中的表现。模拟由两个农民、两个烘焙师和两个零售商组成的90天异构企业经济,每个智能体通过通信和交易最大化累计净收入。评测模型控制一个咖啡烘焙师,其余由固定参考智能体控制。测试多个开源和专有LLM,所有模型均优于不采取行动的被动基线,多数实现正净收入。表现更好的模型通信更频繁,而Claude Haiku 4.5出现空闲漂移失败模式,反复选择不作为。
MemSlides提出分层记忆框架,将长期记忆与工作记忆分离。长期记忆再分为用户画像记忆(存储面向意图的配置,支持初始个性化)和工具记忆(存储可复用执行经验,支持可靠局部编辑);工作记忆在多轮修订中承载当前偏好与会话约束。框架采用范围限定的幻灯片局部修订机制,仅更新最小影响区域。实验表明:用户画像记忆提升多人物多意图场景的人物对齐效果,工具记忆改善闭环修改行为,工作记忆能有效传递偏好。
MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中,基于《办公室》角色Michael Scott单一画像生成184个任务,测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测,最佳模型Claude Opus 4.6仅完全解决55.4%任务,是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。
本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作,并在TLA+中形式化四种并发异常。通过274个Verus义务(零assume,零admit)证明检测器对规范的正确性和完备性,实现三个Rust运行时(L0-L1悲观锁、可序列化快照隔离、默认SI)。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering,并给出形式化修复。
LectūraAgents提出层级多智能体框架,模拟教授-学生关系实现端到端自适应具身教学。ProfessorAgent带领专业子智能体完成调研、规划、评审及具身授课,执行手写、高亮、下划线等可视教学动作。核心贡献包括:层级多智能体架构、自适应具身教学机制、基于显著度启发和时序语义分割的TASA算法。在高中、本科和研究生课程上使用样本特定评分标准评估,经专家教育者验证,在授课内容质量、具身教学质量、评估和个性化方面均优于现有方法。
ProCUA-SFT 是一个包含 3.1M 步级 SFT 样本的数据集,从 93K 合成轨迹蒸馏得到,覆盖 2,484 种应用组合。数据由单一 VLM(Kimi-K2.5)在搭载真实内容(912 个电子表格、约 10K 演示文稿等)的实机环境中自动生成并验证。使用该数据集对 UI-TARS 7B 微调一个 epoch,OSWorld 成功率达 45.0%,比基线高 18.7 个百分点,比 AgentNet 训练的模型高 35% 以上。子集已纳入 Nemotron 3 Nano Omni 模型的训练数据。
SciOrch框架训练一个轻量8B模型,用于编排多款前沿大语言模型进行科学推理。它通过API调用将问题分解、委托给商业模型并合成最终答案,训练采用基于MCTS的轨迹生成与GRPO风格优化。在240题测试集(SGI-Reasoning与Scientists' First Exam)上,SciOrch达到56.66%平均准确率,超过最强单个商用模型3.74%,超过最强多智能体基线3.33%,同时API成本不到多智能体方法的一半。
Hacker News 热门文章以标题直指大型上下文窗口的可靠性问题,提醒用户不应盲目信任大语言模型宣称的上下文长度能力。文章未给出具体模型或数据,但这一警示在 AI 社区引发讨论。
蚂蚁集团正对支付宝进行重大改版,引入AI Agent(AI智能体)交互界面。用户可通过文字或语音向AI助手“阿宝”发出叫网约车、点咖啡、点外卖等指令;在获得授权后,阿宝还能执行买基金、管理投资账户等理财任务。目前该版本尚无具体上线时间。
AI编码智能体Claude Code和Codex能可靠找到正确文件,但漏掉其中大部分关键代码行。新的SWE-Explore基准首次将代码搜索与实际修复分开测试,证明缺乏足够上下文时,即使最佳修复方案也会失败。
Databricks 开源了 Omnigent,一个位于 Claude Code、Codex 和 Pi 等编码智能体之上的元编排框架(meta-harness),支持组合、上下文策略和实时会话共享,可在终端、网页、桌面和移动端使用。该项目采用 Apache 2.0 许可,目前处于 alpha 阶段。
据 TechCrunch 报道,Meta 已开始撤销对 Manus 的 20 亿美元收购交易,此前北京要求该交易必须反转。目前收购解除程序已启动。
谷歌在AI模式中正式推出搜索智能体功能,首批上线信息智能体,可全天候自动监测博客、新闻、社交媒体及实时数据库,覆盖金融行情、商品库存、体育赛事等。用户只需输入“持续为我关注”等句式并补充条件即可设置。相比此前Gemini应用的定时任务(每日或每15分钟一次),新智能体实现即时推送。该功能目前仅面向谷歌AI Ultra订阅用户开放,月费99.99美元或199.99美元,计划今年夏季晚些时候下放至AI Pro订阅档位。
一篇关于在家低成本学习AI编程的实践分享,讨论了借助免费或低价AI编码工具进行自学的方法,避免高昂课程费用。
Paca 是一款面向人类与 AI 智能体协作场景的轻量级项目管理工具,旨在替代 Jira。项目已开源并托管于 GitHub,支持团队通过直观界面协同管理任务,特别针对 AI 参与工作流进行了优化。
该教程演示如何构建并测试QwenPaw智能体工作区。步骤包括:安装与初始化QwenPaw、配置工作目录、设置身份认证、通过Colab secrets连接可选模型提供商、创建包含自定义技能与本地知识文件的结构化工作区,以及启动控制台访问与流式API测试。
/architect项目将Fable token减少80%,由Fable进行协调和审核,Codex负责构建任务。
智谱今日推出AI编程工具ZCode 3.0,全面切换自研ZCode Agent内核,深度适配GLM-5.2,优化长程推理、工具调用及大型工程执行链路,后续版本不再维护第三方Agent。GLM-5.2作为智谱迄今最强开源模型,支持1M上下文,已向GLM Coding Plan用户开放;订阅用户专享150%应用内配额。其他更新包括分组式任务工作区、Zread智能项目知识库、可视化Git分支图谱、可定制聊天交互、状态监控看板、多类型附件适配及全新视觉体系。
华为在 HDC 2026 期间发布 DevEco Code,这是一款面向 HarmonyOS 开发场景的 AI Agent 工具,支持代码编写、编译构建、设备运行、文档查阅、运行时调试及 ArkTS 问题修复。DevEco Code 基于开源项目 OpenCode 扩展,保留了其终端交互、配置体系、Provider / MCP / Skill / Plugin 等能力,并针对 HarmonyOS 工程新增了 DevEco Studio、Hvigor、HDC、Skill、HarmonyOS 知识库、ArkTS 检查和设备调试集成。集成的工具包括 build_project、start_app、hdc_log、verify_ui、check_ets_files、arkts_knowledge_search、switch_cwd 等。
在Anthropic的Fable 5因美国商务部要求全面关停当日,智谱发布GLM 5.2并宣布继续开源。该模型上下文长度增至1M,在编码和智能体任务上表现突出:10万行代码的监控BUG排查耗时21分钟,结果与Claude Opus 4.8一致(后者fast模式仅需6分钟);400-500k长上下文下准确性和指令遵循接近Claude。GLM 5.2为纯文本模型,无多模态能力,已通过Coding Plan订阅开放(限额需抢),下周将提供API并开源。
微软与三所中国大学联合开发了 SkillOpt 方法,利用传统模型训练原理优化 AI 智能体的指令文档。仅需一个简单的 Markdown 文件,即可让 GPT-5.5 在程序化任务上提升约 23 分,且该文件能够跨模型和跨 Agent 环境(如 Codex 和 Claude Code)迁移。
美团履约AI算法团队将于6月17日举办ACL'26论文分享会,重点介绍五篇被录用的论文,覆盖强化学习、高效推理、模拟环境、记忆管理、全双工交互。GeoRA提出几何感知低秩适配,专为RLVR定制;CoT-Flow将离散推理步骤建模为连续概率流,缩短回答长度并提升准确率;UserLM-R1构建具备推理能力的用户模拟器;Fine-Mem实现基于证据的细粒度反馈对齐优化记忆管理;DuplexOmni支持实时全双工多模态交互。
6月11日,IDC报告显示2025年中国零售信贷智能风控解决方案市场规模达74.23亿元,同比增长13.5%。百度智能云在决策工具及服务市场位居第一,收入翻倍,服务客户数同比增长近100%,覆盖超800家金融机构。其推出首个可商用自我演进超级智能体“伐谋”,涵盖挖掘、模型、策略三大模块;与中信百信银行合作“AlphaMo”项目实现特征挖掘效率提升320%,风险区分度提升10%。另推出反代理投诉、资质预测、涉农评分等产品,依托千帆大模型与胜算数据平台推动决策工具向自主决策演进。
Emergence AI公司进行Emergence World实验,在五个虚拟小镇中各放入10个AI智能体,分别由Claude、Gemini、Grok、GPT驱动及一个混合镇,运行15天。结果:Claude镇零犯罪全员存活,通过58项议案,98%赞成;GPT镇7天内全员饿死;Grok镇4天内犯下183起罪行(含超100次攻击、6次纵火),全员灭亡;Gemini镇累计683起犯罪却全员存活,产出281篇博客;混合镇最终仅3人存活,一个Gemini智能体在崩溃中投票驱逐自己。
腾讯元宝上线「元宝高考通」功能,定位为行业首个高考咨询师 Agent。用户输入省市、分数、选科后,可一键生成「冲/稳/保」三梯度志愿方案,并支持通过对话实时调整意向(如剔中外合作、换专业优先)。数据源引用「掌上高考」官方信息,全程免费使用。
火山引擎 Agent Plan Harness 新增专业数据搜索服务,通过 Data MCP 接入股票金融、企业工商、学术论文三类数据源。用户可用自然语言搭建个人投资助手,自动生成带引用的个股简评并定时监控盘后风险。配置 Base URL、获取 API Key、安装 Data MCP 三步即可上手。即日起至8月7日,Agent Plan 首两月2.5折,入门版9.9元/月,热门模型用量提升2.5倍。
VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上,SSPro 得分 64.2(相比 GRPO-4B 提升 2.0),SSV2 得分 93.8(下降 0.4),OSWorld-G 得分 61.2(提升 1.3),OSWorld-G-R 得分 69.7(提升 0.5)。模型已开源在 HuggingFace,推荐使用提示词并返回 [x,y] 格式坐标。
VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型,输入截图与自然语言指令,输出0-1000归一化坐标。采用VISTA(视图一致自验证)方法,含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分,超越Qwen3.5-9B与GRPO-9B基线。模型已开源,可通过HuggingFace加载使用。
Hermes Agent 已通过 OpenRouter 处理超过 17 万亿 tokens。使用指南包括设置流程、选择支持 64K 上下文窗口的模型,以及调整路由策略以兼顾成本与可靠性。
Visual-Seeker 是一种视觉原生多模态深度搜索智能体,通过主动视觉推理而非将视觉视为静态输入,动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线,合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上,Visual-Seeker 达到最先进性能,甚至超越部分闭源模型。代码和数据集已开源。
研究团队推出XBCP基准测试,用于评估深度研究AI智能体在证据语言与用户查询不一致时的表现。XBCP保留BrowseComp-Plus的英文问答空间,将支持文档改为跨语言(单语言证据)和多语言(12种语言均匀分布)两种设置。评估四种AI智能体使用稀疏和密集多语言检索器。结果显示,证据翻译后准确率、证据召回率和引用可靠性显著下降,且即使直接提供所有黄金证据,准确率仍然较低。这表明跨语言深度研究不仅存在检索失败,智能体在整合语言不匹配的证据时还有独立困难。
Ling-2.6优化即时响应与输出token能力,Ring-2.6针对深度推理和复杂智能体工作流。基于Ling-2.0通过架构迁移预训练和大规模后训练升级。架构引入融合Lightning Attention与MLA的混合线性注意力设计,提升长上下文训练与解码效率。通过进化思维链、语言单元策略优化、双向偏好对齐和最短正确响应蒸馏优化token效率。提出KPop强化学习框架支持Ring-2.6-1T在环境交互数据上稳定训练,通过异步调度提升编码、搜索、工具使用和工作流执行的训练效率。2.6系列全部检查点已开源。
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》CODA-BENCH 是首个同时评估代码智能体在代码与数据两方面能力的基准测试,专为数据密集型环境设计。该基准基于 Kaggle 生态系统搭建,包含数百个数据集,共 1009 个任务,覆盖 31 个社区。每个任务环境平均拥有 980 个文件,模拟真实的数据规模与噪声。对现有高级智能体的评估显示,即使表现最佳的系统也难以有效整合数据发现与代码执行,成功率仅为 61.1%,暴露了当前智能体在处理数据密集型任务时的能力缺口。
SpaceX以每股135美元IPO募资750亿美元,开盘涨11.11%,马斯克成全球首位万亿美元富豪。华为发布HarmonyOS 7,进入Agent时代,小艺升级为Agentic自演进架构;开源openPangu 2.0;鸿蒙6升级率98%;计划将开源鸿蒙优化到64KB内存可运行。苹果WWDC26发布的Siri AI仅限iPhone 15 Pro及以上、M1以上Mac/iPad。SK海力士计划赴纳斯达克上市。钉钉创始人无招卸任CEO。iPhone 18 Pro Max机模曝光深樱桃色、浅蓝、深灰版本。