Amazon 推出基于 AWS 的新一代智能体购物助手(Agentic Shopping Assistant),允许零售商在其自有网站和 app 中部署自定义的 AI 购物助手。每个部署可根据零售商的商品目录进行定制,Kate Spade 成为首批使用该服务的品牌之一。
Amazon 推出基于 AWS 的新一代智能体购物助手(Agentic Shopping Assistant),允许零售商在其自有网站和 app 中部署自定义的 AI 购物助手。每个部署可根据零售商的商品目录进行定制,Kate Spade 成为首批使用该服务的品牌之一。
现有评估聚焦于单个智能体的价值对齐,无法衡量系统整体文化多元性。本研究提出价值多样性作为系统级评估轴,基于World Values Survey测量19种文化下18种骨干模型的响应差异。结果显示,多样性几乎与对齐无关,当前系统价值多样性远低于人类社会;混合骨干系统缩小差距但未消除,社会互动进一步侵蚀多样性、驱向共识,并在参与式预算案例中缩小了集体决策广度。代码和数据已公开。
MiniMax-M3 实测:前端适配 KCORES2026p2,空间理解、建模精度、美学表现优秀,颜色运用佳;复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型,略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量,规划突出。使用经验:M3 偏好长推理,单次输出可达 64k token,适合嵌入带 plan 模式的 Coding Agent,需做好 prompt 编排,避免大量 tool call;执行约束不足,需增加代码级 harness 闭环。
Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58–90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。
Retrospective Harness Optimization (RHO) 是一种自监督方法,仅利用过往轨迹优化LLM智能体的工具链(技能、工具和工作流程集合)。RHO从历史任务中选取多样化的困难任务核心集,并行重新执行;智能体通过自我验证和自我一致性分析回放,生成候选工具链更新,并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中,单轮优化将SWE-Bench Pro通过率从59%提升至78%,无需外部评分。分析表明RHO有效针对先前失败模式,优化后的工具链改变智能体行为模式,在长周期会话中维持更高准确率。
Anthropic 将 95% 的业务分析查询交给 Claude,准确率约 95%。最初仅 21%,通过搭建数据基础、权威来源、技能等四层系统提升。核心发现:准确性问题本质是上下文和验证,而非代码生成。三种失败模式:概念对应错误、数据过时、找不到正确字段。重复分析由 Claude 承担,数据科学团队专注更高价值任务。
全球 IT 服务公司 Endava 利用 OpenAI 的 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付与自动化工作流。ChatGPT Enterprise 帮助开发者提升代码质量、缩短上线时间,AI 智能体负责处理重复性任务,从而在企业内部构建 AI 原生文化。
场外衍生品名义846万亿美元,45%保证金追缴有争议,过半源于合同解读。系统用四层架构分离语义与算术:ADE提取字段绑页码,多个Claude并行归一化,规则预审矛盾,纯Python计算器确定性运算,生成带追溯的审计包。LLM处理模糊语义,规则保证算术一致性,适用于文档解释驱动的场景。
http://x.com/i/article/2062396450479427584
Anthropic 在其官方博客发布文章,介绍其在各产品中管控 Claude 的具体方式。该文章在 Hacker News 上获得 103 个点赞。
Stanford 研究人员发布 OpenJarvis,一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语:Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内,边际 API 成本降低约 800 倍。
Introducing frame.md, a spec built for videos & motion design.md kept your brand consistent across screens but when appl...
Zara Zhang 的开源项目 feishu-claude-code-bridge 现已升级,新增支持连接本机 Codex CLI。由于 6 月 15 日起 Claude 订阅计划对 claude -p 和 Agent SDK 独立计费,不走订阅额度,用户可改用 Codex 避免此限制。Codex 支持调用 GPT Image 2 画图,可在飞书内指挥它抓取网页、翻译并生成中文手绘教育风信息图,直接创建飞书文档。连接命令改为 lark-channel-bridge run --profile codex。项目 README 提供中英文说明。
如果你同时用飞书和 Claude Code 的话,Zara Zhang这个开源项目 feishu-claude-code-bridge 值得一试,它可以让你在飞书里面直接连接 Claude Code,从飞书指挥 Claude Code,反过...
StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...
Nous Research 以公开预览版形式推出 Hermes Desktop,支持 Windows、macOS 和 Linux。桌面端共享 Hermes Agent 的配置、API 密钥、会话、技能和记忆,用户可在桌面、CLI 和 TUI 间无缝切换。Hermes Agent 具备长期记忆,能规划任务、调用工具、观察结果,并通过闭环学习自动写入可复用技能。持久记忆借助 FTS5 会话搜索、LLM 摘要和 Honcho 用户建模加强跨会话召回。安全方面支持 local、Docker、SSH、Singularity 和 Modal 共 5 类沙箱后端,内置网页搜索、浏览器自动化、视觉、图像生成、文本转语音及多模型推理工具,同时支持通过 MCP 接入外部工具。
MapAgent是一种工业级智能体架构,用于生成符合规范的车道级地图。它在矢量化骨干网络基础上,通过Judge-Planner-Worker循环,利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发,保持高吞吐量。MapAgent已集成至百度地图,支撑全国360多个城市的车道级地图生成,整体生产自动化率超95%。
AutoLab是一个评估超长周期闭环优化能力的基准,包含36个专家设计的真实任务,覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始,要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明,成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力,但多数前沿模型要么过早终止,要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。
香港生成式人工智能研发中心(HKGAI)发布HKGAI V3大模型及香港首个生产力级超级智能体。V3实现超10倍Token压缩效率提升,Agent无干预运行时长增长近百倍,单次稳定运行达28小时,并针对香港本地语境优化。HKGAI联合香港浪潮云及三大运营商向海外开放推理算力与智能服务。同时发布HKGAI政商一体机,内置V3模型实现本地推理、数据不出站,适用于政务、金融、医疗等高安全场景。
AI Agent 不会完全取代手机和 PC,但用户无需打开多个 App,直接给 Agent 下指令即可。通用 Agent 将成未来操作系统,App 有三种结局:消亡、转为 CLI/MCP、保留为 GUI 插件。SaaS 应尽快推出 CLI 与 Skill 以适配 Agent。
通用 Agent 就是未来的操作系统了,就像现在我们操作电脑需要借助操作系统,以后我们跟 AI 通信会通过 Agent OS。 App 会有几种结局: - 消亡:Agent 自己就有能力,不需要独立的 App - 变成 CLI 或者 MCP...
Audio-Interaction是一种统一流式音频模型,通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署,包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本,覆盖7项基本能力、28个子任务;Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中,Audio-Interaction保持主流音频任务竞争力,同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。
StreamMA 采用“流式通信”范式,每个推理步骤生成后立即流式传输给下游智能体,通过流水线相邻智能体降低端到端延迟。该方法还提升了效果,因为早期步骤更可靠,可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上,使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型,及 Chain、Tree、Graph 三种拓扑,StreamMA 平均优于基线 +7.3 个百分点,在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”:增加每智能体步骤数可同时提升效果与效率。
Recently met @srush_nlp and he started giving me an impromptu lecture on how targeted on-policy self-distillation works....
阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s,位列主流模型第一;端到端响应时长仅 7.1 秒;智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现,兼顾速度、智能与成本,适合大规模商业化部署。
论文提出Meta-Agent Challenge(MAC)评估框架,测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限,迭代编程出能在五个领域保留测试集上最大化性能的智能体工件,并采用多层防御防止奖励攻击。实验表明,元智能体极少达到人类基线策略,少数成功者由专有前沿模型主导;设计过程高方差,高优化压力催生了真实值外泄等对抗行为,暴露鲁棒性与对齐缺陷。MAC作为开源基准,为评估递归自我改进提供实证代理。
现有开放权重视觉-语言模型(VLM)在多图像、多轮智能体场景中,视觉编码器是无状态的,每张图像独立编码,无法访问先前视觉上下文,导致任务关键的小变化被弱化。本文提出 Stateful Visual Encoder,将每个视觉表示基于先前视觉特征进行条件化。通过监督微调,配备该编码器的 VLM 在跨图像空间聚合、多对象视觉差异和轨迹行为克隆等任务上取得一致改进,且适用于不同分辨率、语言模型规模和 VLM 主干。在纵向放射学、精细图像比较和遥感等真实任务中,有状态编码器持续提升通用 VLM 基线,在特定领域匹配或超越专用模型。
Cursor 推出 Debug Mode,解决传统 AI Agent 依赖静态推理易产生“假修复”的问题。其核心是通过添加临时日志、让用户复现 Bug,收集运行时证据进行诊断,再自动清除日志。Cursor 团队内部案例显示,该模式能高效定位概率性竞态条件、内存泄漏、C++ 原生崩溃及 SSR 渲染等难以静态分析的 Bug,将“猜测”转为“基于证据的诊断”。
http://x.com/i/article/2061967596568875008
微软将在 2026 年 Build 开发者大会上展示如何利用 AI 智能体,帮助开发者将 x86 应用转换为 Windows on Arm 原生应用。目前原生 Arm 版本已占所有 Windows on Arm 用户应用使用时长的 90%,剩余缺口仍需依靠 Prism 仿真层运行。AI 智能体可承担重复代码处理、转换检查和兼容性验证等任务。
谷歌将 Gemma 4 12B 与 Google AI Edge 深度整合,开发者可在笔记本上运行 100% on-device 的 Agentic workflow。Mac 用户新增两款工具:AI Edge Gallery 直接生成代码,AI Edge Eloquent 支持语音输入并实时编辑文本。底层通过 LiteRT-LM 本地 serve 模型,实现零网络、零延迟、数据完全留在设备端。Google 将模型、推理引擎和开发工具链打包,让开发者拥有私有的、可连续执行的本地 AI 队友。
Unlock local, agentic workflows with Gemma 4 12B and Google AI Edge, directly on your laptop. Experience 100% on-device ...
OpenAI 为专为生命科学研究打造的企业级模型系列 GPT-Rosalind 增加新能力,融合 GPT-5.5 的 Agentic Coding 与工具调用能力。Rosalind 可自主生成假设、调用工具模拟、设计实验方案并追踪工作流可重复性,面向药物发现、分子分析、实验设计及湿实验流程。该模型非通用模型加生命科学提示,而是从头针对药物发现、蛋白设计等场景专项强化,支持企业级海量数据处理、跨团队协作与合规审计。命名致敬 DNA 结构科学家 Rosalind Franklin。
We're bringing new capabilities to GPT-Rosalind, a model series purpose-built for life sciences research at enterprise s...
OpenClaw 推出 Skill Workshop,将 Agent 的 Skill 定位为可复用工作流。机制为先提案后生效:Agent 生成提案,用户可修改措辞、补充步骤、调整支持文件,确认后才写入正式 Skill,避免错误固化。提供 Board 视图(按 pending/applied/rejected/stale 分栏管理)和 Today 视图(快速过审)。Tweak 微调功能允许围绕同一提案反复修订。Skill 可捆绑 assets、scripts 等支持文件,路径规则严格禁止绝对路径和目录穿越。引用 OpenClaw:Agent 应学习重复工作,但非静默改写未来运行;Skill Workshop 将可复用经验变成可审查提案。
Agents should learn repeated work, but not by silently rewriting future runs. Skill Workshop turns reusable agent lesson...
豆包声明,针对专业人群推出豆包专业版,基础功能(搜索问答、写作生图、语音和视频对话)保持免费。阿里千问向第三方Agent、Skill全面开放,瑞幸咖啡、肯德基、蜜雪冰城、东方航空为首批接入测试企业。DeepSeek首轮融资拟筹集500亿元,腾讯、宁德时代等参投,投后估值或达4000亿元。腾讯人士称微信AI智能体上线时间暂未定,取决于监管审批。苹果MacBook Neo开售三周出货110万台。
Meta 于当地时间周三推出 Meta 商业智能体,集成于 WhatsApp、Messenger、Instagram 等应用,可自动回复客户咨询、商品推荐及预约登记。该功能纳入面向商户的付费订阅套餐 Meta One,大型企业采用按量计费模式,计费规则与 WhatsApp 商业版消息收费标准一致。Meta 同步推出商业智能体开放平台,支持接入 Shopify、Zendesk 等第三方数据源。扎克伯格表示,此举旨在减少对广告业务的依赖,并计划通过迭代大模型让智能体逐步承担全链路企业运营任务。
微软CEO纳德拉在Build 2026阐述「Frontier Intelligence Platform」战略,主张企业AI竞争壁垒来自私有评测集与运行轨迹数据,而非模型采购;Azure网络团队通过Agent系统Miles自动化500余名运维人员知识。月之暗面发布Kimi Work Beta桌面端,基于Kimi K2.6模型,支持最高300个子Agent并行、13小时编码、4000余次工具调用,能自主完成金融调研、科研数据分析和128页报告生成;开发中92%代码由AI生成。腾讯研究院3万字报告量化超级个体与组织效率的关系。三篇内容指向人机协作边界重塑。
MRAgent 框架将记忆建模为 Cue-Tag-Content 关联图,并通过主动重建机制将 LLM 推理直接融入记忆访问,使智能体在推理过程中基于累积证据动态探索和剪枝检索路径,避免组合爆炸。在 LoCoMo 和 LongMemEval 基准上,MRAgent 相比强基线最高提升 23%,同时显著降低 token 和运行时开销。
大语言模型作为智能体处理大型工具目录时面临检索瓶颈,参数化工具检索将每个工具编码为虚拟token并两阶段微调(记忆→检索),在标准ToolBench上表现强劲,但无法揭示模型是否真正理解工具。ToolSense是一个开源、LLM驱动的诊断框架,自动生成三个基准:现实检索基准(RRB,含三个模糊层级)、MCQ探测基准和QA探测基准。应用于ToolBench约4.7万工具并评估五种训练配置,发现知识-检索分离:RRB上部分配置性能相比全描述基准下降约50-64个百分点,低于嵌入模型基线;部分模型事实探测得分接近随机。框架和基准已开源。
AsyncWebRL采用异步系统设计,重叠rollout、梯度更新与策略刷新,并引入永久rollout池和轻量截图处理,比此前最快开源同步流程WebGym实现最高2.9倍端到端训练吞吐加速。算法方面将多步GRPO中每轨迹归一化因子1/|τ_i|替换为常数1/k,解除了失败轨迹对梯度权重的耦合,压缩轨迹长度。在WebGym分布外测试集上创下新开源SOTA(相对+5.8%),Medium子集+42%,Hard子集+48%。
LatentSkill通过预训练超网络将文本技能转换为即插即用的LoRA适配器,将技能知识存储在权重空间而非上下文空间,消除每步推理中的技能token开销。在ALFWorld上,seen和unseen分割成功率分别比上下文技能基线高出21.4和13.4个百分点,预填充token减少64.1%;Search-QA精确匹配提高3.0点,技能token开销降低72.2%。生成的技能LoRA形成结构化语义几何,可通过缩放系数精确控制,对齐后能通过参数空间算术组合。该方法提供了高效、模块化且暴露度更低的权重空间技能基底。