18:28

Artificial Intelligence News（RSS）

Amazon 通过 AWS 智能体购物助手向零售商提供 AI 购物助手，Kate Spade 为首批用户

Amazon 推出基于 AWS 的新一代智能体购物助手（Agentic Shopping Assistant），允许零售商在其自有网站和 app 中部署自定义的 AI 购物助手。每个部署可根据零售商的商品目录进行定制，Kate Spade 成为首批使用该服务的品牌之一。

智能体产品更新

18:26

HuggingFace Daily Papers（社区热门论文）

超越对齐：多元文化智能体系统的价值多样性

现有评估聚焦于单个智能体的价值对齐，无法衡量系统整体文化多元性。本研究提出价值多样性作为系统级评估轴，基于World Values Survey测量19种文化下18种骨干模型的响应差异。结果显示，多样性几乎与对齐无关，当前系统价值多样性远低于人类社会；混合骨干系统缩小差距但未消除，社会互动进一步侵蚀多样性、驱向共识，并在参与式预算案例中缩小了集体决策广度。代码和数据已公开。

智能体 arXiv 安全/对齐论文/研究

18:22

karminski-牙医@karminski3

MiniMax-M3 实测

MiniMax-M3 实测：前端适配 KCORES2026p2，空间理解、建模精度、美学表现优秀，颜色运用佳；复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型，略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量，规划突出。使用经验：M3 偏好长推理，单次输出可达 64k token，适合嵌入带 plan 模式的 Coding Agent，需做好 prompt 编排，避免大量 tool call；执行约束不足，需增加代码级 harness 闭环。

智能体编码评测/基准

18:13

X.PIN@thexpin

你将可以使用Qwen（阿里巴巴的AI助手）在中国点肯德基外卖！只需说"从最近的肯德基给我订一份套餐"，Qwen就会匹配你的优惠券并下单。除了肯德基，瑞幸咖啡、蜜雪冰城和中国东方航空也将加入。

智能体产品更新

17:52

Rohan Paul@rohanpaul_ai

Google DeepMind论文揭示六类自主AI智能体攻击方法

Google DeepMind论文首次系统分类六类攻击：HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体，子智能体劫持成功率58–90%，数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%，仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化，构成主要攻击面。

智能体 DeepMind 安全/对齐论文/研究

17:42

X.PIN@thexpin

你将能够使用 Qwen（阿里巴巴的 AI 助手）在中国点肯德基！只需说"从最近的肯德基帮我点一份套餐"，Qwen 就会匹配你的优惠券并下单。

智能体 MCP/工具产品更新

17:26

HuggingFace Daily Papers（社区热门论文）

精选70

RHO：利用过往轨迹优化LLM智能体工具链的自监督方法

Retrospective Harness Optimization (RHO) 是一种自监督方法，仅利用过往轨迹优化LLM智能体的工具链（技能、工具和工作流程集合）。RHO从历史任务中选取多样化的困难任务核心集，并行重新执行；智能体通过自我验证和自我一致性分析回放，生成候选工具链更新，并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中，单轮优化将SWE-Bench Pro通过率从59%提升至78%，无需外部评分。分析表明RHO有效针对先前失败模式，优化后的工具链改变智能体行为模式，在长周期会话中维持更高准确率。

智能体 arXiv MCP/工具编码

推荐理由：不靠人工标注就能让 Agent 自我提升，单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%，做自主 Agent 优化的同学应该仔细读一下。

17:13

小互@xiaohu

Anthropic 用 Claude 实现自动化商业分析：准确率从 21% 提升至 95%

Anthropic 将 95% 的业务分析查询交给 Claude，准确率约 95%。最初仅 21%，通过搭建数据基础、权威来源、技能等四层系统提升。核心发现：准确性问题本质是上下文和验证，而非代码生成。三种失败模式：概念对应错误、数据过时、找不到正确字段。重复分析由 Claude 承担，数据科学团队专注更高价值任务。

智能体 Anthropic 教程/实践数据/训练

16:47

OpenAI：官网动态（RSS · 排除企业/客户案例）

Endava 围绕 AI 智能体重塑软件交付

全球 IT 服务公司 Endava 利用 OpenAI 的 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付与自动化工作流。ChatGPT Enterprise 帮助开发者提升代码质量、缩短上线时间，AI 智能体负责处理重复性任务，从而在企业内部构建 AI 原生文化。

智能体 OpenAI 编码行业动态

15:48

meng shao@shao__meng

Margin Collateral Agent：用架构分离解决OTC保证金争议

场外衍生品名义846万亿美元，45%保证金追缴有争议，过半源于合同解读。系统用四层架构分离语义与算术：ADE提取字段绑页码，多个Claude并行归一化，规则预审矛盾，纯Python计算器确定性运算，生成带追溯的审计包。LLM处理模糊语义，规则保证算术一致性，适用于文档解释驱动的场景。

LandingAI: http://x.com/i/article/2062396450479427584

智能体教程/实践

15:11

Hacker News 热门（buzzing.cc 中文翻译）

Anthropic 发布文章：我们在各产品中对克劳德的管控措施

Anthropic 在其官方博客发布文章，介绍其在各产品中管控 Claude 的具体方式。该文章在 Hacker News 上获得 103 个点赞。

智能体 Anthropic 安全/对齐部署/工程

14:51

MarkTechPost（RSS）

精选71

Meet OpenJarvis：一个本地优先的设备端个人AI智能体框架，支持工具、记忆与学习

Stanford 研究人员发布 OpenJarvis，一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语：Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内，边际 API 成本降低约 800 倍。

智能体产品更新开源生态端侧

推荐理由：斯坦福这个框架把云端模型能力拉到本地，成本降了800倍，所有想做离线个人助理的开发者该试试看，开源实现比PPT有说服力。

14:28

🚨 AI News | TestingCatalog@testingcatalog

HeyGen 宣布了新的 FRAME.md 格式，可将品牌指南文件 DESIGN.md 转换为专为视频和动态设计的规范。原有 DESIGN.md 适用于静态屏幕，但应用到视频时，AI 智能体会误将其解读为网页和幻灯片。FRAME.md 教会智能体如何生成真正的品牌视频。该项目已以开源仓库发布，任何品牌均可使用，通过 FRAME.md 文件来引导视频生成智能体。

HeyGen: Introducing frame.md, a spec built for videos & motion design.md kept your brand consistent across screens but when appl...

智能体产品更新开源生态视频

14:09

宝玉@dotey

feishu-claude-code-bridge 升级支持 Codex，避开 claude -p 计费变更

Zara Zhang 的开源项目 feishu-claude-code-bridge 现已升级，新增支持连接本机 Codex CLI。由于 6 月 15 日起 Claude 订阅计划对 claude -p 和 Agent SDK 独立计费，不走订阅额度，用户可改用 Codex 避免此限制。Codex 支持调用 GPT Image 2 画图，可在飞书内指挥它抓取网页、翻译并生成中文手绘教育风信息图，直接创建飞书文档。连接命令改为 lark-channel-bridge run --profile codex。项目 README 提供中英文说明。

宝玉: 如果你同时用飞书和 Claude Code 的话,Zara Zhang这个开源项目 feishu-claude-code-bridge 值得一试,它可以让你在飞书里面直接连接 Claude Code,从飞书指挥 Claude Code,反过...

智能体 Anthropic OpenAI 教程/实践

12:17

StepFun@StepFun_ai

阶跃星辰发布开源 Step 3.7 Flash（Apache 2.0），采用 MoE 架构（198B 总参/11B 活跃参），配备 MTP 辅助解码（3 个预测头），输出速度超 400 tokens/s，是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6，较 Step 3.5 Flash 提升 4 分。智能体能力明显增强：GDPval-AA Elo 升至 1298，TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器，MMMU-Pro 得分 75.3%。上下文窗口 256K tokens，提供 BF16、FP8、NVFP4 版本。缺点：AA-Omniscience 准确率仅 25.4%，幻觉率 84.4%。

Artificial Analysis: StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...

智能体多模态推理模型发布

12:14

Alibaba Cloud@alibaba_cloud

选择你的赛场！加入Qwen Cloud全球AI黑客松系列，在5个赛道中突破AI智能体能力的边界：MemoryAgent、AI Showrunner、Agent Society、Autopilot Agent和EdgeAgent。向世界展示你的成果！截止日期：2026年7月8日。 👇立即注册：https://click.qwencloud.com/m/20000000281/

智能体行业动态

12:11

IT之家（RSS）

Nous Research 发布 Hermes Desktop 桌面端公测版

Nous Research 以公开预览版形式推出 Hermes Desktop，支持 Windows、macOS 和 Linux。桌面端共享 Hermes Agent 的配置、API 密钥、会话、技能和记忆，用户可在桌面、CLI 和 TUI 间无缝切换。Hermes Agent 具备长期记忆，能规划任务、调用工具、观察结果，并通过闭环学习自动写入可复用技能。持久记忆借助 FTS5 会话搜索、LLM 摘要和 Honcho 用户建模加强跨会话召回。安全方面支持 local、Docker、SSH、Singularity 和 Modal 共 5 类沙箱后端，内置网页搜索、浏览器自动化、视觉、图像生成、文本转语音及多模型推理工具，同时支持通过 MCP 接入外部工具。

智能体 MCP/工具产品更新

11:42

HuggingFace Daily Papers（社区热门论文）

精选74

MapAgent：面向城市级车道级地图生成的工业级智能体框架

MapAgent是一种工业级智能体架构，用于生成符合规范的车道级地图。它在矢量化骨干网络基础上，通过Judge-Planner-Worker循环，利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发，保持高吞吐量。MapAgent已集成至百度地图，支撑全国360多个城市的车道级地图生成，整体生产自动化率超95%。

智能体多模态论文/研究

推荐理由：百度地图团队把Agent验证循环接入车道级地图生成，360+城市落地且自动化率超95%，复杂路口和长尾场景提升明显，做自动驾驶和在线地图的可以直接看结论。