6月22日

08:00

HuggingFace Daily Papers（社区热门论文）

研究揭示标准LLM智能体依赖上下文窗口保持计划信息，而非将其内化为持久状态。在Llama-3.1-70B上，计划信号写入一步后从0.453骤降4.1倍，HotpotQA下降12.4倍。推理模型（DeepSeek-R1-Distill-Llama-70B）的思维链痕迹会重新推导计划，严格剥离后恢复样本内+163%、样本外+153%信号，非推理模型仅+4.8%。基于Llama训练的分类器迁移到R1上AUROC为0.748，R1专用分类器达1.000。压力测试中，丢弃计划导致ALFWorld成功率下降34.7个百分点。该框架证明关键信息仅驻留于上下文而非持久存在。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

智能体AI搭便车指南：从基础到系统

本书是构建自主AI系统的全栈实践参考。前半部分涵盖LLM基础（Transformer、GPU系统、SFT/LoRA/MoE训练、模型压缩、推理优化）及对齐与推理层（RLHF、PPO/DPO/GRPO、奖励建模、链式推理与测试时扩展）。后半部分专注智能体AI：智能体训练与轨迹RL、RAG与Agentic RAG、记忆系统、设计模式、MCP与A2A协议、多智能体架构，以及开发框架、UI设计、评估与生产部署。每章配理论基础、实现指南、代码示例和原始文献。

智能体教程/实践

08:00

HuggingFace Daily Papers（社区热门论文）

AI智能体模型批判--从笛卡尔思想到GIC通用架构

论文基于笛卡尔独立思想奠基与科幻自主存在体描绘，从目标、身份、决策、自我调节与学习五维度剖析当前AI智能体架构。区分能力来自外部工程组装的agentic系统与能力（含社交互动）内生的agentive系统。提出Goal-Identity-Configurator（GIC）通用架构，融合分层目标分解、身份演化、基于世界模型的模拟推理、习得性自我调节与自我导向学习，并讨论agentive系统在人类监督下的可审计性、可控性与安全性。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AOHP：面向个性化、高效与安全交互的开源操作系统级智能体框架

AOHP（Android Open Harness Project）基于Android开源项目（AOSP）构建，将AI智能体视为操作系统的一等角色，提供自适应UI和智能体友好运行时环境，同时保留安卓软硬件生态。系统引入三种智能体导向机制：个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中，AOHP的任务完成率提升21.12%，token成本降低51.55%，并满足安全策略合规要求。

智能体开源/仓库论文/研究部署/工程

07:36

MarkTechPost（RSS）

AI智能体记忆的七种类型：技术指南

大语言模型默认无状态，构建智能体需借助记忆机制。七种记忆类型包括：工作记忆（上下文窗口内临时存储提示词、消息、工具输出）、语义记忆（长期存储用户偏好、事实）、情节记忆（记录过去事件与任务结果用于经验学习）、程序记忆（存储技能、工作流与行为规则）、外部/检索记忆（通过向量数据库在推理时拉取信息，即RAG）、参数记忆（嵌入模型权重中的世界知识与推理模式）、前瞻记忆（记忆未来意图与计划目标）。每种记忆对应不同时间尺度与实现方式，组合使用可构建更强的自主智能体系统。

智能体教程/实践部署/工程

07:01

Simon Willison 博客

同事件精选72

Cloudflare 临时账户 for AI agents

Cloudflare 推出临时账户功能，无需注册即可通过 npx wrangler deploy --temporary 部署 Workers 项目，临时项目存活 60 分钟。该功能虽标称为 AI 智能体设计，但普通用户同样适用。作者使用 GPT-5.5 xhigh 在 Codex Desktop 中构建了测试应用，验证了部署与运行流程，并展示了项目认领页面。

智能体产品更新部署/工程

同一事件，精选展示《Cloudflare 为 AI 智能体推出临时账户》

推荐理由：虽然这次打的旗号是服务 AI 智能体，但临时 Cloudflare 账号对任何想快速部署原型的开发者都是福音，降低了不少环境搭建的摩擦，值得马上试试。

6月21日

23:03

TechCrunch：AI（RSS）

iOS 27 开发者测试版上线多项实用 AI 功能

iOS 27 开发者测试版上线多项基于 Apple Intelligence 的实用 AI 功能。账单分摊：拍照识别收据，通过 Apple Cash 分账。密码更新：AI 自动识别弱密码并代理登录网站升级。Messages 一键建议：根据对话内容提示添加提醒、分享照片、添加日历事件。通话时提取邮件中的确认码。支持自然语言添加或修改日历事件。Shortcuts 应用可通过描述自动化任务。这些功能将在今年秋季正式发布。

智能体产品更新端侧

22:04

IT之家（RSS）

华为官网发布鸿蒙 HarmonyOS 7 （API 26）新能力一览

华为开发者官网发布 HarmonyOS 7 (API 26) 新能力一览，新增智能化 Skill（Vibe Coding 助力开发）、Agent（支持 A2A 接入）、视觉 AI；空间化沉浸光感组件、3DGS 端侧重建；全场景碰一碰精准分享；空间音频；多窗互动卡片（摇一摇触发）、闪控窗；安全星盾机密风控引擎、分布式数字身份 DID 框架、数字盾；性能游戏快启、鸿蒙内核应用快启；通讯冷启网络预建链、QUIC 长连接、弱网直播优化；低功耗 LTPO 可变帧率。该系统于 HDC 2026 发布，开发者 Beta 1 版已公开招募，正式版秋季向消费者开放。

智能体产品更新端侧

18:06

Hacker News 热门（buzzing.cc 中文翻译）

PRINCE：拜耳与Thoughtworks联合开发的智能体式AI临床前数据平台

拜耳与Thoughtworks合作开发了云端平台PRINCE，利用Agentic RAG和Text-to-SQL整合数十年临床前安全研究报告。该系统从关键词搜索演进为能回答复杂问题并起草监管文档的智能研究助手。架构通过上下文工程控制信息路由，通过驾驭工程实现编排、错误恢复与可观测性。系统以透明度、可解释性和人工参与为核心信任机制，显著提升数据可访问性与研究效率，同时确保治理与合规。

智能体检索增强教程/实践部署/工程

16:42

The Decoder：AI News（RSS）

AWS推出Continuum和Context两项新服务，填补AI智能体业务上下文与安全漏洞短板

在纽约AWS峰会上，亚马逊云发布AWS Continuum和AWS Context两项服务。Continuum覆盖代码漏洞从检测、排序、验证到修复的全生命周期，引用Anthropic Claude Mythos等安全模型，支持学习模式与强制执行模式。Context自动从数据库、文档、邮件等企业数据构建知识图谱，为所有智能体提供共享业务知识，内置访问控制。DevOps Agent新增发布就绪审查（在GitHub/GitLab以注释反馈）和从变更推导测试计划并在类生产环境运行的功能，预览版在美国东部免费开放。智能体Kiro推出iOS原生应用，用于移动端启动任务和审批代码。Bedrock AgentCore扩展托管知识库连接器（S3、SharePoint等）和内置网络搜索。

智能体产品更新

11:03

IT之家（RSS）

微软确认移除 Edge 浏览器 Drop 功能，全面转向 Copilot

微软证实将在 Edge 浏览器中移除文件互传功能 Drop。此前 Edge 149 版本已取消侧边栏和集锦功能，侧边栏区域仅留给 Copilot。Drop 依托 OneDrive 实现跨设备传输，不限文件大小，停用后文字笔记将被清除，需用户导出备份。Edge 已划归微软人工智能业务线，由 Copilot 项目负责人统筹，正围绕 AI 重新设计浏览器框架，视觉风格将向独立 Copilot 应用靠拢。

智能体 Microsoft 行业动态

09:03

IT之家（RSS）

独立开发者徐子文用AI自制《GTA6》项目GT-Caliber

25岁创业者徐子文（Ziwen Xu）启动自制《GTA6》项目GT-Caliber，使用Anthropic旗下Claude Max 20x大模型，配合多款AI智能体循环运行，实时收集社区需求并自动生成代码。开发首周先后从Godot引擎迁移至虚幻引擎，最终选定Unity。九天进展包括路人NPC自主行走、道路交通、武器系统及仿Instagram游戏手机，第七日生成洛杉矶风格居民区。项目开源托管于GitHub，无发行商支持。R星官方已公布《GTA6》预购6月25日开启，11月19日登陆PS5、Xbox Series X|S。

智能体开源生态现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

Libretto：赋予LLM智能体音乐结构感知

Libretto是一个面向LLM智能体的符号音乐生成与修订框架，采用包含显式onset槽、声部和小节组织的LLM原生语法，并在节奏、和声、旋律、织体、形式与变奏的语料校准统计空间中评估每首作品。同一结构轴支持检索、诊断、复制风险控制及迭代自修订。在填空生成、参考引导整曲生成、渐变变形与教育音乐生成等任务中，Libretto将符号音乐从原始token序列转化为语言模型智能体可测量、可编辑的对象。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PlanBench-XL：评估大规模工具生态中LLM智能体的长时域规划

PlanBench-XL是一个交互式基准测试，包含327个零售任务和1,665个工具，用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性，迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示，GPT-5.4在无阻塞条件下准确率为51.90%，最严重阻塞下骤降至11.36%。分析表明，当故障缺乏明确错误信号或恢复需要更长替代工具路径时，智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。

智能体 MCP/工具推理论文/研究

06:03

MarkTechPost（RSS）

Nous Research 为 Hermes Agent 新增 Blank Slate 模式：默认仅开启三项工具，其余全部禁用

Nous Research 为其开源 AI 智能体框架 Hermes Agent 新增 Blank Slate 设置模式。该模式默认仅开启 provider & model、File Operations 和 Terminal 三项，Web、浏览器、代码执行、视觉、记忆、委托、cron、技能、插件及 MCP 等全部禁用。配置被写入 platform_toolsets.cli 和 agent.disabled_toolsets 并固化到磁盘，即使执行 hermes update 也不会静默启用未选工具。用户可在极简基线后选择完全禁用或逐项启用。该模式适用于安全敏感部署、可复现团队设置和教学审计场景。本地运行要求模型至少 64K 上下文窗口。

智能体产品更新开源生态

04:33

Hacker News 热门（buzzing.cc 中文翻译）

用于 AI 智能体的临时 Cloudflare 账户

Cloudflare 上线面向 AI 智能体的临时账户。智能体无需注册，直接运行 wrangler deploy --temporary 即可部署 Worker，部署持续 60 分钟，期间可通过链接认领为永久账户，超时自动删除。专为无人类参与的后台 AI

智能体产品更新部署/工程

6月20日

21:30

The Decoder：AI News（RSS）

OpenAI 为 macOS 版 Codex 推出 Record & Replay 功能

OpenAI 为 macOS 版 Codex 新增 Record & Replay 功能。用户可先演示一次操作（如上传 YouTube 视频并添加元数据、缩略图和字幕），Codex 将其录制成可复用的“skill”，随后自主重复执行。该功能需开启 Computer Use，在欧盟、英国和瑞士不可用；Computer Use 自 6 月 16 日起已在欧盟上线。版本 26.616 还新增了 Automations 历史批量操作及本地与远程主机间线程交接能力。Codex 是 OpenAI 面向编程和白领工作自动化的 AI 智能体，应用免费下载，但需付费 ChatGPT 账号才能实际使用。

智能体 OpenAI 产品更新

21:00

IT之家（RSS）

高通 CEO 安蒙：智能眼镜市场有望比肩手机

高通 CEO 安蒙认为，AI 智能体将改变应用和设备使用方式。他设想的入口之一是内置摄像头和显示屏的智能眼镜，用户告诉数字助理需求，AI 智能体即可协调多个应用完成流程。安蒙指出应用不会消失但会变化，智能体将成为新应用。苹果 Siri、三星 Bixby 等数字助理能力持续提升。未来手机和新设备将围绕 AI 智能体重新设计。高通正参与 40 多种 AI 设备设计，包括智能首饰、带摄像头的耳机、智能胸针和手表。安蒙最看好智能眼镜，预计其规模最终可与智能手机相当——去年全球智能手机出货超 12 亿部。

智能体多模态大佬观点端侧

18:00

The Decoder：AI News（RSS）

Data2Story：七个AI智能体将CSV文件自动生成可验证的交互式新闻文章

Data2Story是牛津和斯坦福研究人员基于Claude Code构建的技能，通过Detective、Analyst、Editor、Designer、Programmer、Auditor、Inspector七个专用AI智能体，将CSV文件自动生成包含研究背景、统计图表和可追溯来源的交互式在线文章。核心“检查员”面板为每个声明和图表提供结构化证据，93%的可见陈述可溯源（人类文章基线为25%）。在53位读者对18个数据集的评测中，AI文章在视觉设计、叙事节奏、数据透明度、可验证性和洞察力五个类别均胜出，74%的读者更偏好AI版本。但人类在编辑视角、创意设计和密集图形方面仍保持优势。项目已开源。

智能体产品更新数据/训练

17:59

IT之家（RSS）

同事件精选73

微信 AI 助手"小微"灰度上线，可通过文字或语音对话操作原生功能

微信原生 AI 助手“小微”今日扩大灰度测试，支持文字或语音操作微信原生功能（调整设置、发送消息、拨打电话、点外卖、生成图片等），集成文件总结、提醒设置、音乐推荐。用户可一句话生成小程序（仅限个人使用，暂不支持分享），并可通过多轮对话修改风格。该功能由微信技术架构负责人周颢带队推进，计划 2026 年第三季度向更多用户推出。此前微信开放平台已于 6 月 8 日开放 AI 生态接入能力，微信支付同步发布 AI 专属卡。

智能体产品更新

同一事件，精选展示《微信AI官宣内测：两种接入模式供开发者选择》

推荐理由：微信这次把 AI 助手直接塞进主界面，不止是聊天，而是能操作设置、发消息、点外卖甚至一句话生成小程序。国民应用 + 原生 AI 的整合，可能会让这代人对智能助手的理解彻底刷新一遍。

17:00

The Decoder：AI News（RSS）

ChatGPT 新增「Scheduled」侧边栏，统一管理定时任务

OpenAI 为 ChatGPT 新增「Scheduled」侧边栏页面，集中管理所有定时任务。用户可查看、暂停、编辑或删除任务。研究任务可搜索网页和已连接应用，仅在内容变化时发送提醒。所有任务速度更快、可靠性更高，用户可按具体时间或早晨、下午、晚间时段触发。该功能面向 Plus、Pro、Business、Enterprise 用户，活跃任务数量因套餐而异，最多每小时执行一次，用户不活跃时自动暂停。原有「Pulse」功能已整合进定时任务中。

智能体 OpenAI 产品更新

16:59

IT之家（RSS）

中国科学家提出BabelTele"AI语言"：压缩至27.9%仍保留99.5%语义，人类难懂但LLM能懂

上海交通大学等六所高校于6月18日在arXiv发布研究，提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情，生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”，可将文本压缩至27.9%，语义准确率保持99.5%。在QuALITY问答中，人类阅读压缩文本后准确率下降，而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2，支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token，任务完成度超96%。

智能体推理论文/研究

15:59

IT之家（RSS）

同事件精选75

马斯克 SpaceXAI 为微软 Office 推出 Grok 扩展，支持自然语言操控文档、表格和演示文稿

6月19日，马斯克旗下SpaceXAI面向微软Word、Excel、PowerPoint推出Grok扩展。安装后Office应用右侧出现侧边栏，支持自然语言指令操控。Word中，Grok可根据草稿和格式自动生成文档，识别语法错误并提出表述建议，还能调用X平台及互联网实时信息补充数据。Excel中，Grok可分析选中区域数据，进行统计、趋势识别并一键生成图表。PowerPoint中，输入主题、页数和风格，Grok自动生成幻灯片框架并填充内容。

智能体产品更新

同一事件，精选展示《xAI 发布 Grok for Word 插件》

推荐理由：SpaceXAI 把 Grok 带进 Office，不是简单的对话侧边栏，而是能调用 X 实时数据的生产力插件。比起 Copilot 的封闭数据，Grok 的实时联网让报告和数据分析更有血有肉，做市场的同学可以试试。

13:59

IT之家（RSS）

金山办公将于下月推出组织级AI产品"企业大脑"WPS Comate

金山办公副总裁王少康在“2026人民数据大会”上透露，将于下月（7月）正式推出组织级AI办公产品“企业大脑”WPS Comate，后续将规模化交付。该产品面向知识密集的中大型组织，主打复杂业务场景，整合并激活组织内结构化与非结构化数据，利用AI理解组织结构与协作关系，生成数字员工等AI产品融入业务运营与决策，帮助员工跨工具协同完成专业任务。后续金山办公将对接客户，根据不同公司情况定制专属“企业大脑”，实现数据、系统、流程和知识资源的高效连接，打造AI统一入口。

智能体产品更新部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

OpenBioRQ：未解决生物医学研究问题的智能体基准测试

OpenBioRQ 是一个包含 12,553 个未解决生物医学研究问题的智能体基准测试，覆盖 12 个领域。问题无固定答案密钥，迫使模型通过多步工具调用自主验证证据，从而评估其真实性及弃权能力。当前智能体极少捏造引用（超 99% 可解析），但约 15.9% 的链接指向无关论文。难度锚定在三个开源模型都无法回答的问题上；在最难子集中同系列模型仅解决约 17%，而前沿智能体（Gemini-3-Pro、Opus-4.7、GPT-5.5）表现跨度达 29-60%。困难问题中出现“智能体崩溃”——模型停止使用工具。引入冻结的每问题检查表后，评分者间一致性从 Spearman 0.35 提升至 0.82。

智能体数据/训练论文/研究

06:54

MarkTechPost（RSS）

精选77

NVIDIA Research 发布 SpatialClaw：免训练空间推理框架

NVIDIA Research 发布 SpatialClaw，一个免训练的空间推理框架。它通过将代码作为动作接口，让智能体调用感知工具（Depth Anything 3、SAM 3）并自由组合输出，解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%，比近期智能体 SpaceTools 高 11.2 个百分点，比无工具基线高 6.5 点，比结构化工具调用高 3.2 点。框架无需重新训练，同一提示词和工具集可跨所有基准和骨干网络运行，支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

智能体具身智能开源/仓库推理

推荐理由：NVIDIA 把空间推理的动作接口从工具调用换成代码，这个思路很巧，20 个基准平均拉升到 59.9%，无训练即插即用，做机器人和视频理解的人该直接跑一下 repo。

03:02

HuggingFace Daily Papers（社区热门论文）

LedgerAgent：面向策略合规工具调用智能体的结构化状态管理方法

客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中，易导致信息过时或策略违规。LedgerAgent 是一种推理时方法，将观察到的任务状态单独维护于分类账中并渲染到提示词；在改变环境的工具调用前，用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上，LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法，在多轮一致性指标上提升最大。

智能体 MCP/工具论文/研究

00:53

GitHub Blog

GitHub 构建内部数据分析智能体 Qubot，基于 Copilot 实现自然语言查询

GitHub 内部开发了 Qubot，一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据，无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。

智能体 GitHub 教程/实践数据/训练

6月19日

23:50

TechCrunch：AI（RSS）

信实工业推出多款AI服务，涵盖通话、应用与家居

印度信实工业在年度股东大会上发布AI服务：Jio Call Agent可加入电话会议转录、总结并执行叫车、订餐等任务，通过“Hey Jio”激活，今年晚些时候面向超5亿用户上线；MyJio应用新增AI版，支持自然语言激活eSIM、选择漫游套餐；家庭显示设备TeleFrame利用AI智能体推送天气、日程提醒；还推出医疗、教育、农业和中小企业AI套件，支持22种印度语言。公司计划投资1100亿美元建设AI基础设施，并与Google、Meta、Nvidia合作。此外，Jio Platforms董事会批准IPO草案，拟发行最多2.7亿股新股。

智能体产品更新语音

22:22

Artificial Intelligence News（RSS）

SAP 与 Google Cloud 部署智能体商务架构

SAP 与 Google Cloud 联合部署智能体商务架构，通过 Universal Commerce Protocol 标准化零售商、支付网关与自主智能体之间的数据交换，实现从搜索、交易到售后的全序列自动化执行。SAP Commerce Cloud 集成 Google Gemini 能力构建 Shopping Assistant，支持聊天、语音和文本交互，实时查询库存确保推荐可行。该架构基于 SAP Business Data Cloud Connect for Google BigQuery 的双向零拷贝数据链接，融合天气、位置等外部变量与客户画像、交易历史等内部行为数据，由 SAP Engagement Cloud 驱动自主智能体编排个性化互动。SAP 研究显示，78% 的企业认为 AI 对 2026 年保留客户至关重要，但仅 37% 的公司跨客户体验平台共享数据、39% 跨 CRM 共享。

智能体 Google 行业动态部署/工程

22:00

Cloudflare Blog

精选62

Cloudflare 为 AI 智能体推出临时账户

Cloudflare 在 Workers 上推出临时账户（Temporary Accounts），允许 AI 智能体直接运行 wrangler deploy --temporary，在数秒内获取一个可用的实时 Worker，无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。

智能体 MCP/工具产品更新部署/工程

推荐理由：Cloudflare 给 agent 开临时账号这个功能很聪明，一步解决了身份验证和资源清理的麻烦，做智能体部署的可以认真试试。

13:29

Hacker News 热门（buzzing.cc 中文翻译）

精选73

我们在 Elasticsearch 上构建了一个持久化代理内存层，其召回率为0.89

Agent Builder 正式上市（GA）。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类，分别存入独立索引，各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合，再经交叉编码器重排序。在 168 道 QA 题评估中，R@10 平均 0.89，零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问，不绑定特定运行时，已开源至 GitHub。

智能体 GitHub MCP/工具教程/实践

推荐理由：Elastic 把这套代理记忆架构连同评估数据一次性放出来，三种记忆类型、混合召回、衰减和隔离全挤在一个查询里，做 Agent 持久记忆的开发者可以直接抄，召回 0.89 的工程决策讲得清楚。

12:16

Steve Yegge：Medium（RSS）

同事件精选74

Fable模型被美国临时关闭，AI安全管控时代来临

美国政府短暂关闭了Mythos类中的Fable模型，标志着AI模型已越过危险门槛。作者预测最多两三代模型后，超级智能将像核武器一样被管控，大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月，且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止，但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务（如React客户端），AI将彻底改变编程和知识工作，但多数人只能使用当前等级模型。

智能体 Anthropic 大佬观点安全/对齐

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：Steve Yegge这篇判断很冷也很实：多数人能接触的模型智能将停滞，但背后指数仍在跑，SaaS反而因此安全。他抛出的AI素养三阶模型，对正头痛如何推动团队用AI的leader是现成框架。

11:47

HuggingFace Daily Papers（社区热门论文）

S-Agent：空间工具使用智能体范式实现空间推理

S-Agent 将空间推理视为时空证据积累，以 VLM 为语义规划器，通过分层空间工具和专家将 2D 物体提升为 3D 几何证据，聚合为计数、测量等高级空间知识；Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上，S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B，性能媲美 GPT-5.4 和 Gemini 3。

智能体具身智能论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

超越静态排行榜：LLM智能体评估的预测有效性研究

研究指出聚合分数排行榜无法反映部署场景真实表现，排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现，涵盖多模态扩展、编排、检索、推理、基础设施及评估探针，并合并7个先前智能体基准。提出以预测有效性（样本内与样本外排名相关性）替代均值排名，构建12层测量框架，暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准，最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。

智能体 MCP/工具论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

ENPIRE：真实世界中机器人策略的自主改进框架

ENPIRE 提出一个闭环框架，让编码智能体通过环境（自动重置与验证）、策略改进、回滚（并行评估策略）和进化（分析日志、查阅文献、改进训练与算法代码）四个模块，自主完成真实世界的策略学习。该框架将操作任务转化为可控优化流程，在整理针盒、扎带紧固与工具使用等精细操作中达到 99% 成功率，并通过机器人集群加速迭代。

智能体具身智能论文/研究

10:27

Hacker News 热门（buzzing.cc 中文翻译）

TesterArmy （YC P26） - 用于测试网页和移动应用的代理程序

TesterArmy 是一个 AI 代理程序，持续监控网站和移动应用的关键用户流程，并在出现问题时向团队发出警报。只需粘贴 URL 即可创建项目，无需 SDK、测试脚本或基础设施维护。用户用自然语言描述测试场景，AI 代理自动导航页面、填写表单、处理 OAuth 和 OTP 登录流程。支持通过 GitHub App 自动 PR 检查、定时运行生产监控或通过 webhook 触发。每次运行后提供截图、录屏和可操作的 bug 报告，可通过仪表盘、CLI 或 Pull Request 查看。设置只需不到 2 分钟。

智能体产品更新部署/工程

09:27

OpenRouter：Announcements（RSS）

精选60

OpenClaw 接入 OpenRouter

OpenClaw 已内置 OpenRouter 支持，一条命令即可为 AI 智能体配置统一密钥、统一账单，并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。

智能体教程/实践部署/工程

推荐理由：给用 OpenClaw 搭 agent 的人一个直接可用的集成指南，还附带了常见报错修复，比零散摸索省时间。

09:19

TechCrunch：AI（RSS）

Elastic 同意以最高8500万美元收购 AI 初创公司 DeductiveAI

DeductiveAI 同意被 Elastic 以最高 8500 万美元收购。这家 2023 年成立的初创公司用 AI 自动捕获和修复软件 bug，去年 11 月结束隐身模式并完成 750 万美元种子轮融资（CRV 领投，Databricks Ventures 等参投），当时估值 3300 万美元。DeductiveAI 技术将整合到 Elastic 的可观测性平台，帮助用户自动监控性能并实时解决系统故障。其年经常性收入约 100 万美元。收购反映了传统科技公司通过收购 AI 原生初创公司融入智能体技术的大趋势。

智能体编码行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

BioInsight：面向交互式生物医学知识发现的多智能体编排

BioInsight 是一个多智能体系统，将静态生物医学报告生成转变为交互式、以证据为中心的界面生成。给定疾病名称、蛋白质关联表和可选队列元数据，系统通过类型化中间产物（排名通路、文献证据包、蛋白质级推理笔记、引用报告、仪表盘模式和交互界面）组织疾病特异性证据。它将证据检索与机制推理分离，通过确定性组件规范化引用，并将报告中的结构化证据转换为交互界面。在标准化生物医学问答、蛋白质功能推理和端到端证据综合评测中，BioInsight达到最佳性能，表明生物医学AI系统应转向保留来源的交互式证据制品。

智能体论文/研究