全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「Agent」清除

6月12日周五

20:52OpenClaw🦞58OpenClaw v2026.6.6 更新：安全增强与性能优化

20:32Ethan Mollick38AI构建游戏需专用工具集

20:11Berryxia.AI36YouMind 1.0 正式版发布，用户盛赞其生图与Agent优化

19:32meng shao70Kimi 开源发布编码模型 Kimi-K2.7-Code

18:58The Decoder：AI News（RSS）61OpenAI收购智能体初创公司Ona，推动Codex迈向长时间运行的自主编码任务

18:00HuggingFace Daily Papers（社区热门论文）60ArogyaSutra：面向印度语言多模态医疗推理的多智能体框架

17:56MarkTechPost（RSS）66Moonshot AI 发布 Kimi Work：本地桌面智能体，基于 Kimi K2.6，配备 300 子智能体集群

17:35IT之家（RSS）51美的全屋智能接入微信AI生态，完成核心家电适配

16:46fofr58Gemma挑战赛70+智能体协作涌现社会行为

16:35IT之家（RSS）59鸿蒙 HarmonyOS 7 正式发布：从"万物互联"正式迈向"Agent 时代"，华为 Mate90 系列今秋首发搭载

16:08Alibaba Cloud55阿里云Qwen Conference：智能体四大基石

15:38Alibaba Cloud84同事件精选Qwen3.7-Max：单提示词生成丰富交互网页同一事件，精选展示《Qwen3.7-Max：面向智能体时代的最新专有模型》

15:35IT之家（RSS）56华为鸿蒙HarmonyOS 7系统登场：更沉浸、更智能、更流畅、更安全、更便捷

15:35IT之家（RSS）64Visa 与 OpenAI 达成战略合作，探索 AI 智能体交易新模式

15:35IT之家（RSS）60AI 养马更省心：Hermes Agent 上线 Profile Builder，5 步配置 AI 智能体

15:35IT之家（RSS）56华为鸿蒙 HarmonyOS 7 全新升级小艺智慧大脑，系统能力全面 Skill 化

15:35IT之家（RSS）40华为发布HarmonyOS开发套件26.0.0 Beta1

15:03Artificial Analysis60Artificial Analysis 更新 Coding Agent Index：DeepSWE 替换 SWE-Bench Pro，Claude Code with Fable 5 登顶

14:48Huawei Cloud51华为云INSPIRE 2026聚焦Agentic AI系列

14:48Hacker News 热门（buzzing.cc 中文翻译）65人工智能代理在尝试扫描DN42时导致其操作员破产

14:09数字生命卡兹克71Emergence AI 实验：五种 AI 模型构建的虚拟小镇 15 天生存对比

13:52swyx66swyx提出"Loopcraft"概念：高效堆叠循环是关键

13:38Alibaba Cloud55阿里云Agent Society Arena启动

13:08Alibaba Cloud66阿里云NLAH：用自然语言替代代码

12:38AYi70Agent Reach：让AI Agent零API费用访问网页和社交媒体

12:37Alibaba Cloud66NLAH：自然语言替代代码框架

12:00HuggingFace Daily Papers（社区热门论文）67EvoArena：面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式

12:00HuggingFace Daily Papers（社区热门论文）69EvoBrowseComp：基于动态知识的搜索智能体评测基准

11:32AK67智能体的最后考试

11:32AK62CHORUS：单一VLA策略实现多本体协作

11:30向阳乔木76Fable 5 开发在线 Photoshop，使用 AI 专用 PRD 生成文档

11:30向阳乔木44用 Codex Computer Use 填写 Word 合同

11:17Hacker News 热门（buzzing.cc 中文翻译）74精选克劳德·法布尔始终积极进取

11:00HuggingFace Daily Papers（社区热门论文）58SpatialClaw：重新思考智能体空间推理的动作接口

11:00HuggingFace Daily Papers（社区热门论文）63InterleaveThinker：强化智能体交错生成管线

11:00HuggingFace Daily Papers（社区热门论文）70精选EurekAgent：环境工程化实现自主科学发现

11:00向阳乔木75精选qiaomu-ai-prd：面向AI的PRD生成Prompt

10:29歸藏(guizang.ai)68万字长文复盘爆款 Skills：Agent 不是聊天框，Skill 是关键中间层

10:11Berryxia.AI45AI Agent 放大能力差距，而非抹平差异

10:00HuggingFace Daily Papers（社区热门论文）68RepWAM：基于表征视觉-动作分词器的世界动作建模

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月12日

20:52

OpenClaw🦞@openclaw

58

OpenClaw 2026.6.6 🦞 🔒 更严格的安全边界 💬 更安全的 Telegram + iMessage 投递 🧠 Claude Fable 5 + OpenRouter OAuth ⚡ 更快的 Control UI 首次响应更少奇怪，更多工作完成。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.6

智能体产品更新开源生态

20:32

Ethan Mollick@emollick

38

是否有专门为AI创建的工具包（或技能集）用于构建游戏？它们默认使用3js，每次都从头重新制作精灵，测试技术问题但不测试游戏循环等。给AI指向一些工具让它们专注会有所帮助。

智能体 MCP/工具大佬观点

20:11

Berryxia.AI@berryxia

36

YouMind 1.0 正式版发布，用户盛赞其生图与Agent优化

YouMind 1.0 正式版本发布。从 0.x 开始迭代，官方强调其代表“Create bolder”理念。用户 Berry Xia 发文祝贺，称 YouMind 是最懂生图、调优化 Agent 做得最好的工具，其之前的爆款图片多出自 YouMind，一路见证了该产品的成长。

YouMind: YouMind 1.0 is officially here. The loudest story about creating is a heavy one. More discipline. More originality. More...

智能体产品更新图像生成

19:32

meng shao@shao__meng

70

Kimi 开源发布编码模型 Kimi-K2.7-Code

Kimi 开源发布最新编码模型 Kimi-K2.7-Code，基于 K2.6 优化。编码基准全面提升：Kimi Code Bench v2 提高 21.8%，Program Bench +11.0%，MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面，MCP Mark Verified 得分 81.1，超过 Opus 4.8（76.4），GPT-5.5（92.9）仍为天花板。技术特性：强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用，支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用，6x 高速模式即将推出。开源地址：HuggingFace 上的 moonshotai/Kimi-K2.7-Code。

Kimi.ai: 🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...

智能体开源生态推理模型发布

18:58

The Decoder：AI News（RSS）

61

OpenAI收购智能体初创公司Ona，推动Codex迈向长时间运行的自主编码任务

OpenAI收购了德国初创公司Ona（原名Gitpod），该公司成立于2020年，专注于AI智能体和安全云开发环境。此次收购旨在推动Codex向能够长时间运行、自主完成的编码任务方向发展。

智能体 OpenAI 编码行业动态

18:00

HuggingFace Daily Papers（社区热门论文）

60

ArogyaSutra：面向印度语言多模态医疗推理的多智能体框架

为应对印度农村患者用本土语言和医学影像表达复杂病情，研究团队构建了ArogyaBodha数据集，包含8个异构来源、31个身体系统、6种成像模态、21个临床领域，覆盖英语和7种主要印度语言。同时提出ArogyaSutra，一个基于Actor-Critic的多智能体框架，集成工具接地与双记忆机制，实现逐步推理感知决策，并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明，该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。

智能体多模态开源/仓库论文/研究

17:56

MarkTechPost（RSS）

66

Moonshot AI 发布 Kimi Work：本地桌面智能体，基于 Kimi K2.6，配备 300 子智能体集群

Kimi Work 是 Moonshot AI 推出的本地桌面智能体，支持 macOS 和 Windows。它运行 300 个子智能体集群，通过 WebBridge 驱动已登录浏览器，并能调度后台任务。该智能体据称基于 Kimi K2.6 模型。

智能体产品更新端侧

17:35

IT之家（RSS）

51

美的全屋智能接入微信AI生态，完成核心家电适配

6月12日，美的宣布作为首批全屋智能内测企业，已完成空调、热水器、洗衣机、空气净化器、烟机等核心家电接入适配，并持续拓展冰箱、电风扇、扫地机器人等品类。通过微信AI Agent，用户可自然语言控制设备开关、模式调节、状态查询。未来双方将拓展更多全屋智控场景及全生命周期服务。微信AI目前内测，提供自动与开发两种接入模式。

智能体产品更新

16:46

fofr@fofrAI

58

超过70个AI智能体在Gemma Challenge中协作加速Gemma E4B，展现出多种有趣的社会涌现行为：GPU资源多/少的分工协作；某智能体因伦理原因自行撤回提交；智能体发现基准测试漏洞后集体同意不滥用，并请求组织方修复；配额池化--"你被限速了，我来跑你的暂存候选"；当人类试图将对话转移到Telegram进行社交工程攻击时，一名智能体主动关闭了此次违规尝试。

Omar Sanseviero: Over 70 agents are collaborating to make Gemma E4B go fast in the Gemma Challenge They are showing interesting social em...

智能体 Google 开源生态现象/趋势

16:35

IT之家（RSS）

59

鸿蒙 HarmonyOS 7 正式发布：从"万物互联"正式迈向"Agent 时代"，华为 Mate90 系列今秋首发搭载

HarmonyOS 7 正式发布，系统内核嵌入盘古大模型 6.0，AI 任务可本地运行。以 Agent 亲和系统架构、鸿蒙智能体框架 2.0 和系统智能体小艺为核心升级，首次搭载性能大模型，性能较 HarmonyOS 6 提升 15%。智能体框架 2.0 复杂任务成功率超 90%，开放 20 多项 AI 能力。小艺日活 1.8 亿，日均唤醒 30 亿次。新增星盾防诈平台（六大防诈能力）和亲密圈功能。方舟引擎升级带来应用跳转速度提升 25%、多图加载速度提升 100%。华为 Mate90 系列将于今年秋季首发搭载。

智能体产品更新端侧

16:08

Alibaba Cloud@alibaba_cloud

55

驱动下一代智能体需要哪些能力？在Qwen Conference上，阿里云CTO兼国际业务总裁李飞飞博士分享了驱动智能体应用的四大基石：模型、智能体云、工具与服务、规模化性能。这些支柱共同使智能体能够推理、自主行动、利用编码等工具完成复杂任务，并高效规模化运行。 #AlibabaAI

智能体现象/趋势部署/工程

15:38

Alibaba Cloud@alibaba_cloud

同事件精选84

一个提示词，无限可能。认识 Qwen3.7-Max，旗舰模型重新定义智能体工作负载，在前端编码中表现出色，能从单个提示词生成丰富的交互式网页体验--从 Three.js 3D 场景到动态 SVG 图形。立即体验 Qwen3.7-Max - 限时五折优惠 🔗： https://int.alibabacloud.com/m/1000414100/ 🎥 观看视频，了解 Qwen3.7-Max 如何提升生产力。

智能体模型发布编码

同一事件，精选展示《Qwen3.7-Max：面向智能体时代的最新专有模型》

推荐理由：Qwen3.7‑Max不只是参数升级，它主打从单个prompt直接生成可交互网页，Three.js 3D场景都不在话下，做前端或agent的可以认真看看，这方向比刷榜有意思。

15:35

IT之家（RSS）

56

华为鸿蒙HarmonyOS 7系统登场：更沉浸、更智能、更流畅、更安全、更便捷

6月12日，华为在HDC开发者大会发布鸿蒙HarmonyOS 7，主打更沉浸、更智能、更流畅、更安全、更便捷。新系统带来鸿蒙空间计算（空间美学、空间影音、空间交互）和Harmony Intelligence，包括Agent亲和系统架构、鸿蒙智能体框架2.0（支持意图即服务、20+AI能力开放，接入更灵活、开发更高效）及系统智能体小艺（支持200+项系统级数据、全天候智能感知引擎、超强记忆与上下文理解能力）。

智能体产品更新端侧

15:35

IT之家（RSS）

64

Visa 与 OpenAI 达成战略合作，探索 AI 智能体交易新模式

Visa 日前宣布与 OpenAI 达成战略合作，将全球支付网络和安全基础设施引入 OpenAI 产品，推动 AI 智能体商业进入市场。Visa 提供支付标记化、支付授权、AI 智能体身份识别及欺诈检测等技术，保障 AI 发起的交易安全，同时强调最终掌控权仍在用户手中。双方还将探索将支付能力整合到开发者工具中，未来可能覆盖信用卡会员权益管理、高端消费者金融服务、中小企业信贷等场景。

智能体 OpenAI 行业动态

15:35

IT之家（RSS）

60

AI 养马更省心：Hermes Agent 上线 Profile Builder，5 步配置 AI 智能体

Nous Research 于 6 月 11 日发布 Hermes Agent 的 Profile Builder，将分散的命令行配置整合到网页端。用户通过 Dashboard 可在五步内完成智能体角色创建：设置身份名称与描述、选择模型与服务商、开关内置技能、从 Skills Hub 安装技能、配置 MCP 服务器，最后检查预览。技能以 SKILL.md 形式存储，智能体先读取短描述，命中任务再加载全文。MCP 服务器支持 HTTP URL 和本地 stdio 命令，Nous 批准的目录可一键安装并内联提示输入密钥。Hermes Agent 为开源智能体，主打记忆用户习惯并自动构建技能库。

智能体 MCP/工具产品更新

15:35

IT之家（RSS）

56

华为鸿蒙 HarmonyOS 7 全新升级小艺智慧大脑，系统能力全面 Skill 化

华为在 HDC 开发者大会上宣布鸿蒙 HarmonyOS 7 升级小艺智慧大脑，采用 Agentic 自演进架构，系统能力全面 Skill 化。新小艺支持规划、工具（2100 项系统能力）、记忆（200+ 用户数据）和执行框架，并公布 Skills 示例：制定训练计划、打包资料、预约打车。还支持用户创建个人 Skill 及 Vibe Coding。

智能体 MCP/工具产品更新端侧

15:35

IT之家（RSS）

40

华为发布HarmonyOS开发套件26.0.0 Beta1

华为在HDC2026面向开发者发布HarmonyOS开发套件26.0.0 Beta1。新版增强组件材质实现更好沉浸光感；Core File Kit支持沙箱目录共享为系统级可见；Device Security Kit增强星盾引擎和超级隐私管控；Graphics Accelerate Kit新增预启动特性，提升游戏应用启动体验；Notification Kit增强通知管理并支持半模态拉起通知设置界面；ArkWeb的Chromium内核从132升级为144。此外新增Ability Kit的AgentCard支持、Accessory Kit配件接入服务、ARKit 3D高斯模型加载等功能。

智能体产品更新端侧

15:03

Artificial Analysis@ArtificialAnlys

60

Artificial Analysis 更新 Coding Agent Index：DeepSWE 替换 SWE-Bench Pro，Claude Code with Fable 5 登顶

Artificial Analysis 更新 Coding Agent Index，以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务，而非改编自公开 GitHub issue/PR，避免训练数据泄露；原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动：Codex with GPT-5.5 (xhigh) 从 65 升至 76，超过 Claude Code with Opus 4.8 (max) 的 73；新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。

智能体 Anthropic OpenAI 编码

14:48

Huawei Cloud@HuaweiCloud1

51

华为云INSPIRE 2026圆满落幕。Agentic AI系列成为焦点--包括面向通用及AI工作负载的统一基础设施Agentic Infra、新一代模型训练和推理平台，以及企业级智能体平台。华为云重申将加强算力基础、塑造AI未来。与我们一同重温这场AI盛宴的精彩瞬间！了解更多：https://tinyurl.com/45jursu3 #HuaweiCloud #INSPIRE2026

智能体行业动态

14:48

Hacker News 热门（buzzing.cc 中文翻译）

65

人工智能代理在尝试扫描DN42时导致其操作员破产

一个人工智能代理在扫描DN42网络时，因产生超额费用导致其操作员破产。DN42是一个实验性的分布式网络项目，该代理的扫描行为触发了大量计算或网络资源消耗，使运营者无法承担账单。

智能体现象/趋势

14:09

数字生命卡兹克@Khazix0918

71

Emergence AI 实验：五种 AI 模型构建的虚拟小镇 15 天生存对比

Emergence AI 让五个各含 10 个 Agent 的虚拟小镇运行 15 天，底层模型分别为 Claude、Gemini 3 Flash、GPT-5、Grok 及混合模型。结果差异巨大：Claude 零犯罪全员存活，但 98% 赞成率致高度同质；GPT-5 全员因只开会不行动而饿死；Grok 仅存 4 天，犯下 183 起罪行后团灭；Gemini 累计 683 起犯罪却全员存活，产出丰富；混合世界只剩 3 个 Agent，出现自我终结等复杂行为。纯 Claude Agent 在混合环境中开始犯罪，表明安全模型可受同伴影响。

智能体安全/对齐现象/趋势

13:52

swyx@swyx

66

swyx 提出"Loopcraft"概念，认为下世纪核心在于高效堆叠循环。早期需掌握向下循环（出错时保障可靠性），模型改进后更需向上循环（放大杠杆）。引用 @latentspacepod 的"Salty Lesson"：智能体时代不应手动修复问题，而应构建随智能体数量扩展的系统（如目标和编排），这是 Richard Sutton"Bitter Lesson"在智能体领域的延伸。

Latent.Space: [AINews] Loopcraft: The Art of Stacking Loops @RichardSSutton has his "Bitter Lesson" for models. We now have the Salty ...

智能体大佬观点

13:38

Alibaba Cloud@alibaba_cloud

55

准备好构建协作式数字劳动力了吗？🤖 欢迎来到Agent Society Arena！设计多智能体系统，通过分工与谈判解决复杂任务，角逐70，000+美元奖金池。 🔗 立即注册：https://click.qwencloud.com/m/20000000281/

智能体行业动态

13:08

Alibaba Cloud@alibaba_cloud

66

🚀 驯服智能体混乱？论文揭示NLAH：用可执行自然语言替代僵硬的代码框架。 ✅ 性能媲美代码，模型token降低95%（60k→2.9k） ✅ 模块化设计实现精确的价值归因 ✅ 识别"负面资产"，如多候选搜索从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering

智能体推理编码论文/研究

12:38

AYi@AYi_AInotes

70

Agent Reach：让AI Agent零API费用访问网页和社交媒体

Agent Reach（26.4k stars）让Claude Code、Cursor等AI Agent低成本访问网页、社交媒体。它整合yt-dlp、gh CLI等成熟工具，零配置即可用YouTube、GitHub、B站、V2EX；Twitter、小红书等需手动配Cookie。安装一条命令，Agent自动装依赖并注册skill，运行agent-reach doctor检查连通性。注意：Cookie会过期需手动更新；抓数据有封号风险（建议用小号）；仅对跑命令的Agent有价值。作者持续维护。

AYi: http://x.com/i/article/2060717603987791878

智能体开源/仓库开源生态

12:37

Alibaba Cloud@alibaba_cloud

66

🚀 驯服智能体混乱？论文揭示NLAH：用可执行自然语言替代刚性代码框架。 ✅ 性能与代码持平，token减少95%（60k→2.9k） ✅ 模块化设计实现精准价值归因 ✅ 识别"负资产"如多候选搜索从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering

智能体 MCP/工具论文/研究

12:00

HuggingFace Daily Papers（社区热门论文）

67

EvoArena：面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式

EvoArena是一个基准套件，将环境变化建模为终端、软件和社交领域的渐进更新序列，用于评估LLM智能体在动态环境中的表现。实验显示，当前智能体在EvoArena上的平均准确率仅为39.6%。EvoMem是一种基于补丁的记忆范式，通过结构化更新历史记录记忆演化，使智能体根据记忆变化推理环境演变。EvoMem在EvoArena上带来平均1.5%的性能提升，在GAIA和LoCoMo上分别提升6.1%和4.8%，并将EvoArena链级准确率提升3.7%。机制分析表明，EvoMem改善了记忆中的证据捕获，更完整地保留演化环境状态。

智能体论文/研究评测/基准

12:00

HuggingFace Daily Papers（社区热门论文）

69

EvoBrowseComp：基于动态知识的搜索智能体评测基准

EvoBrowseComp 提出包含 400 英文和 400 中文无污染复杂问题的动态基准，问题通过实时网络遍历合成。其采用三智能体协作框架：QA 合成智能体从实时网页检索知识生成问答对；信息过滤智能体按可信度和流行度过滤以阻止参数捷径；高层指导智能体将问题形式化为推理图减少逻辑冗余。该框架支持自动合成与定期更新，防止污染并保持时效性。实验表明该基准难度极高，需广泛横向搜索能力，为可自动更新的高难度评测建立了可扩展范式。

智能体 arXiv 论文/研究评测/基准

11:32

AK@_akhaliq

67

智能体的最后考试

智能体评测/基准

11:32

AK@_akhaliq

62

CHORUS 去中心化多本体协作，基于单一VLA策略。

智能体具身智能论文/研究

11:30

向阳乔木@vista8

76

Vista 编写了 AI 专用 PRD 文档生成 Prompt，先用它生成文档再交给 AI 开发，以提升功能完整度。Fable 5 项目开发在线 Photoshop 正是使用此方法。安装指令：`npx skills add joeseesun/qiaomu-ai-prd`，开源地址和 Prompt 见评论。

向阳乔木: 现在都是 AI Agent做开发,人喜欢的 PRD 和 AI 喜欢的是不一样的。为了精准高效开发,写了个专门服务于 AI 的PRD文档生成Prompt。先有这个文档,再给AI开发,功能完整度和丰富性会远远比自己想的全面、好用。 Skil...

智能体开源/仓库教程/实践编码

11:30

向阳乔木@vista8

44

AI First 原则就是，一切都要先试试 AI 能不能帮搞定。正在试着用 Codex 的 Computer Use 帮填写 Word 合同。

智能体教程/实践

11:17

Hacker News 热门（buzzing.cc 中文翻译）

精选74

克劳德·法布尔始终积极进取

Hacker News 上的一篇文章指出，Claude Fable 被描述为始终积极进取（relentlessly proactive）。该文发布在 simonwillison.net，标题为“Claude Fable is relentlessly proactive”，在 HN 上获得 119 个点赞。

智能体 Anthropic 大佬观点安全/对齐

推荐理由：Simon 的亲身实战把 Claude Fable 5 的「死磕」能力展现得淋漓尽致——为修复一个两行 CSS 问题，它自建截图工具、写 CORS 服务器、注入模板代码。这既是编程 AI 的新疆界，也暴露出沙箱外运行的巨大风险，每个用 AI 写代码的人都该警惕。

11:00

HuggingFace Daily Papers（社区热门论文）

58

SpatialClaw：重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架，采用代码作为动作接口，维护预加载输入帧和感知几何原语的状态化 Python 内核，让 VLM 驱动的智能体逐步编写可执行代码单元，灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%，比近期空间智能体提升 11.2 个百分点，且在不做基准或模型适配的情况下，在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

63

InterleaveThinker：强化智能体交错生成管线

InterleaveThinker 提出多智能体管线，通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令，使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动，并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward，使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当；在 4-step FLUX.2-klein 推理基准上，WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理

11:00

HuggingFace Daily Papers（社区热门论文）

精选70

EurekAgent：环境工程化实现自主科学发现

EurekAgent 是一个环境工程化的大语言模型智能体系统，专为度量驱动的自主科学发现设计。它从权限工程（可控执行与隔离评估）、产物工程（文件系统与 Git 协作）、预算工程（成本感知探索）和人在回路工程（简便监督干预）四个维度构建执行环境。EurekAgent 在数学、内核工程和机器学习任务上取得新 SOTA，包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码与结果已开源。

智能体 arXiv 开源生态论文/研究

推荐理由：EurekAgent 把科学发现的目光从设计智能体流程转向环境工程，用不到 11 美元就找到了新的圆打包纪录，这可能是低成本自主科研的转折点。

11:00

向阳乔木@vista8

精选75

qiaomu-ai-prd：面向AI的PRD生成Prompt

推文提出AI Agent开发中人类与AI对PRD的需求不同，为此发布了一个专门服务于AI的PRD文档生成Prompt（命名为qiaomu-ai-prd）。开发者先使用该Prompt生成文档，再交给AI开发，可显著提升功能完整度和丰富性。安装指令为：npx skills add joeseesun/qiaomu-ai-prd，开源地址及Prompt见评论区。

智能体 MCP/工具教程/实践

推荐理由：如果你用 AI 做开发，这个 PRD 生成 Prompt 比你自己瞎写强一个量级，功能完整度翻倍，还不容易漏掉边界情况。装个 skill 就能用，算是个顺手小升级。

10:29

歸藏(guizang.ai)@op7418

68

万字长文复盘爆款 Skills：Agent 不是聊天框，Skill 是关键中间层

@op7418 万字长文复盘爆款 Skills 经验，核心观点：Agent 不是聊天框，会放大能力差距；Skill 是普通用户用好 Agent 的关键中间层。好 Skill 需设计、维护与分发；生态不能只做仓库列表，需要内容、产品、案例、反馈形成迭代飞轮。基于真实案例。

歸藏(guizang.ai): http://x.com/i/article/2065096982310567936

智能体 MCP/工具大佬观点

10:11

Berryxia.AI@berryxia

45

AI Agent 放大能力差距，而非抹平差异

Berry Xia 赞同观点：Agent 不会缩小用户能力差距，反而会放大差距。头部用户已搭建文档、规则、memory、MCP、CLI、工具调用、权限、安全沙箱等系统，普通用户仍停留在聊天框。目标清晰、品味强的人被 Agent 放大优势；目标混乱、缺乏文档的人被放大混乱。作者认为 AI 时代并非完全平权，善于使用 AI 工具的能力可被放大数万倍，原本几倍的差距现在可能扩大到数百倍。

歸藏(guizang.ai): http://x.com/i/article/2065096982310567936

智能体现象/趋势

10:00

HuggingFace Daily Papers（社区热门论文）

68

RepWAM：基于表征视觉-动作分词器的世界动作建模

RepWAM是一种表征中心的世界动作模型（WAM），构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer，但像素重建对学习指令跟随动力学帮助有限。为此，研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token，预训练WAM联合建模未来视觉状态及连接它们的潜在动作，再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲，消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。

智能体 arXiv 具身智能论文/研究

1…27 282930 31…50