6月23日

12:13

HuggingFace Daily Papers（社区热门论文）

当前将大语言模型（LLM）与因果发现结合的做法，常让模型推断边方向、提出图结构或注入先验与约束，但这混淆了数据与假设支撑的证据与文本关联、提示词产物及幻觉机制。本文主张智能体应扮演辅助角色：检查数据、检索上下文、解释方法假设并澄清图输出，而不应提供边、方向、先验、约束或因果结论。因果主张必须基于数据、显式假设、正式算法、诊断及用户/领域专家决策。该原则在causal-learn+在线平台中实现，协调数据分析、预处理、方法推荐等。Big Five人格数据案例展示了无需LLM不可靠性的智能体辅助因果发现流程。平台地址causallearn.com。

智能体 arXiv 论文/研究

09:13

Berryxia.AI@berryxia

成峰开源剪辑Skills接入Codex，Agent自动完成口播视频剪辑与合成

成峰开源了一款2000+ Star的剪辑Skills，与Codex结合后，Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程：先安装Skills，用/剪口播命令上传素材和文稿，生成审核页并输出带字幕视频；再用/口播成片命令生成HTML分镜核对页，用户反馈后Codex通过Computer Use自动调整，最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。

Agent成峰: http://x.com/i/article/2068926393719685120

智能体 MCP/工具开源/仓库教程/实践

08:13

ginobefun@hongming731

OpenAI Daybreak将安全重心转向补丁规模化，美团构建海报生成闭环，Gray Swan强调红队对抗

OpenAI Daybreak计划转向“补洞”：Codex Security扫描超3000万次提交、覆盖3万+代码库，超50万问题被自动判定修复；GPT-5.5-Cyber在CyberGym达85.6%单模型最高分，并推出Patch the Planet推动开源补丁落地。美团技术团队构建PosterCraft（文字渲染）、PosterOmni（六类编辑）、PosterReward（质量评判）闭环，PosterReward在高级基准达86.0%准确率，已落地外卖海报。Gray Swan创始人指出模型容量不自动提升安全性，自动化红队系统Shade多数场景已超越人类攻破能力。

智能体 OpenAI 安全/对齐现象/趋势

08:08

Ethan Mollick@emollick

让 Fable 如此令人印象深刻的是其跨长期项目的创造性问题解决和良好判断力你可以看到这一点：当我让它制作一个自知的贪吃蛇游戏时。我没有给它任何设计反馈，只是说"让它更好" 值得一试：https://snake-stable-build.netlify.app/

智能体大佬观点编码

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

SkillHone：基于持久决策历史的持续智能体技能演进工具

SkillHone 通过持久决策历史将技能修订与评估证据配对，记录诊断、修订、证据和结果。角色分离的子智能体在实践探测上运行候选技能，并基于先前决策提出修订，实现跨会话改进。在深度研究基准上，SkillHone 无需预集成搜索栈，在 GAIA 上超越商业深度研究智能体 15.8 分，在 WebWalkerQA-EN 上超越 3.2 分，同时优于先前技能进化方法。内部工具中介分析场景中，平均准确率提升 18.8 分。

智能体论文/研究

推荐理由：SkillHone 把 agent 技能进化从一次性优化变成了持续记录的迭代过程，在 GAIA 上超越商业 agent 15.8 个点，做 agent 产品的团队该认真读一下。

08:00

HuggingFace Daily Papers（社区热门论文）

我们准备好迎接智能体原生记忆系统了吗？

从数据管理视角对LLM智能体记忆系统进行系统性实验研究，将其分解为表示与存储、提取、检索与路由、维护四个核心模块。评估了12个代表性记忆系统和两个参考基线，覆盖5个基准工作负载共11个数据集。端到端结果显示无单一架构占优，效果取决于记忆结构与工作负载瓶颈的对齐。细粒度消融实验量化了各模块对表示保真度、检索精度、更新正确性和长期稳定性的影响。实际工作负载下局部维护比全局重组更具成本效益。代码已公开。

智能体检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MEMPROBE：基于隐藏用户状态恢复的长期记忆智能体探测基准

MEMPROBE是一个评估长期记忆AI智能体的新基准，通过隐藏用户状态恢复直接衡量记忆质量。基准在受控任务中模拟50个用户，每个携带31个隐藏维度（共1550个恢复目标），让配备记忆的智能体辅助完成任务，随后从记忆中重构用户状态，支持全存储与top-k两种访问模式。测试5种代表性记忆系统后，任务完成率几乎饱和（无记忆基线也达），但类别平衡恢复率仅约0.6，在top-k检索下进一步下降。MEMPROBE是首个直接研究记忆恢复的基准，将恢复率作为可优化目标。

智能体论文/研究

06:41

Rohan Paul@rohanpaul_ai

Sakana Fugu Ultra 在多模型编码测试中视觉效果最优，但成本为 GLM 5.2 的 17 倍

Sakana Fugu Ultra 是一个多智能体协调层，通过 OpenAI 兼容端点将子任务路由给不同模型。在 @atomic_chat_hq 的实时交易桌面编码测试中（要求构建完整前后端、实时 API 数据、暗色主题 UI），Fugu Ultra 生成了最丰富的多面板界面（含图表、状态标签等），效果接近 GLM 5.2，但成本达后者的 17 倍：Fugu Ultra 耗 22,225 tokens / $0.51，GLM 5.2 耗 13,677 tokens / $0.03。对比模型 Opus 4.8（15,802 t / $0.31）和 GPT-5.5（11,474 t / $0.26）在质量与成本平衡上表现更佳。

atomic.chat: Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...

智能体编码评测/基准

05:35

OpenRouter@OpenRouter

人类。智能体。同一结账流程。我们很高兴与 @coinbase 合作，为我们的客户带来稳定币支付！

Coinbase Developer Platform🛡️: We're excited to announce that all Coinbase payments APIs are now agentic-enabled out of the box. Companies like @OpenRo...

智能体行业动态

05:12

Hacker News 热门（buzzing.cc 中文翻译）

精选72

Show HN：Oak--专为代理设计的 Git 替代方案

Oak 是开源版本控制系统，专为 AI 智能体（Claude Code、Codex、Cursor）设计。采用 BLAKE3 内容哈希、内容定义分块、diff/merge 及 Blob/Manifest/Commit/Tree 数据模型，可选 SQLite 和 git 后端。以分支-会话为基本工作单元，用分支描述替代逐次提交，通过内容寻址懒加载使智能体数秒内编辑任意仓库。速度远超 git。已发布公开测试版 v0.99.0，支持 macOS（Apple Silicon）、Linux（x86_64）及 Windows，可通过 curl 或 cargo 安装，Apache-2.0 开源。

智能体产品更新编码

推荐理由：专为 AI 代理打造的全新版本控制工具，分支作为会话单元、内容寻址懒加载，设计直接摆脱了 git 的包袱，用 agent 的开发者值得一试。

05:07

elvis@omarsar0

天哪！Fugu Ultra 在这些 3D 渲染中表现得极其出色。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新多模态

05:07

Elon Musk@elonmusk

Grok Build 升级

skcd: /goal is live on Grok Build. We use a team of agents: - implementors - skeptics - code reviewers - planners and a mix of...

智能体 xAI 产品更新

05:05

TechCrunch：AI（RSS）

Claude Code创建者Boris Cherny：AI智能体循环（loops）真实且重要

Claude Code创建者Boris Cherny在Meta @Scale大会上表示，AI智能体循环（loops）是真实且重要的趋势。他描述自己工作中一个agent持续改进代码架构，另一个寻找重复抽象并提交PR，循环永不停歇。这种循环类似递归函数，由子agent决定何时停止；一种实现是Ralph Loop，检查已完成工作是否达成目标。Loops本质是增加test-time compute，通过持续投入计算资源直到任务完成，但token消耗无上限、成本高昂。若设置得当，收益可能远超成本。

智能体 Anthropic 大佬观点编码

04:40

MarkTechPost（RSS）

xAI 为 Grok Build 推出 /goal 模式，支持长周期自主编码与内置验证

xAI 在终端编码智能体 Grok Build 中新增 /goal 模式。用户输入一条目标指令后，Grok Build 自动规划步骤、生成进度清单，逐一执行并验证（审查代码、检查网页或运行脚本）直至完成。期间可用 /goal status、/goal pause、/goal resume、/goal clear 命令监控与操控运行。该模式面向多文件迁移、重构、依赖升级等长周期任务，需 SuperGrok 或 X Premium Plus 订阅。与 Claude Code、OpenAI Codex CLI、Cursor Agent Mode 相比，/goal 的核心差异在于显式的可操控目标对象和内置验证步骤。

智能体 xAI 产品更新编码

04:26

Chubby♨️@kimmonismus

GLM-5.2 在真实世界智能体基准 GDPval-AA 排名第三，领先所有开源模型

GLM-5.2（max）在真实世界智能体工作基准 GDPval-AA 上获 1524 Elo，排名第三，仅次于 Claude Fable 5（1783）和 Claude Opus 4.8（1615），与 GPT-5.5（xhigh，1509）持平。该模型以约 31 轮次任务平均完成零售主管任务清单、紧急停止电路图等交付物，领先开源权重模型（下一名 MiniMax-M3 仅 1408），并超过 Google Gemini 3.5 Flash（1357）、Qwen 3.7 Max（1289）等闭源模型。GLM-5.2 同时在 Artificial Analysis Intelligence Index、Agentic Index 和 AA-Briefcase 上领跑开源榜单。

Artificial Analysis: GLM-5.2 leads open weights models and sits at #3 overall on GDPval-AA, a real-world agentic work benchmark GLM-5.2 from ...

智能体开源生态评测/基准

04:10

Artificial Analysis@ArtificialAnlys

AA-Briefcase基准测试：开放权重模型主导成本-性能帕累托前沿

Artificial Analysis发布AA-Briefcase智能体知识工作基准测试，评估模型在长期任务中的表现。任务成本差异超700倍，最高性能模型Claude Fable 5每任务超$20。成本-性能帕累托前沿上，除Anthropic两个最高分模型外，其余大部分由开放权重模型占据。关键性价比：GLM 5.2 (max)每任务$2.40，得分仅比Claude Opus 4.8低90 Elo，成本低65%；DeepSeek V4 Pro (max)每任务$0.08，得分比Gemini 3.5 Flash高约60 Elo，成本低98%以上。

智能体 Anthropic DeepSeek 推理