6月10日

08:00

HuggingFace Daily Papers（社区热门论文）

为填补现有AI智能体在真实科研场景中评估的空白，SciAgentArena被提出，包含约200个跨领域科学任务，支持逐步验证与交互式评估。测试发现，当前AI智能体在任务结构与评价标准明确的特定数据分析流程中能有效发挥作用，但在生成新颖见解、持续自主探索以及为开放式科研问题构建稳健方案方面仍表现不均。该基准为衡量科学领域AI智能体的进展提供了实用框架，相关代码、任务与数据集已开源。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

重新思考LLM心理测量评估：自我报告何时及为何能预测行为

本研究对比大五人格与计划行为理论（TPB）在LLM自我报告与行为一致性上的表现。在四项行为任务与11个前沿LLM中，同一对话内TPB达到人类水平一致性，大五不能；跨对话时，仅对训练形成的隐性偏见等行为保持一致性，对上下文启动的谄媚等行为则崩溃；角色提示使自我报告更一致，但不改变行为。结论：粗粒度人格框架（如大五）不适合测试部署行为。

安全/对齐论文/研究评测/基准

05:55

HuggingFace Daily Papers（社区热门论文）

精选76

精确性不等于忠实度：完整Oracle下的覆盖感知接地生成评估

无参考忠实度度量仅衡量精确率（陈述是否被支持），鼓励模型少说甚至不说以获得高分。本研究利用F1遥测（确定性完整ground truth）和NOAA天气预报两个完整Oracle领域，证明此盲点：在多语言（EN/ES/PT）共7253个决策实例（覆盖150场比赛）的基准上，最精确的前沿模型仅覆盖不到一半相关事实，按F1排名垫底。引入覆盖度（召回率）后系统排序改变；显式要求详尽也无法弥补差距。作者提出将忠实度与覆盖度合并为单一分数，并给出无参考验证器引导生成方法，同时提升精确率和召回率。相关基准、标注、度量、基线及交互演示已开源。

论文/研究评测/基准

推荐理由：这个研究戳破了自动评估里 Faithfulness 的泡沫，指标只看模型「说对多少」不看「说全没有」，沉默的模型反而拿高分，以后评测不能只看精确度了，做评估的得补上覆盖度这一环。

04:43

TechCrunch：AI（RSS）

同事件精选72

Anthropic 的 Claude Fable 5 能一键生成古怪好玩的视频游戏

Anthropic 发布 Claude Fable 5，可一键生成古怪好玩的视频游戏，预计将在网页 vibe coders 中广受欢迎。

Anthropic 模型发布编码评测/基准

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Fable 5是Mythos的首次公开亮相，Ethan Mollick的单提示生成游戏实测让人看到代码生成已近‘一键出活’，对开发者来说是个信号——整个技术栈都要重新评估。

03:55

Hugging Face：Blog（RSS）

精选67

Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言，基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统，包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现：代码切换的转录成本因语言对和模型而异；ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face 评测/基准语音

推荐理由：如果你在给多语言客户做语音Agent，这篇博客直接把主流ASR的code-switching能力测了一遍，ElevenLabs Scribe V2目前最强，还开源了数据集，拿来就能测自己的模型。

6月9日

12:55

HuggingFace Daily Papers（社区热门论文）

评估卡片：AI评估报告的可解读层

AI评估结果规模庞大但报告不一致，导致读者难以跨来源比较、识别遗漏或追溯结论。Evaluation Cards通过整合基准元数据、评估运行数据和模型元数据，形成统一记录。方法包括：(1)从52篇论文和10次利益相关者访谈中推导报告模式；(2)实现四个可解释信号（可复现性、文档完整性、来源与风险、分数可比性），并针对研究与非研究受众提供不同读者模式；(3)部署监控工具，覆盖5816个模型、635个基准和101843个结果，揭示当前报告实践中的系统性缺口。

arXiv 论文/研究评测/基准部署/工程

10:55

HuggingFace Daily Papers（社区热门论文）

SpatialWorld：多模态智能体在真实世界任务中的交互式空间推理基准

SpatialWorld 是为评估多模态智能体在复杂真实任务中的交互式空间理解而设计的统一基准。它整合 8 个异构模拟后端，包含 760 个人工标注任务，覆盖家庭日常、旅行、社交协作等场景。智能体需在仅视觉部分可观测条件下主动收集第一人称证据，并通过统一文本动作接口输出决策。对 15 个先进多模态智能体的评测显示，最强闭源模型 GPT-5 平均任务成功率仅 17.4%，最强开源模型 Qwen-3.5 达 14.1%。分析表明任务成功与执行效率存在脱节，不同领域性能差异显著，主动探索与长程规划仍是瓶颈。

arXiv 具身智能多模态论文/研究

10:33

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选71

FrontierCode 在 Hacker News 获 101 分

cognition.ai 的 FrontierCode 项目在 Hacker News 上获得 101 个 points。目前公开信息仅包含项目名称和来源，具体功能、技术细节或性能数据尚未披露。

开源生态编码评测/基准

同一事件，精选展示《FrontierCode 基准测试：AI 编程评估新标准--维护者审核通过率最高仅 13.4%》

推荐理由：这是第一个真正衡量「代码能不能被合并」的基准，由几十位开源仓库维护者亲手设计标准，填补了 SWE-Bench 只测正确性不测质量的盲区。虽然任务集不公开，但它对‘生产级代码智能体’的评估思路会直接影响接下来的模型选型。