6月7日

08:00

HuggingFace Daily Papers（社区热门论文）

CoVEBench 是一个组合视频编辑基准，包含 416 个源视频、626 条多点编辑指令和 9,990 个细粒度检查项，覆盖多维度编辑任务。它通过 MLLM 评判指令遵守度与视频保真度，并结合自动指标评估视频质量。实验表明，当前模型在同时处理多操作时仍频繁遗漏编辑、违反保留约束或引入伪影，组合编辑是重大挑战。

多模态视频论文/研究

04:26

Hacker News 热门（buzzing.cc 中文翻译）

莱比锡的基准测试（Benchmarks in Leipzig）

一篇题为“Benchmarks in Leipzig”的学术论文于2026年6月6日发布在 arXiv 上，并在 Hacker News 上获得 101 个点赞。该论文关注莱比锡相关的基准测试研究，但其具体方法、数据集及结果未在当前摘要页面中详述。该条目来自 buzzing.cc 对 Hacker News 热门帖子的中文翻译，提供了原文链接（arXiv）及 HN 讨论页。

推理论文/研究

01:01

Rohan Paul@rohanpaul_ai

MIT论文提出Self-Revising Discovery Systems框架

MIT论文（F.Y. Wang & M.J. Buehler, arXiv:2606.01444, 2026）提出Self-Revising Discovery Systems框架，使AI科学家能自主识别当前思维模式不足并添加新科学概念，而非仅更努力搜索。系统将数据、模型、工具输出、失败及声明均视为类型化产物（typed provenance），从而区分三种模式：retrieval（添加已知对象）、search（探索固定模式）和discovery（可验证的模式转换）。论文通过Kan obstruction和Left Kan extension数学化定义了真正新颖性——由旧证据传输后的逐点残差量化，使novelty可客观测量。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性，以及CategoryScienceClaw发现各向异性纤维网络刚度规则。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体 arXiv 推理论文/研究

00:30

Rohan Paul@rohanpaul_ai

MIT团队提出自我演进AI科学家框架：让AI主动扩展科学概念空间

MIT团队提出自我演进AI科学家框架，核心创新是让AI识别当前推理空间过小并主动添加新科学概念，而非仅在固定模式内搜索。论文将数据点、模型、工具输出、失败、声明均视为带类型的artifact，明确区分检索（添加已知对象）、搜索（探索固定schema）和发现（可验证的模式扩展）。通过类型化copresheaf与Kan障碍理论证明，真正发现是可验证的schema扩展：旧证据由左Kan扩展传输，创新性通过逐点残差量化。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性，以及CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444（2026）。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体 arXiv 推理论文/研究

6月6日

23:30

elvis@omarsar0

CL-Bench：记忆系统不如简单上下文学习

持续学习领域投入多但进展缓慢。CL-Bench（持续学习基准）在六个由专家验证、包含共享可学习结构的领域上测试，发现简单的上下文学习（ICL）基线优于专门为记忆管理构建的系统。该基准引入增益指标以隔离真正学习效果，结果显示智能体常过度拟合即时观察或未能跨实例复用知识。研究指出，若普通ICL基线超过你的记忆架构，则该架构增加的是开销而非学习。论文：arxiv.org/abs/2606.05661。

智能体 arXiv 数据/训练论文/研究