5月6日

17:22

Hugging Face：Blog（RSS）

Hugging Face 的 Open ASR Leaderboard 加入了来自 Appen Inc. 和 DataoceanAI 的高质量私有英语 ASR 数据集，涵盖多种口音及脚本式/会话式语音，总时长约 28.7 小时。数据集保持私有以降低 benchmaxxing（针对基准的过度优化）或测试集污染风险。默认平均 WER 仍基于公开数据集计算，用户可通过切换查看私有数据集影响。标准化采用基于 Whisper 的标准化器，UI 代码和评估脚本已开源。自 2023 年 9 月上线以来，该榜单访问量已超过 71 万次。

Hugging Face 产品更新开源/仓库评测/基准

08:27

Simon Willison 博客

datasette-referrer-policy 0.1 发布

Datasette 新插件 datasette-referrer-policy 0.1 发布，旨在解决 global-power-plants 演示中 OpenStreetMap 地图瓦片无法显示的问题。问题由两个原因导致：一是站点此前添加的 CAPTCHA 错误拦截了地图插件发起的 .json 请求，该问题已修复；二是 OpenStreetMap 会屏蔽使用了 Referrer-Policy: no-referrer 头部的站点请求。此插件允许用户将 Datasette 默认的此头部策略更改为其他值，从而确保地图正常加载，同时不影响默认安全设置。插件的开发过程得到了 Codex 与 GPT-5.5 的辅助。

开源/仓库部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

RaguTeam在SemEval-2026任务8中：基于评判者协调的LLM集成系统实现忠实多轮响应生成

RaguTeam团队在SemEval-2026任务8的B任务（基于参考段落生成）中获胜。其方法采用一个包含七个大型语言模型的异构集成系统，结合两种提示变体，并由GPT-4o-mini作为评判者为每个实例选择最佳响应。该系统在26支队伍中排名第一，以0.7827的条件调和平均值显著优于最强基线模型。消融实验证明，模型家族、规模和提示策略的多样性对集成效果至关重要。团队还发布了领域适应的7B模型Meno-Lite-0.1，在成本与性能间取得了良好平衡，并对任务数据集的标注局限性及改进方向进行了分析。相关代码已开源。

开源/仓库论文/研究

5月5日

12:17

HuggingFace Daily Papers（社区热门论文）

精选75

MolmoAct2：面向真实世界部署的动作推理模型

MolmoAct2 是一个为实际部署设计的全开放动作推理模型，在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER，基于 330 万样本语料库训练。团队发布了三个新数据集，包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM（720 小时遥操作轨迹），并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构，嫁接连续动作专家，还引入自适应深度推理变体 MolmoThink，以极低延迟保持几何基础。在广泛实证研究中，MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线，MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Robotics ER-1.5。模型权重、训练代码与数据均已公开。

智能体具身智能多模态开源/仓库

推荐理由：开源具身动作推理模型首次全面超越 GPT-5 和 Gemini Robotics，还附赠最大的双手操作数据集和全套训练代码，做机器人的同学本周必读。

11:17

HuggingFace Daily Papers（社区热门论文）

AcademiClaw：当学生为AI智能体设定挑战

研究团队推出AcademiClaw双语基准测试集，包含80项源自大学生真实学术流程的复杂长周期任务，涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选，覆盖超过25个专业领域，包括奥数、语言学、GPU密集型强化学习等，其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行，采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示，最佳通过率仅为55%，分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。

智能体开源/仓库论文/研究评测/基准

02:16

Simon Willison 博客

TRE Python 绑定--ReDoS 鲁棒性演示

作者受 antirez 将 TRE 正则表达式引擎集成到 Redis 的启发，深入探索了 Ville Laurikari 开发的 TRE 引擎。他利用 Claude Code 构建了一个基于 ctypes 的实验性 Python 绑定库，并针对该库进行了一系列恶意的正则表达式攻击测试。结果显示，由于 TRE 引擎不支持回溯机制，其在抵御这些攻击方面的表现远优于 Python 标准库中的正则表达式实现。

GitHub 开源/仓库编码

5月4日

23:56

Hacker News 热门（buzzing.cc 中文翻译）

精选72

Show HN： Ableton Live MCP

这是一个名为 Ableton Live MCP 的开源项目，它通过模型上下文协议（MCP）将 Ableton Live 音乐制作软件与大型语言模型（如 GPT、Claude）连接起来。该项目在 Hacker News 上获得了 100 点热度，其核心功能是让 LLM 能够读取和控制 Ableton Live 的会话数据，从而可能实现基于自然语言指令的音乐创作与自动化流程。

MCP/工具开源/仓库

推荐理由：给 Ableton Live 接上了 LLM 的大脑，让 AI 能直接操作 DAW，虽然还只是原型，但已经能看到未来音乐制作的人机协作模式。做音频 Agent 的可以拿来玩。

08:20

Hacker News 热门（buzzing.cc 中文翻译）

精选72

DeepClaude - 搭载 DeepSeek V4 Pro 的 Claude Code 代理循环，价格仅为原价的 1/17

DeepClaude项目在GitHub上发布，它是一个结合了DeepSeek V4 Pro模型的Claude代码代理循环工具。该工具的核心优势在于显著降低了使用成本，其价格仅为原Claude方案的1/17，即便宜了约17倍。这一开源方案为开发者提供了一个高性能且极具成本效益的代码生成与处理替代选择。

Anthropic 开源/仓库编码

推荐理由：用 DeepSeek V4 Pro 跑 Claude Code 代理循环，成本直接打到一杯奶茶钱，虽说不一定每个任务都能媲美原版，但便宜成这样还要什么自行车？