5月1日

08:00

HuggingFace Daily Papers（社区热门论文）

针对代码奖励模型研究不足且现有模型多局限于功能正确性评分的问题，研究团队构建了Themis-CodeRewardBench基准，用于在5个偏好维度和8种编程语言上评估模型，并分析了50多个现有模型。为改进模型，团队创建了迄今最大的开源代码偏好数据集Themis-CodePreference（含超35万个偏好对），并据此训练了参数规模从6亿到320亿不等的Themis-RM系列多语言代码奖励模型，支持灵活的多标准评分。实验表明，模型具有正向缩放趋势，在多样化偏好训练下展现出强大的跨语言迁移能力，验证了多标准训练对可靠代码奖励建模的重要性。

Hugging Face 数据/训练论文/研究

03:16

Anthropic@AnthropicAI

同事件精选63

人们如何向Claude寻求指导？我们分析了100万次对话，以了解人们提出什么问题、Claude如何回应，以及它何时会陷入阿谀奉承。我们利用这些发现改进了Opus 4.7和Mythos Preview的训练方式。 https://www.anthropic.com/research/claude-personal-guidance

Anthropic 安全/对齐数据/训练

同一事件，精选展示《用户如何向Claude寻求个人生活指导及其模型优化》

推荐理由：百万条真实对话里扒出谄媚模式，Anthropic 没光发论文，直接把结论灌进 Opus 4.7 训练，做助手的值得细看用户到底在问什么、模型又怎么滑向讨好。

03:14

Epoch AI@EpochAIResearch

有多少AI算力被走私到中国？我们估计到2025年底将达到29万至160万H100等效算力--约占中国总算力的20%至60%。

数据/训练现象/趋势论文/研究

02:14

Hacker News 热门（buzzing.cc 中文翻译）

在 PyTorch Lightning AI 训练库中发现以"沙伊-胡鲁德"为主题的恶意软件

安全平台 semgrep.dev 报告，在流行的 PyTorch Lightning AI 训练库中发现了名为“沙伊-胡鲁德”的恶意软件。该恶意代码通过库的依赖项进行植入，可能在使用受影响版本进行人工智能训练的项目中执行恶意操作。此事件在 Hacker News 上引发广泛讨论，获得了 111 点热度，突显了开源软件供应链的潜在安全风险。建议开发者立即检查并更新项目依赖，以防范此类供应链攻击。

安全/对齐开源生态数据/训练

02:09

Rohan Paul@rohanpaul_ai

谷歌AI领先优势源于长期战略投资，非仓促应对ChatGPT

《时代》杂志指出，谷歌在人工智能领域的领先地位，源于CEO桑达尔·皮查伊早期对DeepMind、TPU芯片、云基础设施及AI产品的一系列长期投资，而非对ChatGPT的仓促反应。其核心优势在于对研究、芯片、云服务、产品和覆盖数十亿用户的分发渠道实现全栈控制。通过将定制芯片制造与统一的研究实验室深度融合，谷歌获得了对AI架构的绝对控制权，能利用自研TPU高效执行复杂计算，同时让工程师得以低成本大规模扩展模型预训练，而无需像竞争对手那样承受高昂的外部芯片采购成本。

DeepMind Google 大佬观点搜索

4月30日

22:43

Qwen@Alibaba_Qwen

精选73

Qwen-Scope开源套件发布：稀疏自编码器助力模型内部特征操控

Qwen团队推出开源稀疏自编码器套件Qwen-Scope，将SAE特征转化为实用工具。该套件支持四大应用方向：无需提示工程即可通过直接操控内部特征引导模型输出；用极少样本对目标数据进行分类与合成，提升长尾能力；追踪代码切换和重复生成问题的根源并进行修复；通过分析特征激活模式优化评测基准并减少冗余。团队希望社区利用Qwen-Scope深入探索Qwen模型内部机制，并开发出超越现有研究范围的应用。相关资源已开放。

Hugging Face 开源/仓库开源生态数据/训练

推荐理由：可解释性工具从学术走向工程，Qwen-Scope 把内部特征操控、数据合成、问题溯源打包成套装，做模型调试和长尾优化的团队值得立刻上手试试。

22:13

向阳乔木@vista8

DeepSeek-VL论文揭示多模态训练最佳配方：70%文本+30%多模态

DeepSeek-VL论文指出，多模态训练会损害语言模型的语言能力，使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合，并强调视觉与语言模态之间存在固有竞争关系，这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

向阳乔木: http://x.com/i/article/2049847033758916609

DeepSeek 多模态数据/训练论文/研究

21:41

Chubby♨️@kimmonismus

精选76

Meta首次日活用户下降，资本支出激增致股价大跌

2026年第一季度，Meta全球日活跃用户首次下降，“应用家族”日活减少2000万。公司归因于伊朗网络中断和俄罗斯禁用WhatsApp，但合并数据掩盖了具体应用流失。同时，Meta将2026年资本支出指引上调至1250-1450亿美元，主要用于应对内存芯片涨价和加码AI基础设施投资，日均投入约4亿美元。尽管营收增长33%至563亿美元、净利跃升61%，公司仍计划裁员8000人以“抵消”AI投资成本，Reality Labs部门亏损40亿美元。华尔街对其支出轨迹不满，股价盘后大跌超7%。

Meta 数据/训练行业动态

推荐理由：Meta 日活首降叠加千亿 AI 资本开支，这份财报把社交帝国的焦虑摊在了桌面上，用户流失与 AI 军备竞赛同时加速，信号交叉值得细看。

21:12

The Decoder：AI News（RSS）

OpenAI 称其已提前数年达成 10 吉瓦计算能力目标

OpenAI 宣布已在美国提前数年实现了 10 吉瓦的 AI 计算能力目标。这一计算规模原计划在未来几年达成，提前完成意味着公司获得了远超预期的强大算力基础设施，足以支持下一代大规模 AI 模型的训练与部署。10 吉瓦的算力相当于多个大型数据中心的能耗，标志着 OpenAI 在计算资源竞赛中取得了关键进展。

OpenAI 数据/训练行业动态

21:10

IT之家（RSS）

通用汽车：下一代 Super Cruise 每天都用人类百年驾驶经验进行训练

通用汽车在收缩电动车计划的同时，其Super Cruise高级驾驶辅助系统成为业务亮点，累计行驶里程已超16亿公里。公司正利用这些海量真实道路数据，通过每日模拟约100年人类驾驶经验的数字环境，训练下一代系统。通用计划于2028年在凯迪拉克凯雷德IQ上推出L3级脱手脱眼自动驾驶系统。公司CEO透露，近90%的自动驾驶代码由AI生成，并强调该系统未来将同时部署于燃油车和电动车，覆盖多品牌与不同价位车型。

具身智能数据/训练行业动态

20:42

The Decoder：AI News（RSS）

FDA 在 DOGE 裁员后寻求重建，押注 AI 与云监控革新临床试验

FDA 启动了一项试点项目，通过人工智能与云计算技术对临床试验进行实时监控。该机构表示，此举有望大幅缩短新药的审批时间。这一举措是 FDA 在经历 DOGE 裁员后，为重建并提升监管效率而推动的关键技术转型。

政策/监管数据/训练

20:10

ginobefun@hongming731

京东广告发布GRAM架构，用大模型知识工程突破推荐瓶颈

京东广告团队推出GRAM架构，旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱，将商品属性与业务规则作为“事实护栏”注入，以杜绝AI幻觉，确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式，即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时，GRAM将企业内隐知识结构化作为上下文，使大模型能进行复杂的深度决策，而非仅计算曝光。

教程/实践数据/训练部署/工程

19:11

Chubby♨️@kimmonismus

四大科技巨头云收入激增，资本开支飙升引市场担忧

Meta、亚马逊、Alphabet和微软2026年第一季度营收均超预期，云业务增长强劲，其中Google Cloud收入暴涨63%首次突破200亿美元。然而，四家超大规模企业2026年资本开支总额预计将超过6500亿美元，巨额AI基础设施投资引发市场焦虑，导致Meta和微软股价在盘后下跌。这些巨头在计算领域的投入规模正重塑全球经济，其投资能否带来相应回报将定义未来十年的科技投资格局。

Google Microsoft 数据/训练行业动态

18:10

IT之家（RSS）

微软预计 2026 年资本支出因组件成本上升增长 250 亿美元

微软预计其2026日历年资本支出将达1900亿美元，其中250亿美元源于AI浪潮导致的硬件组件成本上升。2026财年第三财季资本支出为319亿美元，主要用于GPU、CPU等短期资产；预计第四财季支出将超400亿美元，内含50亿美元涨价因素。由此推算，2026日历年下半年资本支出将接近1200亿美元，显著高于上半年。此外，必应搜索月活用户首次突破10亿，Edge浏览器份额持续增长，Xbox月活与游戏流媒体时长也创下新高。

Microsoft 数据/训练行业动态

17:39

Rohan Paul@rohanpaul_ai

Anthropic研究显示Claude能解决人类专家遗漏的真实生物信息学问题

Anthropic最新研究利用BioMysteryBench测试平台评估Claude在真实生物信息学问题上的能力。该测试将客观答案隐藏于真实数据集中，涵盖99项任务。在至少一位人类专家解决的76个问题上，Claude Mythos Preview模型准确率约为83%；更值得注意的是，在23个专家小组未能解决的问题上，该模型仍解决了其中约29.6%。然而，模型在困难问题上的成功重复性较低，表明其表现尚不稳定。研究指出，Claude最有效的模式并非充当“先知”，而是扮演快速研究协作伙伴的角色：通过分层使用方法、交叉验证证据并运用广泛背景知识来缩小搜索空间。

Anthropic 数据/训练论文/研究

16:39

Chubby♨️@kimmonismus

Anthropic发布BioMysteryBench基准，AI在复杂生物信息学难题上开始超越人类专家

Anthropic发布了BioMysteryBench基准测试，包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型（4.7）解决了大部分人类专家能处理的任务，并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识，并在不确定时叠加多种分析策略。Genentech和Roche的独立测试（CompBioBench）中，Claude Opus 4.6总体准确率达81%，最难问题准确率69%。两项基准共同表明，AI已在部分最困难的生物学问题上超越人类专家。

Anthropic: New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against ...

Anthropic 数据/训练论文/研究