全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1210 条

全部一手资讯 X 论文

标签「数据/训练」清除

6月4日周四

11:42HuggingFace Daily Papers（社区热门论文）65STRIDE：通过子集扰动的稀疏恢复实现训练数据归因

09:42HuggingFace Daily Papers（社区热门论文）63GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

08:10IT之家（RSS）72同事件精选深陷版权诉讼仍受资本热捧，AI 音乐生成公司 Suno 再融资 4 亿美元同一事件，精选展示《Suno完成4亿美元D轮融资》

08:00HuggingFace Daily Papers（社区热门论文）51在LLM个性化中重新以人为中心

08:00HuggingFace Daily Papers（社区热门论文）42ActiveMimic：基于主动感知的自我中心视频预训练

08:00HuggingFace Daily Papers（社区热门论文）47AsyncWebRL：面向视觉Web智能体的高效多步强化学习

08:00HuggingFace Daily Papers（社区热门论文）56OPDLM：基于On-Policy蒸馏的数据高效自回归到扩散语言模型转换

08:00HuggingFace Daily Papers（社区热门论文）57压缩-蒸馏：面向高效知识蒸馏的推理轨迹压缩

02:49Google Research：Blog（网页）72精选洪水韧性新篇章：Google 开源水文建模框架

02:42HuggingFace Daily Papers（社区热门论文）57条件假设生成：基于大语言模型的文本分析中研究者指定协变量

01:23Claude：Blog（网页）73精选Anthropic 用 Claude 赋能自助数据分析

6月3日周三

22:09IT之家（RSS）68谷歌母公司 Alphabet 宣布将股权融资规模增至 847.5 亿美元

21:41Hugging Face：Blog（RSS）55精选DharmaOCR 利用 DPO 将文本退化率降低 59.4%

19:37Hacker News 热门（buzzing.cc 中文翻译）49自然界中蛋白质折叠的不合理冗余

18:09IT之家（RSS）41SK 海力士展出 12 层堆叠 48GB HBM4E 内存，引脚速率 16Gbps

17:16The Verge：AI（RSS）61AI 用水问题，Google 认为找到了解决办法

14:42HuggingFace Daily Papers（社区热门论文）64PaddleOCR-VL-1.6：通过欠优化区域精修与渐进式后训练拓展文档解析前沿

13:09IT之家（RSS）52智元开源行业首个聚焦物理交互的具身数据集

11:09IT之家（RSS）60谷歌付费获取安卓开发者私有代码库访问权以改进AI编程工具

10:41HuggingFace Daily Papers（社区热门论文）56Humanoid-GPT：通过规模化数据与结构实现零样本动作追踪

09:16MarkTechPost（RSS）64如何在 Google Colab 上使用 QLoRA 和 DPO 微调 LFM2：完整分步编码教程

09:09IT之家（RSS）58Meta 让步：员工可暂停鼠标键盘数据收集 30 分钟

08:00HuggingFace Daily Papers（社区热门论文）55Muon 优于 Adam 的曲率视角解释

08:00HuggingFace Daily Papers（社区热门论文）61DistIL：基于分布化DAgger的丰富反馈强化学习方法

08:00HuggingFace Daily Papers（社区热门论文）55VideoKR：面向知识与推理密集型视频理解

08:00HuggingFace Daily Papers（社区热门论文）61重新思考持续经验内化：面向自进化LLM智能体

03:41HuggingFace Daily Papers（社区热门论文）66DOT-MoE：用于MoE化的可微最优传输

01:40HuggingFace Daily Papers（社区热门论文）71精选AFUN：迈向功能理解的可供性基础模型

00:22Gary Marcus：The Road to AI We Can Trust（RSS）55精选Gary Marcus：为什么事情终将崩塌

6月2日周二

20:40HuggingFace Daily Papers（社区热门论文）71精选NLP领域2018-2025年人类标注报告实践的大规模审计

15:07IT之家（RSS）56国家版权局等四部门启动"剑网 2026"专项行动

13:07IT之家（RSS）54三星在 2026 台北电脑展展示全球首款 HBM5 内存

11:40HuggingFace Daily Papers（社区热门论文）67PEFT的扩展性研究：迈向由万亿参数模型支撑的百万个人模型

10:07IT之家（RSS）47AI 气象模型 WeatherMesh-6 发布，预报精度超欧洲政府机构顶尖系统

09:42MarkTechPost（RSS）59使用 NVIDIA Apex （FusedAdam， FusedLayerNorm）和 torch.amp 加速 Transformer 训程程

09:33Hacker News 热门（buzzing.cc 中文翻译）79Alphabet 宣布筹集 800 亿美元股权融资，用于扩展人工智能基础设施和计算能力

09:00公众号：蚂蚁百灵（Ling）50KPop：用对称二元KL散度解决MoE大模型RL训练推理不一致问题

08:00HuggingFace Daily Papers（社区热门论文）41小模型是GRPO中策略级多样性的天然探索者：S2L-PO框架

08:00HuggingFace Daily Papers（社区热门论文）50Curation-Bench：通用智能体能否自动化数据筛选？

08:00HuggingFace Daily Papers（社区热门论文）38语法推理：合成语言学推理轨迹能否增强低资源机器翻译？

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月4日

11:42

HuggingFace Daily Papers（社区热门论文）

65

STRIDE：通过子集扰动的稀疏恢复实现训练数据归因

训练数据归因(TDA)旨在追溯模型预测与训练数据的关联。STRIDE框架将TDA建模为压缩感知思想下的稀疏恢复问题，学习轻量级“转向算子”以模拟训练数据子集引起的模型行为变化，通过测量这些算子对测试预测的扰动，利用稀疏线性分解恢复单个训练样本的影响。该方法在大语言模型(LLM)预训练归因任务上达到当前最优，且速度比此前方法快13倍。下游实验验证了其在数据选择、数据污染检测及定性分析中的实用性。

数据/训练论文/研究

09:42

HuggingFace Daily Papers（社区热门论文）

63

GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

可验证奖励强化学习（如GRPO）常用统一的序列级优势更新所有token，稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法，利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示，GRAIL一致优于GRPO，平均准确率提升3.60%，Pass@3提升3.05%，无需过程级监督即可实现细粒度推理对齐。

arXiv 推理数据/训练论文/研究

08:10

IT之家（RSS）

同事件精选72

深陷版权诉讼仍受资本热捧，AI 音乐生成公司 Suno 再融资 4 亿美元

AI 音乐生成企业 Suno 完成 4 亿美元 D 轮融资，投后估值 54 亿美元，较七个月前 C 轮估值翻番。公司承认使用受版权保护歌曲训练 AI 模型，但辩称符合合理使用原则。索尼与环球音乐 2024 年首次起诉后，涉案曲目从 560 首增至超 6.1 万首；华纳音乐于 2024 年 11 月与 Suno 和解并签订授权协议。本轮由 Bond Capital 领投，用户日均生成 AI 歌曲超 700 万首。

数据/训练行业动态语音

同一事件，精选展示《Suno完成4亿美元D轮融资》

推荐理由：一边被三大唱片巨头起诉，一边估值翻倍到54亿美元，资本对AI版权风险的容忍度比我们想的要大得多。创作者和平台都得重新想「合理使用」的边界在哪了。

08:00

HuggingFace Daily Papers（社区热门论文）

51

在LLM个性化中重新以人为中心

研究收集550段人类对话，在三阶段获取人工判断：提取属性5949项、配对属性11919项、生成个性化回复1101项。发现LLM从真实对话中提取属性及配对时均与人类判断分歧，生成回复人类评价不比通用回复好，但LLM自评更高。两种轻量训练干预使前两阶段自动评估更接近人类数据，但第三阶段奖励模型与人类评分仅中等相关。数据集为研究模型提取、选择、融入用户信息提供基础。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

ActiveMimic：基于主动感知的自我中心视频预训练

ActiveMimic 是一个预训练框架，从单个人体佩戴的 RGB 摄像头中恢复同步的相机和手腕轨迹，将相机运动建模为视角动作，从而在野外第一人称人类视频上联合学习主动感知和操作能力，再迁移至目标机器人。跨任务真实世界实验表明，ActiveMimic 持续超越基于人类视频预训练的基线，并达到与基于机器人数据预训练的 SOTA 模型相当的性能。进一步分析确认主动感知能力源自第一人称视频预训练，而非机器人微调。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

AsyncWebRL：面向视觉Web智能体的高效多步强化学习

AsyncWebRL采用异步系统设计，重叠rollout、梯度更新与策略刷新，并引入永久rollout池和轻量截图处理，比此前最快开源同步流程WebGym实现最高2.9倍端到端训练吞吐加速。算法方面将多步GRPO中每轨迹归一化因子1/|τ_i|替换为常数1/k，解除了失败轨迹对梯度权重的耦合，压缩轨迹长度。在WebGym分布外测试集上创下新开源SOTA（相对+5.8%），Medium子集+42%，Hard子集+48%。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

OPDLM：基于On-Policy蒸馏的数据高效自回归到扩散语言模型转换

现有方法将自回归模型（ARLM）转换为扩散语言模型（DLM）时面临两种分布偏移：目标函数切换导致知识丢失，以及训练时随机掩码序列与推理时置信度解码轨迹不匹配。研究者提出OPDLM，采用On-Policy蒸馏（OPD）进行转换。学生模型（双向注意力的ARLM）生成自身轨迹，教师模型（冻结的原ARLM）在这些轨迹上提供目标logits完成知识蒸馏。OPDLM以on-policy方式训练，消除了DLM的训练-推理不匹配，蒸馏机制保留了原ARLM知识。实验表明，OPDLM仅需原训练token量的1/15至1/7000，在多样任务上表现强劲，使DLM转换成为ARLM后训练手段。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

压缩-蒸馏：面向高效知识蒸馏的推理轨迹压缩

Qwen3.5-397B-A17B与gpt-oss-120B两教师模型各生成约283k条正确轨迹，经指令微调模型压缩至原始字符长度的8.6–21.0%。压缩轨迹使训练token降至原始的12–30%，训练速度提升2.0–7.6倍，推理输出长度缩短3–19倍。但原始轨迹在所有规模下保持最高下游准确率；压缩学生模型可保留高达96%的原始准确率，同时获得最高18倍的每token效率。在0.8B学生规模使用LoRA时，压缩轨迹缩小了与原始轨迹的差距，但未超过原始。

推理数据/训练论文/研究

02:49

Google Research：Blog（网页）

精选72

洪水韧性新篇章：Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架，这是一个基于 PyTorch 的 Python 包，采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据，并已与捷克水文气象研究所（CHMI）等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时，整合基于 AI 的洪水预报。

Google 开源/仓库开源生态数据/训练

推荐理由：谷歌开源的水文模型框架，是少数真正能救命的AI应用。不是秀参数，而是把工具直接塞给一线预报员，让他们用本地数据训练。务实，值得给赞。

02:42

HuggingFace Daily Papers（社区热门论文）

57

条件假设生成：基于大语言模型的文本分析中研究者指定协变量

计算社会科学的核心目标是发现语言在不同结果中的可解释差异。现有基于LLM的假设生成方法仅选取全局判别模式，忽略研究者领域知识中的协变量，导致所选模式可能反映混淆而非实质差异。本文提出条件假设生成框架，通过纳入研究者指定的协变量，引导假设发现聚焦于相关子群内成立的差异。针对子群代表性不足（层不平衡）和差异方向可能逆转（符号反转）两个挑战，提出两种方法：引入特征-协变量交互检测符号反转，以及应用层内去均值和逆频率重加权平衡欠代表层。实验表明，协变量感知的生成方法能在相关子群内产出更有用的假设。

arXiv 数据/训练论文/研究

01:23

Claude：Blog（网页）

精选73

Anthropic 用 Claude 赋能自助数据分析

Anthropic 使用 Claude 自动化了 95% 的业务分析查询，整体准确率约 95%。其关键在于构建智能体分析栈（agentic analytics stack），通过数据基础层、维护验证流程和技能（skills）分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景，数据分析的难点在于将用户问题映射到正确的数据实体，而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。

智能体 Anthropic 教程/实践数据/训练

关联讨论 1 条X：Claude Devs (@ClaudeDevs)

推荐理由：Anthropic 把内部用 Claude 搞自助分析踩过的坑全摊开，技能模板和「语义层优先」的强制流程是实打实的干货，做数据 agent 的团队可以直接抄作业。

6月3日

22:09

IT之家（RSS）

68

谷歌母公司 Alphabet 宣布将股权融资规模增至 847.5 亿美元

Alphabet 将股权融资规模从 800 亿美元增至 847.5 亿美元，用于投资 AI 基础设施与算力。其中 A 类普通股和 C 类资本股发行增至 180 亿美元，存托股份发行增至 167.5 亿美元；伯克希尔·哈撒韦以私募形式投资 100 亿美元。发行预计 2026 年 6 月初完成。

数据/训练行业动态

21:41

Hugging Face：Blog（RSS）

精选55

DharmaOCR 利用 DPO 将文本退化率降低 59.4%

4月发布的DharmaOCR（结构化OCR模型）在巴西葡萄牙语文档提取任务中，使用直接偏好优化（DPO）作为监督微调（SFT）后的第二训练阶段。SFT无法直接惩罚文本退化（重复循环），而DPO以模型自身失败输出（退化循环）作为负样本进行偏好训练，使所有测试模型族的文本退化率平均降低59.4%，最高达87.6%（如Nanonets-OCR2-3B从1.61%降至0.20%）。传统DPO多用于聊天对齐，该工作将其扩展至客观的OCR任务，证明DPO可针对性修复特定失败模式。

Hugging Face 教程/实践数据/训练

推荐理由：DPO 不只能对齐，这篇直接用模型自身的垃圾输出当反例，把 OCR 的重复错误平均降了 59%。思路不复杂，但告诉做结构化生成的工程师：训练数据里最该保留的就是模型犯的错。

19:37

Hacker News 热门（buzzing.cc 中文翻译）

49

自然界中蛋白质折叠的不合理冗余

标题为《自然界中蛋白质折叠的不合理冗余》，指出蛋白质折叠结构存在不合理的冗余现象。文章发布于 research.ligo.bio，在 Hacker News 获得 100 点赞。

数据/训练论文/研究

18:09

IT之家（RSS）

41

SK 海力士展出 12 层堆叠 48GB HBM4E 内存，引脚速率 16Gbps

SK 海力士在 COMPUTEX 上展出 HBM4E 48GB 12Hi 样品，基于 12 层 32Gb 1cnm DRAM Die，引脚速率 16.0Gbps，带宽 4.0TB/s，较前代带宽提升 38%、单 Die 容量提升 33%。客户端存储方面，确认基于 V9 TLC 的 PVF01 为首款 DRAM-less PCIe Gen5 客户端 SSD。其他展品包括用于 DGX Spark 的 1anm 16GB LPDDR5X-8533、支持 DLC 液冷的 PEB210 E1.S SSD 及面向 Vera Rubin 的 1cnm 96GB LPDDR5X-9600 SOCAMM2。

数据/训练行业动态

17:16

The Verge：AI（RSS）

61

AI 用水问题，Google 认为找到了解决办法

Google 发布五项水管理新承诺，旨在减少 AI 数据中心对当地水资源的影响。核心目标包括到 2030 年实现补水总量超过数据中心用水量，同时投资当地水基础设施、寻找替代水源，并提高用水信息透明度。该公司表示将公开其整体用水情况。

Google 数据/训练行业动态

14:42

HuggingFace Daily Papers（社区热门论文）

64

PaddleOCR-VL-1.6：通过欠优化区域精修与渐进式后训练拓展文档解析前沿

PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型，基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域，该模型引入了区域感知数据优化框架进行定向增强，并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩，展现出与顶尖VLMs的竞争力。

arXiv 多模态数据/训练论文/研究

13:09

IT之家（RSS）

52

智元开源行业首个聚焦物理交互的具身数据集

智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互（Rich Interaction）”。这是行业首个聚焦物理交互的开源具身数据集，系统记录机器人与真实物理世界之间复杂、高密度的交互过程，面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”，目前已在 Hugging Face 平台开放下载。

Hugging Face 具身智能开源/仓库数据/训练

11:09

IT之家（RSS）

60

谷歌付费获取安卓开发者私有代码库访问权以改进AI编程工具

据IT之家报道，谷歌正联系安卓应用开发者，希望付费获取其私有代码库的访问权。此举旨在获取“高质量、真实世界代码库”，用于改进Gemini、Antigravity 2.0等开发者工具。邮件强调授权为非独占方式，开发者保留100%知识产权。谷歌表示，真实代码包含生产环境中的复杂逻辑与业务背景，比公开仓库更利于训练面向真实工程场景的AI编程工具。报道指出，该计划反映了谷歌在编程AI领域面临来自GitHub Copilot和Anthropic Claude Code等产品的竞争压力。

Google 数据/训练编码行业动态

10:41

HuggingFace Daily Papers（社区热门论文）

56

Humanoid-GPT：通过规模化数据与结构实现零样本动作追踪

Humanoid-GPT是一个基于GPT架构的Transformer模型，专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练，该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量，Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer，并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明，该模型在零样本泛化至新任务的同时，能稳健地追踪复杂动态动作，建立了新的性能前沿。

具身智能数据/训练论文/研究

09:16

MarkTechPost（RSS）

64

如何在 Google Colab 上使用 QLoRA 和 DPO 微调 LFM2：完整分步编码教程

本教程详细介绍了如何在 Google Colab 环境中，使用 QLoRA 和 DPO 方法对 LFM2 模型进行微调。内容涵盖了使用 TRL 和 PEFT 库进行监督微调、DPO 对齐以及适配器合并的完整分步编码过程。

教程/实践数据/训练

09:09

IT之家（RSS）

58

Meta 让步：员工可暂停鼠标键盘数据收集 30 分钟

Meta 已缩减其在办公电脑中预装追踪软件、收集员工鼠标移动与键盘输入数据用于 AI 训练的计划。根据内部备忘录，新控制功能允许员工每次暂停数据收集长达 30 分钟，并可申请豁免参与该项目。此前，该计划因软件过度消耗流量与电脑电量、涉嫌侵犯个人隐私而遭到员工强烈反对，部分员工将 Meta 称作“员工数据收割工厂”。Meta 表示，此举亦可能加重其在欧盟地区的合规风险。

Meta 数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

55

Muon 优于 Adam 的曲率视角解释

研究从曲率角度解释 Muon 在 LLM 训练中效率约为 Adam 两倍的原因。二阶泰勒展开显示，两者一阶增益相当，但 Muon 的二阶曲率惩罚更小。曲率惩罚分解为更新范数与归一化方向锐度（NDS），两者更新范数相近，Muon 的 NDS 更低，且数据不平衡会放大这一优势。中后期训练中，Muon 的 NDS 优势主要源自更小的层内曲率。理论证明，Muon 通过平衡不同曲率组间的更新能量实现更小平均 NDS，在曲率异质性足够强时，同等步数下局部二次损失也更低。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

DistIL：基于分布化DAgger的丰富反馈强化学习方法

现有RLVR仅用单比特反馈判断答案正误，忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法，使学习器局部访问当前策略下状态的专家分布，优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界，而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线，并提升Pass@N。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

VideoKR：面向知识与推理密集型视频理解

VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料，包含315K个视频推理示例，覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道，并构建了专家标注基准VideoKR-Eval。实验表明，在标准SFT→GRPO流水线下，基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法，同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。

多模态数据/训练视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

重新思考持续经验内化：面向自进化LLM智能体

经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移，但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现：原则级经验比实例级更持久；逐步注入模式优于全局注入；离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。

智能体 arXiv 数据/训练论文/研究

03:41

HuggingFace Daily Papers（社区热门论文）

66

DOT-MoE：用于MoE化的可微最优传输

DOT-MoE提出了一种将预训练密集模型转换为Mixture of Experts架构的新框架。该方法将密集层的分解建模为一个可微最优传输问题，利用Sinkhorn-Knopp迭代来实施严格的专家容量约束。同时，通过Straight-Through Estimators端到端联合学习离散的神经元-专家分配与token-专家路由策略。实验表明，DOT-MoE在多个基准测试中显著优于结构化剪枝等基线方法，能够在减少50%活跃参数的同时，保留原始密集模型90%的性能。

arXiv 推理数据/训练论文/研究

01:40

HuggingFace Daily Papers（社区热门论文）

精选71

AFUN：迈向功能理解的可供性基础模型

AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发，能同时预测任务条件的功能掩码（where）和3D接触后运动曲线（how）。为实现开放世界泛化，该研究构建了一个大规模标准化数据管道，整合了机器人、人类、仿真与真实扫描数据。评估结果显示，AFUN在可供性分割任务上，于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3；在接触点预测上，命中率比最佳基线高出12.7%–61.3%；在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。

具身智能数据/训练论文/研究

推荐理由：在 affordance 基础模型方向做出一步，跨 8 个测试集大幅超越基线，并可直接部署到真实机器人，对具身智能的通用化是个值得关注的信号。

00:22

Gary Marcus：The Road to AI We Can Trust（RSS）

精选55

Gary Marcus：为什么事情终将崩塌

知名人工智能批评者Gary Marcus在其关于可信赖AI的专栏中，探讨了人工智能发展面临的根本性挑战。文章开篇即指向问题的核心，指出相关数学理论的局限性与人类心理的复杂性，是导致AI系统最终可能出现问题的根源。

Anthropic OpenAI 大佬观点数据/训练

推荐理由：Gary Marcus 把 AI 行业缺乏护城河、价格战、ROI 存疑的经济死结讲得很直白，金融圈越来越认同。虽然观点不新，但这回时机恰好卡在 Google 融资和 Anthropic 取消无限 API 的时候，信号意义很强。

6月2日

20:40

HuggingFace Daily Papers（社区热门论文）

精选71

NLP领域2018-2025年人类标注报告实践的大规模审计

本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线，其在Annotated-gold数据集（41篇论文，72个标注任务）上与人工裁决的一致性（Krippendorff's alpha）达到0.606。基于此，研究构建了Annotated-llm数据集，涵盖ACL会议论文，从1603篇论文中提取了2667个标注任务。分析发现，论文常报告招募策略、标注者专长等操作细节，但经常遗漏评估标注效度所需的关键信息，如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡，并提出了一个可扩展的框架和最低报告标准。

arXiv Hugging Face 数据/训练论文/研究

推荐理由：NLP论文里的标注环节一直是个黑箱，这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍，值得每个做数据和评估的人细看。

15:07

IT之家（RSS）

56

国家版权局等四部门启动"剑网 2026"专项行动

国家版权局、工业和信息化部、公安部、国家互联网信息办公室联合启动“剑网 2026”专项行动，时间从 6 月持续至 11 月。这是四部门第 22 次开展此项工作。行动重点关注四大领域：影视剧版权保护、文创版权保护、图书版权保护，以及人工智能领域版权整治。其中，人工智能领域重点推动解决大模型训练语料版权合规问题，并查处利用 AI 工具非法复制、改编、传播作品等侵权行为。

政策/监管数据/训练

13:07

IT之家（RSS）

54

三星在 2026 台北电脑展展示全球首款 HBM5 内存

三星在2026年台北电脑展上展示了全球首款HBM5内存。HBM5是面向高性能计算（HPC）和人工智能（AI）训练需求设计的第八代存储技术，预计于2029年至2031年间推出。该技术采用2nm基础裸片搭配1c nm DRAM制造工艺，并将采用浸没式冷却技术以应对超高功耗。性能方面，其I/O通道提升至4096-bit，以16-Hi（16层）堆叠为标准，预期每个堆叠的带宽将提升至4 TB/s。

产品更新数据/训练

11:40

HuggingFace Daily Papers（社区热门论文）

67

PEFT的扩展性研究：迈向由万亿参数模型支撑的百万个人模型

论文提出，参数高效微调（PEFT）不仅是全参数微调的低成本替代，更是强大共享基座模型上承载个性化行为的紧凑基底。研究围绕三个扩展维度展开：Scale Up（更强共享先验提升小适配器效用）、Scale Down（探索适配器可靠性的最小化边界）、Scale Out（大规模持久化适配实例共存）。以MinT为例，展示了管理适配器身份、版本、溯源、评估与服务驻留的基础设施。结论表明，PEFT有潜力成为持久化个人模型的紧凑底座，而不仅仅是预算替代方案。

智能体数据/训练论文/研究

10:07

IT之家（RSS）

47

AI 气象模型 WeatherMesh-6 发布，预报精度超欧洲政府机构顶尖系统

初创企业 WindBorne Systems 今日发布第六代气象模型 WeatherMesh-6。该模型预报精度已超越欧洲中期天气预报中心（ECMWF）的传统与AI预报产品，其提前五天的地表气温预报准确度相当于传统模型提前一天的水平。WindBorne Systems 通过全球15个站点约400只探空气球自主采集数据，形成“自研模型+自主数据源”的核心优势。该公司于2024年完成2500万美元融资，估值8500万美元。

数据/训练模型发布

09:42

MarkTechPost（RSS）

59

使用 NVIDIA Apex （FusedAdam， FusedLayerNorm）和 torch.amp 加速 Transformer 训程程

通过从源码构建 NVIDIA Apex 并检测融合内核，对 Transformer 训练中的关键组件进行基准测试。内容涵盖了 NVIDIA Apex 提供的 FusedAdam 优化器与 FusedLayerNorm 层归一化的性能表现，并将其与 PyTorch 原生的混合精度训练工具 torch.amp 进行了对比。文章旨在实践验证这些工具在提升训练速度方面的具体效果。

教程/实践数据/训练部署/工程

09:33

Hacker News 热门（buzzing.cc 中文翻译）

79

Alphabet 宣布筹集 800 亿美元股权融资，用于扩展人工智能基础设施和计算能力

Alphabet 宣布计划通过发行股票筹集 800 亿美元资金，这是其历史上规模最大的融资之一。此次融资所得资金将专门用于进一步扩展公司的 AI 基础设施和计算能力，以支持其在人工智能领域的持续发展和战略部署。

Google 数据/训练行业动态部署/工程

09:00

公众号：蚂蚁百灵（Ling）

50

KPop：用对称二元KL散度解决MoE大模型RL训练推理不一致问题

KPop针对MoE大模型强化学习中的训练-推理不一致问题，提出用对称二元KL散度代替IcePop的固定ratio阈值。该方法只需一个超参数，根据token概率自适应调整屏蔽边界：稀有token更宽容，高频token更严格。在Ring-flash-2.0（100B总参，6.1B激活）的RLVR训练中，支撑800+步稳定训练，屏蔽比例从10%动态升至30%+（IcePop仅约0.2%）；在AIME25、HMMT25-Nov、ARC-AGI-2、LiveCodeBench上全面优于IcePop。在长程智能体任务中，基于Ring-2.6-1T（1万亿总参，63B激活）的SWE-bench Verified得分从70.8%提升至76.28%，且仅需更新70%~80% token即可收敛。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

41

小模型是GRPO中策略级多样性的天然探索者：S2L-PO框架

针对GRPO训练中rollout多样性不足的问题，研究发现同一模型家族内的小模型天然具有更高的策略级多样性（pass@k优于大模型），且这种多样性具有时序相关性、逻辑一致性和结构化探索信号。提出S2L-PO框架，利用固定小模型作为探索者训练大模型，并设计渐进退火策略从小模型离线rollout过渡到大模型自身采样，避免性能下降、加速收敛。S2L-PO在多个数学推理基准上提升准确率，例如用1.7B探索者引导8B模型在AIME 24上提升8.8%，同时减少rollout计算量。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

Curation-Bench：通用智能体能否自动化数据筛选？

Curation-Bench 是一个面向智能体的基准，固定模型、训练配方和评估套件，赋予智能体命令行权限以检查数据、实施策略并提交训练/评估管道进行迭代。在视觉语言指令微调场景中，开箱即用的智能体在十次迭代内即可达到强数据选择基线。但轨迹分析显示存在执行-研究差距：智能体主要调整局部策略变体，而非探索新策略族。脚手架要求每次迭代引用、实例化并改编先前方法，引导智能体进行方法导向探索。最终脚手架化的智能体自主组合出数据选择策略，以十分之一的数据预算超越了强基线。代码和基准已开源。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

38

语法推理：合成语言学推理轨迹能否增强低资源机器翻译？

大语言模型在低资源机器翻译中难以有效利用语法信息。受思维链推理启发，研究提出自动从Universal Dependencies树库、词典和语法规则库生成逐步语言学推理轨迹的管道，并在锡伯语和Chintang语上通过上下文学习、监督微调和强化微调三种设置评估。结果表明，作为推理时引导（ICL），可靠句子特定轨迹在多数模型、语言和指标上显著提升翻译性能；而作为训练数据使用时收益较小且不稳健。LLM能在可靠语言分析下利用语法信息，但自主生成分析仍是主要瓶颈。

推理数据/训练论文/研究

1…9 101112 13…31