全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「数据/训练」清除

6月21日周日

03:01The Verge：AI（RSS）64《大西洋月刊》创建可搜索数据库，揭示用于AI训练的音乐数据集

02:03AYi54特斯拉AI工程师：ML训练仅占2%，数据质量定上限

00:28Nathan Lambert45Nathan Lambert为RLHF书建后训练学习社区

6月20日周六

23:58Hacker News 热门（buzzing.cc 中文翻译）52如今，大型语言模型变得很复杂

18:00The Decoder：AI News（RSS）67Data2Story：七个AI智能体将CSV文件自动生成可验证的交互式新闻文章

17:25MarkTechPost（RSS）68如何使用TimeCopilot构建预测流水线：基础模型与自动异常检测

17:10Chubby♨️22EpochAI研究：AI数年内加速起飞

16:27Hacker News 热门（buzzing.cc 中文翻译）72同事件精选GPT-5.5幻觉率达86%，GLM-5.2仅28%--大模型越大越不可靠同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

11:59IT之家（RSS）46英特尔与AMD联合发布ACE 1.15规范，增强x86架构AI算力

08:00HuggingFace Daily Papers（社区热门论文）52OpenBioRQ：未解决生物医学研究问题的智能体基准测试

08:00HuggingFace Daily Papers（社区热门论文）74精选可验证搜索不是可学习的链式思维

08:00HuggingFace Daily Papers（社区热门论文）57BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

06:22Eric29模型训练退潮，模型选择崛起

03:24Nathan Lambert39SFT方法研究不足：大规模系统性实证揭示微调最佳实践

01:14Dwarkesh Patel：Podcast & Blog（RSS）60精选AI中心的数据黑洞

00:53GitHub Blog52GitHub 构建内部数据分析智能体 Qubot，基于 Copilot 实现自然语言查询

6月19日周五

23:22Ethan Mollick59中国大规模研究：AI代劳作业降低考试成绩

23:22elvis51自动化SKILL.md生成：三阶段流水线论文

22:53Nathan Lambert52美国AI实验室蒸馏争议：API与监管之困

22:53Nathan Lambert49Nathan Lambert 称 RL speedrun 终将成常态，瓶颈在成本；@jeankaddour 推出 Sokoban Speedrun 项目

19:01HuggingFace Daily Papers（社区热门论文）42重新审视LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方案

16:16IT之家（RSS）67全球首个人形机器人通用小脑 GPT 模型：银河通用发布 AstraBrain-WBC 0.5

15:55HuggingFace Daily Papers（社区热门论文）75精选HumanScale：自我中心人类视频在具身预训练中可超越真实机器人数据

15:55HuggingFace Daily Papers（社区热门论文）56FlowBender：反馈感知训练用于自纠正条件流

08:15Simon Willison 博客69Datasette Apps：在 Datasette 内托管自定义 HTML 应用

08:00HuggingFace Daily Papers（社区热门论文）68离散化奖励模型

08:00HuggingFace Daily Papers（社区热门论文）67PrivacyAlign：面向LLM智能体的上下文隐私对齐

08:00HuggingFace Daily Papers（社区热门论文）40数据受限语言模型预训练的训练时数据增强解析

08:00HuggingFace Daily Papers（社区热门论文）46DataClaw_0-9B：从原始流中智能体化定制多模态数据

08:00HuggingFace Daily Papers（社区热门论文）44PoLAR：将潜在动作中的程度和模式分解用于机器人策略学习

07:47HuggingFace Daily Papers（社区热门论文）51REVES：基于修订与验证的测试时扩展训练框架

02:51Jeff Dean49Google 发布 TPU v2 至 Ironwood 五代训练超算演进论文

00:19The Verge：AI（RSS）55亚马逊员工因支持数据中心限制面临解雇风险

6月18日周四

23:47Hugging Face：Blog（RSS）70精选超越 LoRA：如何选择最佳参数高效微调技术？

23:45HuggingFace Daily Papers（社区热门论文）55Discriminator-Guided RL：用数据自身奖励修正流匹配模型

23:20Epoch AI23Epoch AI 招聘设计师，推动研究可视化

23:14IT之家（RSS）68盖洛普最新研究：不经常使用 AI 的员工更容易成为被裁员对象

23:05OpenAI：官网动态（RSS · 排除企业/客户案例）72精选OpenAI与哈佛等合作研究：o3 Deep Research模型辅助诊断儿童罕见病，额外诊断率4.8%

21:44HuggingFace Daily Papers（社区热门论文）51RODS：多轮工具智能体奖励驱动在线数据合成

20:53Rohan Paul73AI推动互联网内容生产进入新阶段

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月21日

03:01

The Verge：AI（RSS）

64

《大西洋月刊》创建可搜索数据库，揭示用于AI训练的音乐数据集

《大西洋月刊》记者Alex Reisner发现四个用于训练AI模型的音乐数据集，并使其可公开搜索。其中两个数据集规模巨大，分别包含1200万首和900万首曲目；另外两个各超过10万首。这些数据集已被下载数千次，谷歌与Stability已在研究论文中确认使用。部分数据来源（如Free Music Archive）供个人免费使用，但商业应用需获许可。三个数据集以YouTube或Spotify链接列表形式分发，AI开发者使用自动化工具绕过登录和广告下载实际音频，此举违反平台服务条款。用户可访问《大西洋月刊》AI Watchdog网站搜索相关歌曲、书籍等训练素材。

政策/监管数据/训练

02:03

AYi@AYi_AInotes

54

特斯拉AI工程师：ML训练仅占2%，数据质量定上限

特斯拉AI高级工程师（从事自动驾驶与机器人ML）揭露ML项目真实时间分配：50%评估、40%数据清洗、8%集成、2%训练。前两项共同设定学习的噪声底限，模型无法降低——这是数据的香农最优界。他每天思考本体论（ontology），旧标签必须持续审查，因为生产系统中分布漂移与边缘用例不断暴露标签缺陷。核心结论：训练不是瓶颈，清理现实数据的能力才是关键。

Yun-Ta Tsai: Many people think any given ML project is 99% training. In reality, it's 50% evaluation, 40% data cleaning, 8% integrati...

大佬观点数据/训练

00:28

Nathan Lambert@natolambert

45

我很少宣传的一件事是，我为我的 RLHF 书籍创建了一个 Discord 社区，该书几周后即将印刷出版。旨在为想要学习后训练的下一代人提供一个学习和交流的社区。

开源生态数据/训练行业动态

6月20日

23:58

Hacker News 热门（buzzing.cc 中文翻译）

52

如今，大型语言模型变得很复杂

2022-2023年Meta的Llama架构还是干净的重复Transformer模块，如今LLM已复杂：多种注意力变体（查询分组、压缩、稀疏、线性、滑动窗口等）、混合专家从FFN扩张到注意力块和残差流、视觉/音频编码器从外挂变为融合、多GPU推理引入通信操作。Seb Raschka的架构图库可对比Llama 3与Nemotron 3 Ultra。PyTorch的FlexAttention通过Triton模板生成可组合注意力核。Andrej Karpathy加入Anthropic，强调架构可组合性与智能体自动研究循环的重要性。

Anthropic 数据/训练现象/趋势

18:00

The Decoder：AI News（RSS）

67

Data2Story：七个AI智能体将CSV文件自动生成可验证的交互式新闻文章

Data2Story是牛津和斯坦福研究人员基于Claude Code构建的技能，通过Detective、Analyst、Editor、Designer、Programmer、Auditor、Inspector七个专用AI智能体，将CSV文件自动生成包含研究背景、统计图表和可追溯来源的交互式在线文章。核心“检查员”面板为每个声明和图表提供结构化证据，93%的可见陈述可溯源（人类文章基线为25%）。在53位读者对18个数据集的评测中，AI文章在视觉设计、叙事节奏、数据透明度、可验证性和洞察力五个类别均胜出，74%的读者更偏好AI版本。但人类在编辑视角、创意设计和密集图形方面仍保持优势。项目已开源。

智能体产品更新数据/训练

17:25

MarkTechPost（RSS）

68

如何使用TimeCopilot构建预测流水线：基础模型与自动异常检测

本教程使用TimeCopilot构建端到端预测工作流。安装TimeCopilot等库后，加载AirPassengers数据集及合成季节序列（注入三处异常）。配置统计模型（AutoARIMA、AutoETS、SeasonalNaive、Theta）、Prophet和基础模型（Chronos，根据GPU选用amazon/chronos-bolt-small或tiny，可选TimesFM）。通过滚动交叉验证和RMSE等指标评选最优模型，生成概率预测与预测区间，可视化未来趋势并检测异常值。可选LLM智能体自动选择模型并输出分析响应。

开源/仓库教程/实践数据/训练

17:10

Chubby♨️@kimmonismus

22

一切始于几年前。然后，起飞真正加速了。 via @EpochAIResearch

数据/训练现象/趋势

16:27

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选72

GPT-5.5幻觉率达86%，GLM-5.2仅28%--大模型越大越不可靠

GLM-5.2（MIT开源，753B参数，约40B活跃）在AA Intelligence Index上仅比GPT-5.5低4分、比Claude Fable 5低9分，但其幻觉率仅28%，远低于GPT-5.5的86%和DeepSeek V4 Pro（1.6T参数，49B活跃）的94%。后者在AA-Omniscience基准上仅6%的问题会承认不知道。实际代码测试中，GLM-5.2用12秒和800个推理token识别出技术悖论，而DeepSeek V4 Pro耗费3分26秒和近10倍推理token后仍给出错误答案。模型规模增长正导致幻觉率飙升而非智力提升。

DeepSeek OpenAI 数据/训练现象/趋势

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：这篇实测对比揭示了大型模型的致命幻觉问题，GPT-5.5 幻觉率高达 86% 远超 GLM-5.2 的 28%，模型选型不能只看 Benchmark 排名，「会不会不懂装懂」才是真分水岭。

11:59

IT之家（RSS）

46

英特尔与AMD联合发布ACE 1.15规范，增强x86架构AI算力

6月19日，x86生态系统咨询小组（EAG）发布ACE规范1.15，通过原生矩阵乘法引擎和低精度格式增强x86 AI性能。ACE在AVX向量指令基础上新增图块寄存器状态，并纳入AVX10下的格式转换指令。支持INT8、INT32、FP32、BF16、FP16、E8M0、FP8及MX联盟定义的多类MX格式。部署上，AMD Zen 6将引入新AI数据类型，Zen 7配备新矩阵引擎与AI数据格式扩展。英特尔与AMD于2024年联合成立EAG。

数据/训练行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

52

OpenBioRQ：未解决生物医学研究问题的智能体基准测试

OpenBioRQ 是一个包含 12,553 个未解决生物医学研究问题的智能体基准测试，覆盖 12 个领域。问题无固定答案密钥，迫使模型通过多步工具调用自主验证证据，从而评估其真实性及弃权能力。当前智能体极少捏造引用（超 99% 可解析），但约 15.9% 的链接指向无关论文。难度锚定在三个开源模型都无法回答的问题上；在最难子集中同系列模型仅解决约 17%，而前沿智能体（Gemini-3-Pro、Opus-4.7、GPT-5.5）表现跨度达 29-60%。困难问题中出现“智能体崩溃”——模型停止使用工具。引入冻结的每问题检查表后，评分者间一致性从 Spearman 0.35 提升至 0.82。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选74

可验证搜索不是可学习的链式思维

论文以九个确定性生成器推理任务为测试床，证明可验证搜索无法作为可学习的CoT进行蒸馏。Cryptarithm任务中，即使backbone规模从3B到671B、采用多种CoT设计、基于可验证奖励的强化学习和自训练，蒸馏后准确率始终为0.01–0.07，而搜索求解器回答71%实例。模型能正确计算97–100%的算术步骤并将正确密码排在候选前八（71%），但无法前向推导。干预实验揭示密码键后，同一实例准确率从0.03提升至0.57。只有移除搜索、预计算组合核心为目录，让模型仅做回忆加验证，才能学会该任务（Private LB 0.92）。结论：蒸馏学到的是记忆和验证，而非搜索。

推理数据/训练论文/研究

推荐理由：这篇论文给CoT蒸馏泼了盆冷水，证明回溯搜索这种过程是学不会的，模型只能记住验证步骤。做推理微调的团队该重新审视自己的数据生成策略了。

08:00

HuggingFace Daily Papers（社区热门论文）

57

BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

BioMatrix采用单一解码器架构，通过统一token化方案将分子序列（SMILES/SELFIES）、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间，所有模态均以下一个token预测目标生成。模型基于Qwen3（1.7B和4B），在3044亿tokens上预训练。在80项下游任务中，BioMatrix在77项上达到最优或竞争力水平。

Hugging Face 多模态数据/训练论文/研究

06:22

Eric@ericmitchellai

29

过时：模型训练流行：模型选择

开源生态数据/训练现象/趋势

03:24

Nathan Lambert@natolambert

39

主推文指出研究SFT方法的人仍然不足，尽管它是后训练的关键基础且实证文献有限。引用推文介绍了一项系统性研究：团队针对大量客户模型，在dense和MoE两类模型族（参数量达235B）上，每次只变动一个SFT杠杆，使用4个真实客户数据集，每个数据集配有与客户合作数周构建的评估，且训练输出直接为通过该评估生成，从而使监督目标与下游度量标准一致，消除了常见混淆因素。该研究旨在为微调提炼最佳实践。

Charlie O'Neill: 1/ We fine-tune a lot of customer models, so we decided to systematically try and figure out some best practices for fin...

大佬观点数据/训练

01:14

Dwarkesh Patel：Podcast & Blog（RSS）

精选60

AI中心的数据黑洞

智能的一种定义是样本效率，但近年AI进步主要靠扩充数据分布和增加算力。强化学习本质是合成数据生成——投入大量算力通过验证器筛选“好”数据，再训练模型预测正确输出。这一过程需要每个领域和技能的海量人类专家示例，数据行业年收入已达数十亿美元。近日Epoch报告，开源模型仅落后前沿闭源模型4个月，原因在于数据可从公开API蒸馏，而超参数等不易复制。人类一生接触约2亿token，前沿模型训练在数十到数百T token之间，相差近百万倍——机器人、自动驾驶等领域同样存在巨大效率差距。

大佬观点数据/训练现象/趋势

推荐理由：Dwarkesh 把 AI 的‘笨’归因于数据效率远低于人类，计算虽简但直指要害，他给出的一个逆向洞察是开源模型四个月追上闭源，正是数据驱动进步的最好证据。

00:53

GitHub Blog

52

GitHub 构建内部数据分析智能体 Qubot，基于 Copilot 实现自然语言查询

GitHub 内部开发了 Qubot，一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据，无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。

智能体 GitHub 教程/实践数据/训练

6月19日

23:22

Ethan Mollick@emollick

59

更多证据，来自中国一项大规模研究，表明如果使用AI削弱了心理努力，就会损害学习。当使用AI导致做作业时间减少时，考试成绩也会下降。综合各项研究，一个主题：AI辅导辅助课堂教学是好的，使用AI"帮助"做作业则是有害的。

大佬观点数据/训练

23:22

elvis@omarsar0

51

自动化SKILL.md生成：三阶段流水线论文

关键要点：OpenAI昨日为Codex推出了从交互中打包技能的类似功能；论文提出三阶段流水线（GUI轨迹分割→聚类候选技能→训练技能感知策略）。聚类纯度优异（5/8簇达0.95以上），但可读性未迁移：GRPO仅将技能步骤准确率从18.5%提至20.5%，在BrowseComp+上无改善，甚至输给简单频率先验。作者指出三个缺陷：弱边界检测器、无序片段表示、离线奖励模型。

智能体 arXiv 数据/训练论文/研究

22:53

Nathan Lambert@natolambert

52

归根结底，如果美国实验室不想被蒸馏，他们就不该提供API。看起来他们最终会对某些模型这么做，这是他们的选择。更严格的监管实际上不会奏效，反而会伤害美国的初创公司。

xlr8harder: I completely believe Chinese labs are "distilling" US models at scale, and I have no problem with it whatsoever and thin...

大佬观点政策/监管数据/训练

22:53

Nathan Lambert@natolambert

49

Nathan Lambert 评论称 RL speedrun 终将成为常态，当前最大瓶颈是价格--单次 RL 实验因不稳定导致噪声大，多次种子运行成本约 100 美元。@jeankaddour 随后推出 Sokoban Speedrun 项目：基于 Karpathy 的 nanochat 流水线修改，用 RL 训练 Qwen3-4B-Instruct 解决 Sokoban 谜题，GRPO 基线在 8×H100 上仅需 87 分钟。该尝试展示低成本快速验证 RL 方法的潜力。

Jean Kaddour: With RSI around the corner, it's time for an RL speedrun. Introducing Sokoban Speedrun: training Qwen3-4B-Instruct with ...

大佬观点数据/训练

19:01

HuggingFace Daily Papers（社区热门论文）

42

重新审视LLM FP4预训练中的收缩偏差：几何起源、系统性影响与UFP4方案

当前FP4硬件路径（如NVIDIA Blackwell/Rubin-class及AMD MI350系列）均基于E2M1格式，但其可表示bin的几何不对称导致系统性负舍入误差——收缩偏差（Shrinkage Bias），该偏差在层间累积并被随机Hadamard变换（RHT）放大，解释了E2M1 FP4训练不稳定的原因。均匀网格E1M2/INT4避免了此误差并提升了量化质量。据此提出UFP4方案，对三个训练GEMM应用RHT并将随机舍入限制在dY。在Dense 1.5B、MoE 7.9B和MoE 124B长程预训练中，UFP4持续低于强E2M1基线的BF16相对损失退化。未来加速器应将E1M2/INT4风格均匀4-bit网格作为一等训练基元。

数据/训练论文/研究

16:16

IT之家（RSS）

67

全球首个人形机器人通用小脑 GPT 模型：银河通用发布 AstraBrain-WBC 0.5

6月19日，银河通用推出全球首个人形机器人通用小脑GPT基础模型AstraBrain-WBC 0.5。该模型基于2万小时人类动作数据训练，参数规模达8040万，是行业首个达到GPT-1量级的人形机器人全身实时运控大模型。采用因果Transformer架构，将全身控制定义为连续序列预测问题。实验表明，训练数据从200万帧扩展至20亿帧时，成功率从83.26%提升至92.58%，零样本跟踪误差持续下降。

具身智能数据/训练模型发布

15:55

HuggingFace Daily Papers（社区热门论文）

精选75

HumanScale：自我中心人类视频在具身预训练中可超越真实机器人数据

HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后，基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%，分布内任务成功率高52.5%，分布外任务成功率高90%。研究验证了一种可扩展范式：先以人类视频预训练学习多样世界表征，再以少量标注机器人数据微调对齐动作空间。

具身智能数据/训练论文/研究

推荐理由：让机器人看人类干活视频，预训练效果居然比直接用真实机器人数据更好，这个反直觉发现可能彻底改变具身智能的数据策略，做机器人的值得认真读一读。

15:55

HuggingFace Daily Papers（社区热门论文）

56

FlowBender：反馈感知训练用于自纠正条件流

条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架，将对齐误差作为第一类输入，训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号，经前向算子计算偏差，再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体，并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中，同时提升了保真度与合理性。

图像生成多模态数据/训练论文/研究

08:15

Simon Willison 博客

69

Datasette Apps：在 Datasette 内托管自定义 HTML 应用

今日发布的 datasette-apps 插件允许用户在 Datasette 实例中运行自包含的 HTML+JavaScript 应用。这些应用运行在严格 iframe 沙盒内，配合 CSP 头阻止外发 HTTP 请求，无法访问 cookies 或 localStorage。应用可通过 JavaScript 对 Datasette 数据执行只读 SQL 查询，也可通过配置存储查询执行写入操作。通信采用 postMessage() 后迁移至更安全的 MessageChannel()。所有查询和 CSP 错误均可在父框架中记录。该功能源自作者对 Claude Artifacts 机制的探索，现已独立为 Datasette 核心特性。演示实例可通过 GitHub 登录 agent.datasette.io 体验。

产品更新安全/对齐开源生态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

68

离散化奖励模型

奖励模型的连续打分存在过度敏感性问题，对质量相当的回应给出差异大的分数。论文提出用“区分能力”和“特异性”两个独立指标评估奖励模型，并描述一种无训练算法：对神经奖励模型应用蒙特卡洛 dropout 生成离散奖励簇。理论证明存在离散化方案能在最小损失区分能力的前提下降低过度敏感性，实验表明离散化奖励比原始奖励更能减少奖励作弊、获得更优策略。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

67

PrivacyAlign：面向LLM智能体的上下文隐私对齐

PrivacyAlign数据集包含1,350个样本，来自599位标注者的3,516条详细注释，覆盖当前LLM实际泄露隐私的场景。基于这些注释，条件化LLM评审者的人类注释和解释使判断更可靠；标注条件奖励建模在强化学习中评分新响应，训练出的小规模开源权重智能体模型更符合人类隐私规范，在PrivacyAlign和现有智能体隐私基准上取得显著提升。

智能体安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

40

数据受限语言模型预训练的训练时数据增强解析

针对数据受限、算力充裕场景下标准自回归预训练多轮迭代后严重过拟合的问题，研究引入三类正交训练时数据增强：token级噪声（掩码、随机替换）、序列重排（从右至左预测、Fill-in-the-Middle）及目标偏移预测（预测x_{t+i}, i>1）。消融实验表明，单项增强均能延缓过拟合并降低验证损失，其中随机替换效果最优；组合多种增强可进一步降低最小验证损失。该方法有效缓解了自回归预训练在固定语料上重复训练时的数据效率低下问题。代码与数据已开源。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

DataClaw_0-9B：从原始流中智能体化定制多模态数据

DataClaw_0-9B提出主动智能体化数据定制范式，将数据处理提升为可学习能力。通过两阶段pipeline将生成语义合成锚定于确定性事实锚点，构建覆盖五个物理与数字域的大规模数据集，并采用SFT与GRPO实现与复杂定制意图对齐。同时构建首个数据精炼基准DataClaw_0-val，在视频生成、真实世界VQA与GUI导航下游任务中验证了其提供高信息密度数据的能力。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

PoLAR：将潜在动作中的程度和模式分解用于机器人策略学习

PoLAR 在潜在动作空间上施加径向结构，使半径编码过渡程度、方向保留过渡模式。利用两帧观测间的时间偏移作为过渡程度的弱代理，在双曲空间中实例化，借助其随半径膨胀的体积容纳更大程度下的多样化模式。在任务内和大规模预训练中，PoLAR 在仿真和真实机器人实验里提升了下游策略性能，优于潜在动作基线及强预训练 VLA 模型。

具身智能数据/训练论文/研究

07:47

HuggingFace Daily Papers（社区热门论文）

51

REVES：基于修订与验证的测试时扩展训练框架

REVES是一种两阶段迭代训练框架，通过将成功恢复轨迹中的中间步骤转化为独立的修订与验证提示，聚焦于答案变换与错误识别，相比标准多轮强化学习降低了长程采样的计算开销。在LiveCodeBench上，使用公开测试用例作为反馈，较RL基线提升+6.5点，较标准多轮训练提升+4.0点。在circle packing任务上，仅用4B参数基础模型即匹配此前报告的SOTA结果。该方法还泛化到n_queens、mini_sudoku等分布外约束满足问题。代码已开源。

arXiv GitHub 推理数据/训练

02:51

Jeff Dean@JeffDean

49

Google 发布 TPU v2 至 Ironwood 五代训练超算演进论文

Jeff Dean 等 Google 同事发布论文，回顾 TPU v2 到 Ironwood 五代训练超算的演进，将于 2026 年 7/8 月发表于 IEEE Micro。关键变化：TPU v2 采用气冷，v3 起改为水冷；互联从 2D 升级为 3D torus；每 pod 芯片数从 256 增至 9216；每 flop 能效提升约 30 倍。此外，Google 内部工作负载已大幅转向基于 Transformer 的模型。

arXiv Google 数据/训练论文/研究

00:19

The Verge：AI（RSS）

55

亚马逊员工因支持数据中心限制面临解雇风险

三名亚马逊软件工程师于6月10日被叫入员工关系面谈，公司正调查他们，可能采取包括解雇在内的纪律处分。此前他们本月初在西雅图市议会就数据中心监管作证，并引用该市禁止因政治言论歧视雇员的法规。三人已向民权办公室投诉，指控亚马逊违反该法律。西雅图市议会刚通过一项为期一年的大型数据中心暂停令。

数据/训练行业动态

6月18日

23:47

Hugging Face：Blog（RSS）

精选70

超越 LoRA：如何选择最佳参数高效微调技术？

参数高效微调（PEFT）技术中，LoRA 占据绝对主导：Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA（98.4%）；外部站点 10,000 个检查点中 95.0% 是 LoRA；GitHub 搜索 from peft import 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性——调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术，并开始建立基准测试：在数学数据集上对 LLM 进行思维链推理微调，以帮助用户做出更优选择。

Hugging Face 教程/实践数据/训练

推荐理由：HuggingFace 的 PEFT 团队用公平基准把 LoRA 拉下神坛，图像生成任务上 OFT 表现更好，而且切换只需改一行配置。对微调选型有实打实的参考价值，但数据集有限，别全信。

23:45

HuggingFace Daily Papers（社区热门论文）

55

Discriminator-Guided RL：用数据自身奖励修正流匹配模型

针对流匹配模型匹配损失与生成质量的结构不匹配，提出Discriminator-Guided RL（DRL）。在预训练表示空间中训练判别器区分真实数据与基模型样本，将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比，直接优化数据分布。在SiT、JiT、REPA、RAE上，DRL一致降低无引导FID（SiT从9.38降至2.62）和语义空间FD（SiT在DINOv3上从88.2降至19.3），且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中，DRL改善偏好奖励与图像保真度的帕累托前沿，减少过饱和等低层次伪影。

arXiv 图像生成数据/训练论文/研究

23:20

Epoch AI@EpochAIResearch

23

Help shape how the world understands AI. We're hiring two designers at Epoch AI to turn complex research into dashboards and visualizations researchers and policymakers can easily use. 帮助塑造世界理解 AI 的方式。Epoch AI 正在招聘两名设计师，将复杂研究转化为研究人员和政策制定者易于使用的仪表盘和可视化。

数据/训练行业动态

23:14

IT之家（RSS）

68

盖洛普最新研究：不经常使用 AI 的员工更容易成为被裁员对象

盖洛普今年2月对超2.3万名美国劳动者的调查显示，经常使用AI的员工被裁员风险更低。在美国科技行业，每月至少使用一次AI的员工预计被裁概率约6%，使用较少的达18%。科技行业外也存在类似趋势但差距较小。排除年龄、学历等因素后关联仍然存在。AI正形成新的职业分水岭，企业招聘已考察AI熟练程度。仅约1%被裁员工认为AI是直接原因，更多人归因于组织重组，但研究人员认为AI可能间接影响。

数据/训练现象/趋势

23:05

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选72

OpenAI与哈佛等合作研究：o3 Deep Research模型辅助诊断儿童罕见病，额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作，在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例，产出基于证据的候选解释。经专家评审、额外检测和临床确认，医生在18例中建立诊断，额外诊断率达4.8%。研究显示，AI辅助工作流可帮助专家在未解病例中生成可检验假设，使定期再分析更具可扩展性。模型不直接诊断或做临床决策，仅提供证据链供专家审查。

OpenAI 推理数据/训练论文/研究

推荐理由：这是AI辅助罕见病诊断的严肃实证，4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远，但证明推理模型能帮专家从旧数据里挖出新线索。

21:44

HuggingFace Daily Papers（社区热门论文）

51

RODS：多轮工具智能体奖励驱动在线数据合成

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽。GRPO梯度集中在奖励方差最高的任务（Popoviciu上界所致），靠近智能体能力边界的样本贡献不成比例的梯度。RODS将进度奖励方差作为零成本边界检测器，持续识别边界样本，通过技能对齐重采样管道合成结构复杂度匹配的新变体，并维护与策略共同演化的动态回放缓冲区。从400个人工种子出发、维持约800样本的活动池，RODS性能堪比17K样本离线管道，所需轨迹约少20倍。

智能体数据/训练论文/研究

20:53

Rohan Paul@rohanpaul_ai

73

AI推动互联网内容生产进入新阶段

《经济学人》数据显示，AI大幅提升了内容产量。亚马逊电子书月发布量从ChatGPT-3.5前的约10万增至2025年底约30万，AI生成文本是主要推手。美国自行提交民事诉讼2023—2025年翻倍至4.1万，2026年样本中18%由AI撰写，成功率未降。arXiv论文拒稿率自2023翻倍，2025年57%论文带AI影响语言（2023年12%）。iOS App月发布量突破10万（此前低于5万）。音乐领域每日新增7.5万首AI歌曲（此前1万），44%新上传为AI制作，97%听众无法区分真伪。

The Economist: From literature to law to music, AI has lowered the skills and effort required for some work. These charts show how much...

数据/训练现象/趋势

1…5 678 9…42