全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「数据/训练」清除

7月1日周三

05:37Hacker News 热门（buzzing.cc 中文翻译）49我研制了一台毫米波物料分类雷达

01:37OpenAI58OpenAI 推出 GeneBench-Pro 生物基准测试

01:28Claude76Claude Science 科研应用 beta 版发布

6月30日周二

23:38The Decoder：AI News（RSS）67美团发布LongCat-2.0，1.6万亿参数大模型完全基于国产芯片训练

23:29Berryxia.AI58Bristol项目：将报告变成可交互可视化HTML

23:29Hugging Face：Blog（RSS）49专业化为何不可避免

22:26HuggingFace Daily Papers（社区热门论文）51一步梯度延迟并非大规模异步流水线并行LLM预训练的障碍

21:30公众号：数字生命卡兹克58国产AI两个"万亿"里程碑：美团LongCat-2.0发布，寒武纪市值破万亿

18:26HuggingFace Daily Papers（社区热门论文）47BeyondArena：超越IID的表格数据统一整体基准

18:08The Decoder：AI News（RSS）53台检方搜查Super Micro办公室，调查Nvidia AI芯片走私中国

18:02IT之家（RSS）57马斯克抽调 SpaceX 顶尖星舰和星链工程师，全力攻坚 Grok 大模型

16:36小互46Anthropic封杀浙江杭州IP，阿里涉大规模蒸馏Claude

16:30MarkTechPost（RSS）55Meta AI 发布 Brain2Qwerty v2：非侵入式 MEG 脑到文本解码管线

16:26HuggingFace Daily Papers（社区热门论文）53纳米科技分子优化（NMO）基准测试

15:59Rohan Paul45中国太阳能发电规模揭示AI算力的物理瓶颈

15:28Emad44中国策略：降智能成本至能源成本，输出超美

13:20数字生命卡兹克73体验具身智能数据采集员：给机器人打工的魔幻一天

11:26HuggingFace Daily Papers（社区热门论文）48Nemotron-Labs-Diffusion-Image：掩蔽离散扩散模型的文本到图像合成

11:07Yuchen Jin66美团5万国产芯片训1.6T模型

10:26HuggingFace Daily Papers（社区热门论文）48GUICrafter：利用海量未标注截图的弱监督GUI智能体

09:57PromptArmor51Labcorp 可出售用户个人数据训练 AI

09:36Hacker News 热门（buzzing.cc 中文翻译）68韩国政府与企业承诺1万亿美元投资芯片、AI数据中心及类人机器人

08:00HuggingFace Daily Papers（社区热门论文）52GRPO、Dr. GRPO 与 DAPO：组标准差上的三种操作

08:00HuggingFace Daily Papers（社区热门论文）48当大语言模型粗心读取表格：衡量与减少数据引用错误

08:00HuggingFace Daily Papers（社区热门论文）45AutoTrainess：自主训练语言模型的LM智能体

05:35Ars Technica：AI（RSS）75同事件精选韩国将投入1万亿美元扩大存储芯片生产和发展人形机器人同一事件，精选展示《三星和SK海力士计划投资5900亿美元扩产芯片，AI需求推高内存价格》

05:26Emad79美团LongCat Owl Alpha：OpenRouter最流行模型，1.6万亿MoE，国产ASIC训练

05:01SemiAnalysis77精选Rubin Ultra取消，新版尺寸性能减半

04:56Artificial Analysis30Artificial Analysis今晚办AI评测活动

04:34Tomer Tunguz 博客（VC 分析）58精选Anthropic：当AI成本超过工程师薪酬

03:58Rohan Paul39Figure CEO：机器人瓶颈是数据基础设施，CyberOrigin 推出 CyberCode

02:28Rohan Paul53Meta被曝限制工程师使用Anthropic的Claude Code和OpenAI的Codex以防训练数据污染

02:26Hugging Face：Blog（RSS）52DiScoFormer：一个跨分布同时估计密度与分数的单一Transformer模型

01:56TechCrunch：AI（RSS）62Arena（AI 模型排行榜平台）商业化 8 个月年化营收达 1 亿美元

00:23jason6Jason Liu 回忆 RStudio 与 VAE 工作坊

00:01IT之家（RSS）51防止蒸馏第三方模型，Meta限制AI工程师使用Claude与Codex

6月29日周一

22:17Chubby♨️50Meta 陷入蒸馏陷阱：自研 MetaCode 替代外部工具

18:34Hacker News 热门（buzzing.cc 中文翻译）39黑盒大语言模型的知识蒸馏

18:10公众号：蚂蚁百灵（Ling）51如何优雅地给 MLA 加上 QK-Norm？

15:01IT之家（RSS）71精选SK 集团会长崔泰源：到 2035 年建设 15GW AI 数据中心，总投资达 1000 万亿韩元

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

7月1日

05:37

Hacker News 热门（buzzing.cc 中文翻译）

49

我研制了一台毫米波物料分类雷达

针对欧洲石棉污染严重、传统取样送检成本高昂的问题，作者用 TI IWRL6432 BOOST 开发板和 ESP32 搭建了 FMCW 毫米波雷达原型。DSP 链通过混频、距离 FFT 和 MIMO 阵列角度估计，配合 Capon 波束成形获得材料密度谱，再输入 CNN 进行物料表面分类。天线部分用开源电磁仿真工具 openEMS 建模并模拟全链路，仿真结果与实测接近。项目因资金不足未完成，但展示了低成本非接触式石棉检测的可行路径。

教程/实践数据/训练部署/工程

01:37

OpenAI@OpenAI

58

我们正在引入GeneBench-Pro，一个研究级基准测试，用于衡量一种更难的AI进步：智能体在混乱的生物数据中导航、选择正确分析路径、并做出真实计算研究所需的判断决策的能力。

智能体 OpenAI 数据/训练论文/研究

01:28

Claude@claudeai

76

推出 Claude Science，一款面向研究每一阶段的全新应用。构件可追溯至其代码，环境按需管理，并可连接 60 多个可选科学数据库。现已开放 beta 版。

Anthropic 产品更新数据/训练

关联讨论 2 条Hacker News 热门（buzzing.cc 中文翻译）Anthropic：Newsroom（网页）

6月30日

23:38

The Decoder：AI News（RSS）

67

美团发布LongCat-2.0，1.6万亿参数大模型完全基于国产芯片训练

美团发布LongCat-2.0，参数规模达1.6万亿，完全基于超5万颗国产AI ASIC芯片集群训练，覆盖35万亿模型token。该模型在SWE-bench Pro（59.5）和SWE-bench Multilingual（77.3）上超越Gemini 3.1 Pro和GPT-5.5，但落后于Claude Opus 4.7和4.8。在IFEval（90.0）、IMO-AnswerBench（81.8）和GPQA-diamond（88.9）上则与Gemini、GPT-5.5存在差距。美团未透露具体芯片厂商，模型暂未在HuggingFace开放，独立验证困难。项目团队始于2023年，首个模型于去年底交付。

数据/训练模型发布编码

23:29

Berryxia.AI@berryxia

58

Bristol项目：将报告变成可交互可视化HTML

由 LayerProof 推出的 Bristol 项目，旨在用可交互 HTML 报告替代传统静态 PDF。用户可上传数据后通过聊天调整分析角度、语气和图表，支持视觉编辑器点选修改。每个数字可溯源，支持实时更新。其“可视化处理”据称比纯文本处理快 6 万倍，更擅长图表驱动的数据叙事，适合咨询、分析、运营团队制作持续可互动的报告资产。

产品更新数据/训练

23:29

Hugging Face：Blog（RSS）

49

专业化为何不可避免

Dharma AI 团队引述 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 于 2026 年发表的论文，从优化理论、生物学和竞争市场论证专业化的必然性。Wolpert-Macready 无免费午餐定理表明，通用优化算法在所有问题上平均表现相同，实际优势来自专门适配；有限资源下，集中资源于有限任务集的系统必然优于平均分配的通用系统。生物学中的特化权衡与市场竞争也指向同一结论：最大化适应性在于精确拟合特定环境，而非追求通用性。

数据/训练现象/趋势

22:26

HuggingFace Daily Papers（社区热门论文）

51

一步梯度延迟并非大规模异步流水线并行LLM预训练的障碍

异步流水线并行消除同步气泡，但梯度陈旧问题限制其应用。PipeDream-2BW调度保证恒定一步延迟，但业界认为该陈旧性下优化不稳定。本文通过实证分析推翻此假设，发现AdamW在一步延迟下退化，而Muon等优化器鲁棒性强。研究进一步提出优化器无关的误差反馈修正以缓解延迟影响。在10B参数模型上的实验表明，所提策略可缩小异步与同步训练的性能差距，展示大规模异步流水线并行的实用潜力。

数据/训练论文/研究部署/工程

21:30

公众号：数字生命卡兹克

58

国产AI两个"万亿"里程碑：美团LongCat-2.0发布，寒武纪市值破万亿

今天，美团发布LongCat-2.0，1.6万亿参数、100万上下文，全流程在5万张国产算力卡上完成训练和推理，英伟达含量为零，是首个在纯国产算力集群上从零跑通的万亿参数大模型。同日，寒武纪市值突破1万亿人民币，成为科创板首家万亿市值公司。两个“万亿”里程碑叠加Claude封号背景。作者测试显示LongCat-2.0的Agent和Coding能力约在Claude Opus 4.6水平。

数据/训练现象/趋势

18:26

HuggingFace Daily Papers（社区热门论文）

47

BeyondArena：超越IID的表格数据统一整体基准

BeyondArena是首个统一的表格数据整体基准，支持IID、时序、分组等任务，覆盖不同样本量、特征维度及含文本或高基数特征的数据集。配合Data Foundry框架，在11个模型与142个数据集上的评测显示：现有表格基础模型在中小规模IID数据上表现优秀，但传统树模型和深度学习模型在非IID、大规模、高维数据集上仍占主导。该基准旨在引导模型研究应对表格数据中最具挑战性的场景。

数据/训练论文/研究评测/基准

18:08

The Decoder：AI News（RSS）

53

台检方搜查Super Micro办公室，调查Nvidia AI芯片走私中国

台湾基隆地检署周一突击搜查Super Micro及多家本地合作公司办公室，包括Chief Telecom和Albatron Technology，并搜查六人住所。调查聚焦于涉嫌通过Super Micro服务器将Nvidia AI芯片走私至中国。Super Micro股价当日下跌8%。今年5月已有三人因伪造出口文件、经日本向中国运送至少一批Nvidia芯片被捕。一位Super Micro联合创始人被起诉，公司本身未被指控。Super Micro表示正配合当局保护技术。台湾目前未将向中国出口AI芯片定为刑事犯罪，但正考虑修改以与美国规则对齐。

数据/训练行业动态

18:02

IT之家（RSS）

57

马斯克抽调 SpaceX 顶尖星舰和星链工程师，全力攻坚 Grok 大模型

马斯克透露，SpaceX 已抽调数十名星链和星舰核心工程师，将大部分精力转向 Grok 大模型迭代与算力适配。最新版 Grok 4.5 已在特斯拉和 SpaceX 内部测试。本月 SpaceX 以 600 亿美元收购 AI 代码初创公司 Cursor，其工程师也参与研发。马斯克称 SpaceX 今年将每月推出一款从零全新训练的大模型。此前 xAI 经历大规模重组，11 位联合创始人全部离职，Grok 整体性能落后于 OpenAI、Anthropic 等竞品。SpaceX 完成 850 亿美元 IPO 后，计划搭建百万个轨道数据中心，由星链提供基础设施、星舰送入太空，用于训练 AI 模型。

xAI 数据/训练编码行业动态

16:36

小互@xiaohu

46

Anthropic封杀浙江杭州IP，阿里涉大规模蒸馏Claude

Anthropic 封杀所有浙江和杭州 IP 的 Claude 访问，可能与上周指责阿里利用 25000+ 账号大规模蒸馏 Claude 数据有关。从 4 月 22 日到 6 月 5 日，交互次数超过 2880 万次。封杀邮件还内置追踪器，点开即确认用户位置，申诉也无法解封。

Anthropic 数据/训练行业动态

16:30

MarkTechPost（RSS）

55

Meta AI 发布 Brain2Qwerty v2：非侵入式 MEG 脑到文本解码管线

Meta AI 近日发布 Brain2Qwerty v2，一种基于非侵入式脑磁图（MEG）信号的实时脑到文本解码管线，无需植入或手术。系统在 9 名志愿者约 22,000 句打字数据上训练（每人 10 小时），平均词准确率 61%（WER 39%），最高参与者达 78%，超过半数句子错误不超过一个词。管线由卷积编码器、Transformer 和字符级语言模型组成，并微调大语言模型提取语义表征，用 AI 智能体自动化改进解码流程但最终配置由人工选定。Meta 同时以 CC BY-NC 4.0 协议开源 v1 和 v2 训练代码。

Meta 开源生态数据/训练模型发布

16:26

HuggingFace Daily Papers（社区热门论文）

53

纳米科技分子优化（NMO）基准测试

生成分子设计受限于药物性质代理基准和制药数据集预训练，难以迁移到结构不同的领域。为此提出纳米科技分子优化（NMO）基准测试，以量子模拟替代代理oracle，引入科学实用性优先的严格协议。NMO任务施加硬结构约束和崎岖适应度景观，先进优化方法反不及简单方法。新基线方法通过新型表示和领域无关预训练消除制药数据偏差，在物理性质上超越现有SOTA，并揭示未知结构基元。

数据/训练论文/研究

15:59

Rohan Paul@rohanpaul_ai

45

推文展示贵州山区绵延至地平线的太阳能板群，将裸露岩体转化为太瓦时量级的电力。引用观点指出，AI规模化发展受制于电力、矿产与磁铁供应链等物理输入，而中国在电力冗余以及数据中心与芯片依赖的关键矿物和磁材供应链上拥有主导优势。这一基础设施差距正成为AI竞争的核心变量。

Rohan Paul: AI at scale is constrained by physical inputs, and China has more slack in electricity plus dominant control over severa...

数据/训练现象/趋势

15:28

Emad@EMostaque

44

中国的策略非常简单。将智能成本降至能源成本输出超过美国巨型训练集群的专注是一个巨大的干扰

大佬观点数据/训练行业动态

13:20

数字生命卡兹克@Khazix0918

73

体验具身智能数据采集员：给机器人打工的魔幻一天

全球高质量真实物理交互数据截至2026年初仅约50万小时，不足大语言模型训练数据的两万分之一，而训练通用机器人需千万小时级别，因此大量人工采集成为必需。该岗位无学历经验要求，面试先问身高体重（因手套固定规格），通过率极高。试岗需穿戴设备进行遥操作或示教采集，重复叠衣服、分拣积木等简单动作。兼职日结，吸引各行各业的人。作者小伙伴达达亲身体验，感叹其魔幻与现实。

具身智能数据/训练现象/趋势

11:26

HuggingFace Daily Papers（社区热门论文）

48

Nemotron-Labs-Diffusion-Image：掩蔽离散扩散模型的文本到图像合成

Nemotron-Labs-Diffusion-Image是一种用于高分辨率文本到图像合成的掩蔽离散扩散模型（MDM）。它引入token编辑机制，使推理时能动态修改已揭开的离散token，弥补标准MDM缺乏自纠正能力的缺陷；提出分组交叉熵（GCE）目标函数，为嵌入空间中邻近真实token的相邻token分配正学习信号，缓解大词汇量离散图像tokenizer带来的训练信号稀疏问题。同时实现针对GCE的自定义融合操作符，显著降低大词汇量场景下的显存占用。实验结果显示，该模型在GenEval上得分为0.90，DPG 86.9，HPSv3 10.76。

图像生成数据/训练论文/研究

11:07

Yuchen Jin@Yuchenj_UW

66

美团，基本上就是中国版DoorDash，在5万块国产芯片上训练了一个1.6T参数的大语言模型。这让我想起了黄仁勋在Dwarkesh播客上的观点：对英伟达GPU的出口管制不会阻止中国。它们只会加速运行在国产芯片上的AI的发展。

政策/监管数据/训练行业动态

10:26

HuggingFace Daily Papers（社区热门论文）

48

GUICrafter：利用海量未标注截图的弱监督GUI智能体

GUICrafter是一个弱监督GUI智能体，通过两阶段课程学习框架降低对人工标注的依赖：阶段1利用大规模未标注截图和网页学习视觉定位，阶段2使用少量高质量数据通过强化学习校准。实验显示，GUICrafter仅使用UI-TARS 0.1%的数据即达到与之竞争甚至更优的性能；在相同标注数据量下，其表现超越所有先前方法（如GUI-R1）。代码、数据和模型已开源。

智能体数据/训练论文/研究

09:57

PromptArmor@PromptArmor

51

Labcorp 现在可以出售个人数据用于 AI 训练？这太疯狂了：

数据/训练行业动态

09:36

Hacker News 热门（buzzing.cc 中文翻译）

68

韩国政府与企业承诺1万亿美元投资芯片、AI数据中心及类人机器人

韩国政府与三星、SK海力士、现代汽车等企业承诺投资1万亿美元，用于建设芯片制造厂、AI数据中心及类人机器人制造设施。其中5850亿美元投向半导体工厂，目标五年内将DRAM产量翻倍；3570亿美元用于建设大规模AI数据中心；现代汽车投资58亿美元，计划到2028年实现旗下波士顿动力Atlas人形机器人年产3万台。但现代汽车工会因担忧岗位流失已投票批准罢工，社会也对芯片业高利润分配产生争议。

具身智能数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

52

GRPO、Dr. GRPO 与 DAPO：组标准差上的三种操作

GRPO、Dr. GRPO 和 DAPO 三种推理训练方法看似不同，实则都调节同一个数值——组标准差。对于二值奖励（正确/错误），组标准差衡量同一提示下多个答案的不一致程度：答案对半开时最大，全一致时为零。GRPO 除以该标准差，Dr. GRPO 去掉除法，DAPO 丢弃标准差为零的组。论文证明三者是同一参数的不同设置，并给出组标准差同一性：不一致的组产生最大更新，一致的组更新为零。该结论在 Big-Math 难度数据集和受控训练中得到验证。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

当大语言模型粗心读取表格：衡量与减少数据引用错误

大语言模型在表格任务中仍会出现数据引用错误（DRE），即错误引用或遗漏表格数值。研究首次系统评估了不同模型（1.7B至20B参数）的DRE发生率，发现所有测试模型均存在该问题。将数据引用作为critic进行过滤和拒绝采样后，答案准确率提升最高达12.0%。团队训练了一个轻量级4B参数critic模型，在分布内和分布外DRE检测上取得平均F1分数78.2%，并能有效辅助更大模型进行推理。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

AutoTrainess：自主训练语言模型的LM智能体

AutoTrainess是一个LM智能体，将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口，通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上，AutoTrainess使用GPT-5.4（Codex）取得26.94平均得分，而纯CLI基线为23.21；该智能体还跨模型泛化，将DeepSeek-V4-Flash（OpenCode）的得分从12.13提升至19.58。

智能体数据/训练论文/研究

05:35

Ars Technica：AI（RSS）

同事件精选75

韩国将投入1万亿美元扩大存储芯片生产和发展人形机器人

韩国政府与三星、SK海力士等承诺1万亿美元实施三大旗舰项目。三星和SK海力士投资5850亿美元新建芯片工厂，目标五年内将DRAM产量翻倍；SK集团、GS集团和Naver投资3570亿美元在偏远省份建设AI数据中心；物理AI被指定为国家战略产业，现代汽车投资58亿美元建设机器人工厂和AI数据中心，计划到2028年每年生产3万台Atlas人形机器人，并在10大行业实现商业化。但现代汽车工会已批准罢工谈判，要求利润分享和岗位保护。

具身智能数据/训练端侧行业动态

同一事件，精选展示《三星和SK海力士计划投资5900亿美元扩产芯片，AI需求推高内存价格》

推荐理由：韩国砸 1 万亿美元砸向内存芯片和机器人，不只是产能竞赛，更是试图锁住 AI 硬件供应链的关键位置。但工会抗议和芯片暴利税收争议也浮现，值得追踪。

05:26

Emad@EMostaque

79

美团LongCat的1.6万亿参数MoE模型Owl Alpha成为OpenRouter上最流行模型，累计消耗10万亿tokens，性能达Gemini/Opus 4.6级别。该模型使用35万亿tokens训练，完全在5万块国产ASIC上完成。据官方推文，Owl Alpha上线后每日调用量全球Top3，在Hermes Agent排名#1，Claude Code排名#2，OpenClaw排名#3。该模型即将退役，后续版本待公布。

Meituan LongCat: Some of you guessed right. 👀 Owl Alpha on @OpenRouter - that's us. Since going live, it has reached Top 3 globally by d...

开源生态数据/训练模型发布

关联讨论 9 条X：硅基流动 SiliconFlow (@SiliconFlowAI)X：美团 LongCat (@Meituan_LongCat)Hacker News 热门（buzzing.cc 中文翻译）IT之家（RSS）X：邵猛 (@shao__meng)X：Testing Catalog (@testingcatalog)公众号：卡尔的AI沃茨X：Rohan Paul (@rohanpaul_ai)公众号：龙猫LongCat（美团）

05:01

SemiAnalysis@SemiAnalysis_

精选77

有意思：在GTC 2026宣布Rubin Ultra仅3个月后，原4-die Rubin Ultra因制造执行问题被取消。新的"Rubin Ultra"尺寸减半，实际性能约为原版的一半。1/4🧵

数据/训练行业动态

推荐理由：NVIDIA 原版 Rubin Ultra 取消并减半规格是今年硬件领域最大的意外，所有依赖下一代算力增长的公司都得重估路线图。

04:56

Artificial Analysis@ArtificialAnlys

30

今晚加入我们在旧金山的Intelligence Index活动，演讲嘉宾来自Artificial Analysis、Google、NVIDIA和MiniMax。我们将探讨AI模型评估、前沿性能，以及我们最新的基准测试：Artificial Analysis Intelligence Index v4.1和AA-Briefcase。剩余名额有限：https://luma.com/qdl9mr2e

Google 数据/训练行业动态

04:34

Tomer Tunguz 博客（VC 分析）

精选58

Anthropic：当AI成本超过工程师薪酬

Anthropic在算力上的支出达到每位工程师每年51.5万美元，是其完全薪资（22.4万美元）的2.3倍。相比之下，顶尖1%软件公司的算力支出为8.9万美元，中位数仅为1.37万美元。三个2029年情景预测了这一差距的缩小路径。

Anthropic 大佬观点数据/训练

推荐理由：Tomer Tunguz 用数据把 AI 公司的烧钱速度拆得很细，Anthropic 每个工程师年算力成本 51.5 万美元，是工资的 2.3 倍，这个数字对重新理解 SaaS 毛利率很有冲击力。

03:58

Rohan Paul@rohanpaul_ai

39

Figure CEO：机器人瓶颈是数据基础设施，CyberOrigin 推出 CyberCode

Figure 公司 CEO Brett Adcock 表示，若能获得大量数据，就能解决通用机器人问题。他认为物理 AI / 机器人领域的真正瓶颈不是更好的模型，而是更好的机器人数据基础设施。CyberOrigin 推出的 CyberCode 正是为解决该问题构建：将真实的人类操作数据转化为可搜索、可检查、可追溯、多模态信号精准同步、质量检查、评估就绪的运营层。机器人策略、世界模型和视觉-语言-动作模型只能从数据系统暴露的结构、覆盖范围、时序和质量中学习，因此更好的数据基础设施与更好的模型架构同等重要。

具身智能大佬观点数据/训练

02:28

Rohan Paul@rohanpaul_ai

53

Meta被曝限制工程师使用Anthropic的Claude Code和OpenAI的Codex以防训练数据污染

The Information报道，Meta已限制工程师使用Anthropic的Claude Code和OpenAI的Codex，原因是为防止竞争对手模型输出污染Meta自身AI训练数据，并引发合同纠纷。OpenAI和Anthropic的服务条款均禁止使用其输出来开发竞争模型。知识蒸馏风险在于即使意外复用竞品输出也可能被视为从竞争对手提取能力。建议的策略包括成分追踪：仅在不用于模型训练管线、评测集、基准生成、后训练数据、奖励模型数据及内部数据集时才使用竞品工具。典型防护措施有隔离规则、企业账户审批、训练数据溯源日志、数据集隔离及自动扫描“AI生成”标记等。

Meta 数据/训练编码行业动态

02:26

Hugging Face：Blog（RSS）

52

DiScoFormer：一个跨分布同时估计密度与分数的单一Transformer模型

DiScoFormer（Density and Score Transformer）是一个无需重新训练即可从数据点估计分布密度和分数的单一模型。它利用Transformer的交叉注意力机制，在单次前向传播中输出密度和分数，并通过一致性损失实现分布外自适应。在100维空间中，DiScoFormer比最优调参的核密度估计（KDE）降低分数误差约6.5倍、密度误差超过37倍，且随样本量增加持续提升，而KDE内存耗尽。模型基于高斯混合模型训练，可泛化至非高斯分布（如Laplace、Student-t）及未见过的多模态混合。

数据/训练论文/研究

01:56

TechCrunch：AI（RSS）

62

Arena（AI 模型排行榜平台）商业化 8 个月年化营收达 1 亿美元

源自 UC Berkeley 2023 年研究项目的 AI 模型排行榜平台 Arena，其付费服务上线仅 8 个月后年化营收达 1 亿美元（消费量计费）。Arena 以众包排行榜闻名，基于超 1000 万次用户评估生成排名。去年 9 月推出的付费服务 AI Evaluations 为模型实验室和企业提供深度性能分析。今年 1 月 Arena 完成 1.5 亿美元 A 轮融资，投后估值 17 亿美元。联合创始人兼 CEO Anastasios Angelopoulos 与 CTO Wei-Lin Chiang 均为 UC Berkeley 博士后，另一联合创始人是伯克利教授、Databricks 联合创始人 Ion Stoica。

数据/训练行业动态

00:23

jason@jxnlco

6

回想到当时我在做关于如何使用 RStudio、Jupyter Notebooks 和训练 VAE 的工作坊…. 已经很久了。

其他数据/训练

00:01

IT之家（RSS）

51

防止蒸馏第三方模型，Meta限制AI工程师使用Claude与Codex

Meta已限制其AI工程部门工程师使用Anthropic的Claude Code与OpenAI的Codex，以防止无意间触发蒸馏行为——借助竞品模型输出训练自家AI模型，该操作违反用户协议。这份5月出台、目前仍在生效的内部规范警告，若竞争对手的AI输出渗入训练数据，可能引发与合作企业之间的严重纠纷。Meta发言人表示有明确政策规范团队以负责任方式使用AI工具。

Meta 数据/训练行业动态

6月29日

22:17

Chubby♨️@kimmonismus

50

Meta 陷入蒸馏陷阱：自研 MetaCode 替代外部工具

Meta 正面临每个 AI 公司都会遇到的难题：想用内部系统 MetaCode 取代 Claude Code、Codex 等昂贵的外部编码工具，但在构建更好的编码模型时，必须确保不意外地使用竞争对手模型的输出进行训练或评估。这就是知识蒸馏陷阱——公司越依赖前沿模型建设内部 AI 基础设施，就越难证明智能来源的独立性。

Meta 数据/训练现象/趋势

18:34

Hacker News 热门（buzzing.cc 中文翻译）

39

黑盒大语言模型的知识蒸馏

GPT-4 等闭源大语言模型性能优异，但因其作为黑盒教师无法提供内部状态，限制了知识蒸馏的效果。Proxy-KD 方法引入一个代理模型，实现从黑盒 LLM 到小模型的高效知识迁移。实验结果显示，Proxy-KD 不仅提升了黑盒教师蒸馏的性能，还超越了传统白盒蒸馏技术。

数据/训练论文/研究

18:10

公众号：蚂蚁百灵（Ling）

51

如何优雅地给 MLA 加上 QK-Norm？

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache，但 QK-Norm 需归一化高维 Key，若缓存归一化结果则打破低维优势。文章提出数学等效变换：将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧，推理时每个 token 只需额外缓存一个逆 RMS 标量，即可严格等价实现 QK-Norm，不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中，QK-Normed MLA 相比 QK-clipping loss 更低（1B 模型 gap ~0.02），训练更稳定且收敛更快。

DeepSeek 推理教程/实践数据/训练

15:01

IT之家（RSS）

精选71

SK 集团会长崔泰源：到 2035 年建设 15GW AI 数据中心，总投资达 1000 万亿韩元

SK 集团会长崔泰源 6 月 29 日宣布，计划到 2035 年建成 15GW AI 数据中心容量，作为韩国国家级基础设施和实体 AI 时代核心底座。项目总投资 1000 万亿韩元（约 4.4 万亿元人民币），未来 10 年保持年均 100 万亿韩元以上国内投资，旨在实现从出口传统商品向智能服务的转变，构建韩国智能市场。此外，SK 海力士将向韩国西南部投资 400 万亿韩元，半导体供应项目总投资达 1100 万亿韩元（约 4.84 万亿元人民币）。

数据/训练行业动态部署/工程

推荐理由：SK 集团喊出 1000 万亿韩元建 AI 数据中心，数字唬人但周期长达十年，更像一种姿态宣示，真正改变算力市场格局还得看后续执行力和融资落地。

123 4…42