AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 242 条
全部一手资讯X论文
标签「数据/训练」清除
6月4日周四
19:42Hugging Face:Blog(RSS)68精选Nemotron 预训练的任务种子合成问答生成
02:49Google Research:Blog(网页)72精选洪水韧性新篇章:Google 开源水文建模框架
01:23Claude:Blog(网页)73精选Anthropic 用 Claude 赋能自助数据分析
6月3日周三
21:41Hugging Face:Blog(RSS)55精选DharmaOCR 利用 DPO 将文本退化率降低 59.4%
00:22Gary Marcus:The Road to AI We Can Trust(RSS)55精选Gary Marcus:为什么事情终将崩塌
6月2日周二
09:00公众号:蚂蚁百灵(Ling)50KPop:用对称二元KL散度解决MoE大模型RL训练推理不一致问题
5月29日周五
11:35公众号:面壁智能(MiniCPM)61精选面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据
09:39公众号:蚂蚁百灵(Ling)52蚂蚁百灵团队提出 PowLU 激活函数,解决低精度训练中 SwiGLU 的异常值问题
5月28日周四
23:41Google Developers Blog(RSS)64精选社区如何利用Tunix和TPU训练Gemma学会"思考"
21:11Cloudflare Blog41我们如何构建Cloudflare的数据平台及其上的AI智能体
07:07Anthropic:Research(发表成果 · 网页)69精选社会科学中的编码智能体
5月27日周三
22:20Hugging Face:Blog(RSS)61精选TRL 新增 Delta Weight Sync:通过 Hub Bucket 传输权重变化,每步从 1.2 GB 降至 20-35 MB
11:35公众号:面壁智能(MiniCPM)64精选AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain
03:31Tomer Tunguz 博客(VC 分析)58精选智能体重力:谁在运行你的智能体?
5月26日周二
20:12公众号:百度智能云(文心)44百度智能云发布具身智能Ego-Centric采集解决方案
00:00MiniMax:Blog(网页)59精选为什么MiniMax大语言模型无法说出"马嘉祺"?稀疏Token遗忘的内部调查
5月23日周六
12:14美团 LongCat:HuggingFace 新模型49美团-LongCat/WBench权重模型
00:16Hugging Face:Blog(RSS)50专业化胜过规模:Dharma 发布 DharmaOCR,3B 专用模型在 OCR 基准上超越商业前沿 API
5月20日周三
03:03Hugging Face:Blog(RSS)44OlmoEarth v1.1:更高效的地球观测模型家族
01:48Google DeepMind:Blog(RSS)47加速遗传线索以逆转细胞衰老
5月19日周二
00:52Hugging Face:Blog(RSS)67精选NVIDIA Cosmos Predict 2.5 微调:使用 LoRA/DoRA 生成机器人视频
5月17日周日
03:54Dwarkesh Patel:Podcast & Blog(RSS)50关于预训练并行化与失败训练运行的笔记
5月16日周六
15:17OpenAI:官网动态(RSS · 排除企业/客户案例)66精选数据科学团队如何使用 Codex
11:14Google DeepMind:Blog(RSS)43WeatherNext如何帮助美国国家飓风中心更好预测飓风Melissa在牙买加的历史性登陆
5月15日周五
02:31Anthropic:Research(发表成果 · 网页)58精选2028年全球AI领导地位的两种情景
5月13日周三
09:18Tomer Tunguz 博客(VC 分析)43Theory 2026年度市场进入策略调查启动
5月12日周二
07:43Hugging Face:Blog(RSS)58精选在AWS上进行基础模型训练与推理的核心构建模块
5月9日周六
03:39Apple Machine Learning Research(RSS)66精选Velox:学习4D几何与外观的表示
00:34Hugging Face:Blog(RSS)72精选EMO:为涌现模块化预训练的专家混合模型
5月8日周五
16:23Hugging Face:Blog(RSS)58精选MedQA:基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型
02:30Apple Machine Learning Research(RSS)69精选用于学习语义丰富视觉表征的文本条件JEPA
5月5日周二
00:11Nathan Lambert:Interconnects(RSS)47蒸馏恐慌
5月2日周六
03:10Tomer Tunguz 博客(VC 分析)57精选本周的积极信号:AI在医疗、教育、农业与科研领域的突破性进展
4月30日周四
15:10OpenAI:官网动态(RSS · 排除企业/客户案例)57精选Where the goblins came from:GPT-5 行为中"妖精"输出的起源
08:00Apple Machine Learning Research(RSS)47利用 Sign Language Models 自举标注手语注释
01:34Dwarkesh Patel:Podcast & Blog(RSS)55精选Reiner Pope - 大语言模型训练与服务的数学原理
4月29日周三
23:39Hugging Face:Blog(RSS)52Granite 4.1 LLMs:构建之道
4月28日周二
19:07Qwen:Blog Retrieval(API)57精选FlashQLA: 面向GDN的CP-/Bwd友好型融合线性注意力内核
08:00Apple Machine Learning Research(RSS)62精选LaDiR:潜在扩散模型增强 LLM 的文本推理能力
4月23日周四
19:58公众号:龙猫LongCat(美团)45LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
19:42
Hugging Face:Blog(RSS)
精选68
Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中,任务种子合成数据生成(Task-Seeded SDG)使 MMLU-Pro 提升 1.8 分,平均代码提升 1.9 分,常识理解提升 1.6 分,GPQA 提升 11.1 分,数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务(约 700 子任务)的训练集作为种子,生成新示例并补充推理和上下文,经过格式校验、去重和答案验证后得到精选合成数据集,用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由:NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论,用 70 个公开任务训练集做种子生成新题目,100B token 实验把 GPQA 拉高 11 个点,做预训练的人值得看看他们怎么造的数据。
02:49
Google Research:Blog(网页)
精选72
洪水韧性新篇章:Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。

Google开源/仓库开源生态数据/训练

推荐理由:谷歌开源的水文模型框架,是少数真正能救命的AI应用。不是秀参数,而是把工具直接塞给一线预报员,让他们用本地数据训练。务实,值得给赞。
01:23
Claude:Blog(网页)
精选73
Anthropic 用 Claude 赋能自助数据分析

Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。

智能体Anthropic教程/实践数据/训练
关联讨论 1 条X:Claude Devs (@ClaudeDevs)
推荐理由:Anthropic 把内部用 Claude 搞自助分析踩过的坑全摊开,技能模板和「语义层优先」的强制流程是实打实的干货,做数据 agent 的团队可以直接抄作业。
6月3日
21:41
Hugging Face:Blog(RSS)
精选55
DharmaOCR 利用 DPO 将文本退化率降低 59.4%

4月发布的DharmaOCR(结构化OCR模型)在巴西葡萄牙语文档提取任务中,使用直接偏好优化(DPO)作为监督微调(SFT)后的第二训练阶段。SFT无法直接惩罚文本退化(重复循环),而DPO以模型自身失败输出(退化循环)作为负样本进行偏好训练,使所有测试模型族的文本退化率平均降低59.4%,最高达87.6%(如Nanonets-OCR2-3B从1.61%降至0.20%)。传统DPO多用于聊天对齐,该工作将其扩展至客观的OCR任务,证明DPO可针对性修复特定失败模式。

Hugging Face教程/实践数据/训练

推荐理由:DPO 不只能对齐,这篇直接用模型自身的垃圾输出当反例,把 OCR 的重复错误平均降了 59%。思路不复杂,但告诉做结构化生成的工程师:训练数据里最该保留的就是模型犯的错。
00:22
Gary Marcus:The Road to AI We Can Trust(RSS)
精选55
Gary Marcus:为什么事情终将崩塌

知名人工智能批评者Gary Marcus在其关于可信赖AI的专栏中,探讨了人工智能发展面临的根本性挑战。文章开篇即指向问题的核心,指出相关数学理论的局限性与人类心理的复杂性,是导致AI系统最终可能出现问题的根源。

AnthropicOpenAI大佬观点数据/训练

推荐理由:Gary Marcus 把 AI 行业缺乏护城河、价格战、ROI 存疑的经济死结讲得很直白,金融圈越来越认同。虽然观点不新,但这回时机恰好卡在 Google 融资和 Anthropic 取消无限 API 的时候,信号意义很强。
6月2日
09:00
公众号:蚂蚁百灵(Ling)
50
KPop:用对称二元KL散度解决MoE大模型RL训练推理不一致问题

KPop针对MoE大模型强化学习中的训练-推理不一致问题,提出用对称二元KL散度代替IcePop的固定ratio阈值。该方法只需一个超参数,根据token概率自适应调整屏蔽边界:稀有token更宽容,高频token更严格。在Ring-flash-2.0(100B总参,6.1B激活)的RLVR训练中,支撑800+步稳定训练,屏蔽比例从10%动态升至30%+(IcePop仅约0.2%);在AIME25、HMMT25-Nov、ARC-AGI-2、LiveCodeBench上全面优于IcePop。在长程智能体任务中,基于Ring-2.6-1T(1万亿总参,63B激活)的SWE-bench Verified得分从70.8%提升至76.28%,且仅需更新70%~80% token即可收敛。

推理数据/训练论文/研究
5月29日
11:35
公众号:面壁智能(MiniCPM)
精选61
面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集:Ultra-FineWeb-L3(超600B Tokens,中文200B+,为当前最大中文预训练合成数据集)和UltraData-SFT-2605(国内首个千万级同时含深思考与非思考标注的SFT数据集)。两者基于UltraData数据分级治理体系构建,在MiniCPM5-1B训练流程中得到完全验证,覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace,免费开放。

Hugging Face开源/仓库数据/训练端侧
关联讨论 1 条X:面壁智能 OpenBMB (@OpenBMB)
推荐理由:填补了中文大规模合成数据空白,三年前还在用英文数据做中文模型的日子可以翻篇了,做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。
09:39
公众号:蚂蚁百灵(Ling)
52
蚂蚁百灵团队提出 PowLU 激活函数,解决低精度训练中 SwiGLU 的异常值问题

SwiGLU 在大模型低精度训练中因输出近似二次增长导致异常值逐层放大,引发 Loss Spike。蚂蚁百灵(Ling)团队提出的 PowLU,在正半轴用幂函数替代指数衰减因子,使增长曲线更平缓。Scaling Law 实验(26M–368M 参数)显示 PowLU 与 SwiGLU 拟合曲线几乎重合;7.9B(600B token)和 124B(800B token)模型在 17 个基准上 PowLU 均优于或持平 SwiGLU。FP8 训练下 PowLU Loss 稳定在约 1.32,有效压缩数值动态范围,减少极端异常值。

数据/训练论文/研究
5月28日
23:41
Google Developers Blog(RSS)
精选64
社区如何利用Tunix和TPU训练Gemma学会"思考"

Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。

Google开源生态教程/实践数据/训练

推荐理由:Google 官方比赛总结,证明用 Kaggle TPU 和开源工具就能把 Gemma 训练出不错推理能力,对想自己微调模型的小团队是个实用参考。
21:11
Cloudflare Blog
41
我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。

智能体教程/实践数据/训练部署/工程
07:07
Anthropic:Research(发表成果 · 网页)
精选69
社会科学中的编码智能体

一项针对1260名定量社会科学家的调查显示,虽然81%的受访者用过AI聊天机器人,但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异:以男性名字命名的研究者使用率是女性研究者的两倍;顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请,但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观,但对重塑整个社会科学领域持保留态度。这是一项初步调查,更深入研究仍在进行中。

智能体Anthropic数据/训练论文/研究

推荐理由:Anthropic 这份调查把编码代理在社科领域的真实渗透率摸清了,只有 20% 的研究者真在用,而且男女、校际差距比 AI 聊天工具大得多,做学术工具的可以认真看看。
5月27日
22:20
Hugging Face:Blog(RSS)
精选61
TRL 新增 Delta Weight Sync:通过 Hub Bucket 传输权重变化,每步从 1.2 GB 降至 20-35 MB

异步强化学习中,训练器每步需将完整模型权重(如1T参数checkpoint约1 TB)传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点,仅将变化的权重编码为稀疏safetensors文件,上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上,每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景:训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中,权重通过单个Hub bucket流动,无需共享集群、RDMA或VPN。

Hugging Face教程/实践数据/训练部署/工程

推荐理由:异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了,带宽直接省了两个数量级,还给了可运行的TRL分支,做RL训练的可以直接上手试。
11:35
公众号:面壁智能(MiniCPM)
精选64
AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学、OpenBMB发布ForgeTrain,全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。在英伟达H100上训练速度超越Megatron 10%,节省10%算力;在华为昇腾上完整跑通预训练,并训出MiniCPM5-1B模型,综合性能在AA榜单2B规模以下Top1。框架及Agent Harness工具链一并开源。

开源/仓库数据/训练部署/工程
关联讨论 1 条IT之家(RSS)
推荐理由:面壁这波把 AI 写代码从玩具推进到了生产车间,ForgeTrain 跑得比英伟达 Megatron 还快 10%,而且直接在昇腾上训出了 MiniCPM5-1B,国产算力跟 AI 自举这两条线在这一刻交汇了,做训练的可以认真看看。
03:31
Tomer Tunguz 博客(VC 分析)
精选58
智能体重力:谁在运行你的智能体?

在数据时代,数据重力是核心力量;而在智能体时代,智能体重力将扮演同样角色。智能体运行需要巨大算力,主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多,其智能体重力就越强。例如,Databricks在微软平台推出的某个功能,虽未明言此目的,却让用户更容易在Databricks中构建智能体,而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此,赢得并维持智能体重力,将成为智能体时代的核心竞争主题。

智能体大佬观点数据/训练

推荐理由:Tomer Tunguz 提出「Agent Gravity」概念,把数据平台竞争的逻辑从数据引力延伸到了代理引力,做 Infra 和做 Agent 的人都应该读一读,这可能会影响你对平台锁定的判断。
5月26日
20:12
公众号:百度智能云(文心)
44
百度智能云发布具身智能Ego-Centric采集解决方案

百度智能云发布具身智能Ego-Centric采集解决方案,以轻量化数采套件(120FPS、150°视场、毫米级定位、毫秒级同步)实现低门槛第一视角数据采集;首创无本体设计,通过RGB视频到三维手部姿态估计与动作重定向,达成毫米级机械臂轨迹映射。方案配备六相机真值评估体系、三层数据质检机制及智能化数据管理平台,覆盖采、标、管、仿、训、测全栈能力。已服务智元机器人、星海图等超30家重点企业,并支持北京、上海、浙江、四川等国家创新中心。

产品更新具身智能数据/训练
00:00
MiniMax:Blog(网页)
精选59
为什么MiniMax大语言模型无法说出"马嘉祺"?稀疏Token遗忘的内部调查

MiniMax M2系列大语言模型在生成时无法输出稀疏token“嘉祺”(如“马嘉祺”)。内部调查排除tokenizer对齐问题,发现根因是后训练阶段对低频token的生成概率产生抑制。该问题已在后续模型更新中修复,并顺带解决了其他小语种混合问题。

数据/训练论文/研究

推荐理由:这种官方自己拆自己的技术调查不多见,把「低频token遗忘」从社区猜测一路推到SFT数据缺失导致lm_head漂移的根因,做模型训练的可以当案例看。
5月23日
12:14
美团 LongCat:HuggingFace 新模型
49
美团-LongCat/WBench权重模型

美团开源了用于WBench评估框架的预训练模型权重仓库,将这些权重整合至单一仓库,旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途,所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南,具体模型许可证详见LICENSE_NOTICE.md文件。

Hugging Face开源/仓库数据/训练
00:16
Hugging Face:Blog(RSS)
50
专业化胜过规模:Dharma 发布 DharmaOCR,3B 专用模型在 OCR 基准上超越商业前沿 API

4月,Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型,用于结构化 OCR,同时开源基准与论文。在巴西葡萄牙语 OCR 基准上,该 3B 专用模型通过全微调实现综合得分 0.911,超过所有测试的商业前沿 API(Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750)。每百万页成本仅为 Claude Opus 4.6 的约 1/52,质量与成本均占据 Pareto 前沿。结果表明:当训练数据与部署任务充分对齐时,参数规模不再是决定性变量,专业化微调能以极低代价实现更高性能。

arXivHugging Face数据/训练现象/趋势
5月20日
03:03
Hugging Face:Blog(RSS)
44
OlmoEarth v1.1:更高效的地球观测模型家族

OlmoEarth v1.1 是新一代地球观测模型家族,将计算成本降低最多 3 倍,同时保持与 v1 相近的性能。通过将 Sentinel‑2 不同分辨率(10m、20m、60m)的 token 合并为单个 token,大幅缩短输入序列长度,从而减少预训练、微调和推理所需算力。提供 Base、Tiny、Nano 三种尺寸,权重与训练代码已开源。该模型已在红树林变化追踪、森林退化成因分类、国家级作物图绘制等任务中得到验证。

Hugging Face开源/仓库数据/训练模型发布
01:48
Google DeepMind:Blog(RSS)
47
加速遗传线索以逆转细胞衰老

生物学家利用Co-Scientist这一工具,成功发现能够使人类细胞年轻化的新型因子。该研究通过人工智能加速了遗传线索的探索过程,为逆转细胞衰老领域提供了新的关键因素。这一发现标志着利用技术手段干预生物老化进程取得了实质性进展。

数据/训练行业动态
5月19日
00:52
Hugging Face:Blog(RSS)
精选67
NVIDIA Cosmos Predict 2.5 微调:使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型,可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层(to_q, to_k, to_v, to_out.0)和前馈层注入可训练适配器,冻结全部基座权重,在单个 80GB GPU 上即可完成参数高效微调,避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库,利用 92 个机器人操作视频训练集与 50 个 (prompt, image) 测试对进行微调,并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练,切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由:这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了,做机器人合成数据的同行可以直接抄作业,LoRA/DoRA切换也很方便,值得收藏。
5月17日
03:54
Dwarkesh Patel:Podcast & Blog(RSS)
50
关于预训练并行化与失败训练运行的笔记

近期访谈揭示了大规模语言模型预训练中的并行化策略与失败案例。关键变化包括从数据并行转向更复杂的模型并行、流水线并行及混合策略,以应对万亿参数模型的内存与计算挑战。具体指标显示,某些失败训练运行因硬件故障或超参数设置不当,导致数百GPU小时损失。成功案例则通过优化通信开销与负载均衡,将训练效率提升约15-30%。这些经验为GPT、Claude、LLaMA等模型的稳定训练提供了重要技术参考。

OpenAI教程/实践数据/训练部署/工程
5月16日
15:17
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选66
数据科学团队如何使用 Codex

Codex 能够帮助数据科学团队根据实际工作输入,自动化生成根本原因简报、影响报告、关键绩效指标备忘录、范围分析以及仪表板规格文档。该工具将自然语言描述转化为结构化分析框架,提升了从数据查询到报告生成的工作流效率,使团队能更快速地将业务问题转化为可执行的数据分析方案。

OpenAI教程/实践数据/训练

推荐理由:OpenAI Academy 手把手教数据科学团队用 Codex 产出分析报告,prompt 模板可以直接抄,但作为教程新信息不多,适合 Codex 用户按需参考。
11:14
Google DeepMind:Blog(RSS)
43
WeatherNext如何帮助美国国家飓风中心更好预测飓风Melissa在牙买加的历史性登陆

WeatherNext AI模型协助气象预报员为社区在飓风Melissa登陆前提供了前所未有的准备时间。该模型通过提升预测准确性与提前量,帮助牙买加等地成功应对了这场历史性的飓风事件,显著增强了灾害预警的时效性。

DeepMindGoogle数据/训练现象/趋势
5月15日
02:31
Anthropic:Research(发表成果 · 网页)
精选58
2028年全球AI领导地位的两种情景

报告展望2028年中美AI竞争的两种前景。若美国及盟友维持并扩大在关键计算芯片上的优势,通过加强出口管制、遏制技术窃取并加速AI应用,民主国家可确立12-24个月的技术领先,主导AI规则制定。反之,若政策松动,中国可能借助人才优势、利用管制漏洞迅速逼近甚至反超,使威权政权获得大规模自动化压制能力。当前民主国家在计算领域优势显著,但窗口期有限,需立即行动锁定胜局。

Anthropic安全/对齐政策/监管数据/训练

推荐理由:Anthropic直接下场画了两张2028中美AI路线图,核心就一句话——不堵死漏洞,中国的蒸馏攻击和芯片走私会让美国优势两年内消失。虽然是政策游说稿,但数据扎实,想理解AI地缘政治的必读。
5月13日
09:18
Tomer Tunguz 博客(VC 分析)
43
Theory 2026年度市场进入策略调查启动

Theory公司正式启动2026年度市场进入策略调查,旨在通过对比2022至2025年数据,分析初创企业在销售、营销等领域的演变。本次调查聚焦五个核心假设:人机协同的销售代表表现将优于纯AI或人类团队;AI可能拉大顶尖与末位团队的绩效差距;买方AI的采用比卖方AI更具颠覆性;AI效率提升可能主要导致人员编制缩减而非收入增长;创始人对AI的预期已随现实落地而下调。调查结果将在后续办公时间活动中公布,参与者可获得匿名原始数据。

大佬观点数据/训练
5月12日
07:43
Hugging Face:Blog(RSS)
精选58
在AWS上进行基础模型训练与推理的核心构建模块

本文面向使用开源框架的机器学习工程师,阐述了AWS如何为大规模基础模型的全生命周期提供核心基础设施。其核心是三大紧密集成的组件:配备多代NVIDIA GPU(如H100、H200及新一代Blackwell B200/B300)的大显存加速计算实例;用于集体通信的高带宽、低延迟网络(节点内NVLink与节点间EFA);以及可扩展的分布式存储。这些基础设施与Slurm/Kubernetes等资源编排系统、PyTorch/JAX等ML框架协同,共同支撑预训练、后训练和推理工作负载,并可通过Prometheus/Grafana实现全栈可观测性。

开源生态教程/实践数据/训练部署/工程

推荐理由:这篇把AWS上训大模型的全套基础设施串了一遍,从GPU选型到网络存储再到Slurm/K8s编排,是做云端大规模训练的工程师的必读参考。
5月9日
03:39
Apple Machine Learning Research(RSS)
精选66
Velox:学习4D几何与外观的表示

Velox提出一个学习4D对象潜在表示的框架,该表示具备描述性、压缩性与易获取性。它仅需非结构化动态点云作为输入,通过编码器将时空彩色点云压缩为动态形状标记,并利用两个互补解码器进行监督:4D表面解码器建模随时间变化的表面分布以捕捉几何信息,高斯解码器则负责外观重建。该方法在保持高保真度的同时提升了下游任务的效率。

多模态数据/训练论文/研究

推荐理由:苹果把动态点云的几何和外观塞进一个可压缩的latent space,思路干净但领域垂直,做3D视觉和AR的可以跟一下,其他人不用急着读。
00:34
Hugging Face:Blog(RSS)
精选72
EMO:为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型,通过端到端预训练使模块化结构直接从数据中涌现,无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集(即8个活跃专家中的部分),同时保持接近全模型的性能;当所有128个专家共同使用时,它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数,训练数据达1万亿令牌。与标准MoE相比,EMO通过文档级路由约束,鼓励专家形成领域专业化组,从而支持选择性使用而不导致严重性能下降,实现了可组合架构,优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face开源生态数据/训练模型发布

推荐理由:EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化,仅用 12.5% 专家就能接近全模型性能,对需要按需加载的大模型部署是真正的突破。
5月8日
16:23
Hugging Face:Blog(RSS)
精选58
MedQA:基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型

该项目使用AMD Instinct MI300X(192 GB HBM3显存)和ROCm,通过LoRA微调Qwen3-1.7B模型实现医学问答。训练仅用2000条MedMCQA样本,约5分钟完成,仅更新约220万参数(占模型总参数的0.1443%),全程采用fp16精度,无需量化。HuggingFace生态(Transformers、PEFT、TRL、Accelerate)在ROCm上无缝运行,无需修改代码即可直接替代CUDA。模型已上传至HuggingFace Hub并提供在线Demo。

Hugging Face开源生态教程/实践数据/训练

推荐理由:一个月前的教程了,但如果你是 AMD 党想跑医疗微调,这篇把坑都踩完了,代码直接能复现,LoRA 适配器也挂在 Hub 上,拿来就能用。
02:30
Apple Machine Learning Research(RSS)
精选69
用于学习语义丰富视觉表征的文本条件JEPA

研究人员提出文本条件联合嵌入预测架构(TC-JEPA),通过引入图像描述文本作为条件信息来降低掩码特征预测中的视觉不确定性。该方法采用细粒度文本调节器,对输入文本标记计算稀疏交叉注意力,从而调制预测的图像补丁特征。与基于掩码特征预测的I-JEPA相比,TC-JEPA能够学习到语义更丰富的视觉表征,解决了原有方法因视觉不确定性导致的语义学习不足问题。

多模态数据/训练论文/研究

推荐理由:Apple 这篇 TC-JEPA 把文本融入自监督视觉预训练,用稀疏交叉注意力减少预测不确定性,对多模态表征学习是个不错的思路补充,做视觉模型的值得一看。
5月5日
00:11
Nathan Lambert:Interconnects(RSS)
47
蒸馏恐慌

AI领域出现“蒸馏攻击”现象,即利用GPT-4等闭源模型的输出训练更小的开源模型。这引发了关于知识产权与创新平衡的激烈争论。支持者视其为技术民主化途径,反对者则谴责其侵犯版权并可能损害模型质量。目前,部分开源模型性能已快速逼近顶级闭源模型,迫使行业重新审视数据使用边界与合规框架。

大佬观点数据/训练现象/趋势
5月2日
03:10
Tomer Tunguz 博客(VC 分析)
精选57
本周的积极信号:AI在医疗、教育、农业与科研领域的突破性进展

近期多项进展展现了AI的巨大积极影响。医疗领域,Mayo Clinic的AI能通过常规CT提前最多三年检测胰腺癌,强生利用AI将新药线索生成时间减半。教育方面,哈佛研究显示AI导师使学生学习效果翻倍,泰国培训16万名教师惠及330万学生。农业上,AI能以约88%准确率预测害虫爆发。科研中,AI快速筛查NASA数据,新发现超一万颗系外行星候选。此外,香港推出AI洪水预报系统,Atlassian和Twilio等公司也因AI驱动业绩增长并上调预期。这些案例平衡了AI风险,凸显其创新潜力。

多模态数据/训练现象/趋势

推荐理由:Tomer 收集了最近两周 AI 在医学、教育、农业的硬核落地案例,对反 AI 恐慌是一剂清醒剂,SaaS 公司的营收也说明行业在回暖。
4月30日
15:10
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选57
Where the goblins came from:GPT-5 行为中"妖精"输出的起源

研究揭示了GPT-5等AI模型中“妖精”输出的传播路径、时间线与根本原因。这些由特定“人格”驱动的怪异行为,源于训练数据中意外混入的特定模式或“文化基因”。开发团队已识别出问题根源,并正在部署修复方案,通过调整训练数据和微调模型来消除此类非预期的个性特征,以提升模型行为的稳定性和可预测性。

OpenAI数据/训练论文/研究

推荐理由:GPT-5的“地精”现象不是偶然,OpenAI这篇复盘把它追溯到训练数据的最早期阶段,解释了模型为什么会有自己的“脾气”,做模型训练的值得细读。
08:00
Apple Machine Learning Research(RSS)
47
利用 Sign Language Models 自举标注手语注释

研究团队开发了一套手语伪标注流程,以解决高质量标注数据匮乏对AI手语翻译发展的限制。该流程以手语视频和英文文本为输入,输出包括时间区间在内的可能注释排序集合,涵盖手势词、手指拼写单词和手语分类器。新发布的ASL STEM Wiki和FLEURS-ASL等数据集虽包含数百小时专业译员数据,但因标注成本过高仅实现部分标注。该自举方法旨在显著提升大规模手语数据的利用效率。

多模态数据/训练论文/研究
01:34
Dwarkesh Patel:Podcast & Blog(RSS)
精选55
Reiner Pope - 大语言模型训练与服务的数学原理

文章揭示了支撑大语言模型(如GPT、Claude、LLaMA)训练与服务的核心数学框架。通过剖析关键方程,可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律,也量化了训练成本与推理效率之间的权衡,为理解当前大语言模型的发展路径提供了底层逻辑。

大佬观点推理数据/训练

推荐理由:Reiner Pope 把训模型背后的数学摊开讲,听完能反推出大厂在做什么,做训练的人不可多得的一课。
4月29日
23:39
Hugging Face:Blog(RSS)
52
Granite 4.1 LLMs:构建之道

IBM Granite团队在Hugging Face上发布了Granite 4.1系列大型语言模型的构建细节。该系列模型专注于代码与自然语言任务,采用多阶段训练流程,包括大规模代码数据预训练、多样化指令微调以及强化学习对齐。模型架构基于改进的Transformer解码器,并针对长序列和工具使用进行了优化。新版本在多项基准测试中性能显著提升,特别是在代码生成与数学推理任务上,部分指标超越了同规模的开源模型。团队同时公开了部分训练数据集构建方法与评估框架。

教程/实践数据/训练
4月28日
19:07
Qwen:Blog Retrieval(API)
精选57
FlashQLA: 面向GDN的CP-/Bwd友好型融合线性注意力内核

FlashQLA 发布了一组专为梯度下降网络优化的融合线性注意力内核。新内核在设计上对计算模式和后向传播更加友好,旨在提升训练效率。该技术通过优化内核融合策略,改进了注意力机制的计算性能,是提升大规模模型训练速度的关键底层优化。

数据/训练论文/研究部署/工程

推荐理由:Qwen 团队发了一篇 fused linear attention 内核的工程论文,目标是把 GDN 架构的推理和反向传播都跑快。做底层优化的工程师值得看一眼,普通开发者可以略过。
08:00
Apple Machine Learning Research(RSS)
精选62
LaDiR:潜在扩散模型增强 LLM 的文本推理能力

研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。

推理数据/训练论文/研究

推荐理由:Apple 把扩散模型塞进 LLM 推理链,思路很野,用连续潜空间替代自回归 token 生成来解决「写到一半没法回头改」的老毛病。做推理优化或 diffusion 架构的值得细看,但离工程落地还远。
4月23日
19:58
公众号:龙猫LongCat(美团)
45
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

LARYBench 是一个系统化评测基准,旨在从大规模视觉数据中学习通用的隐式动作表征。它首次提供了度量标准,用于评估从人类视频学习到的表征的泛化能力,类似 ImageNet 在视觉领域的定位。

具身智能数据/训练论文/研究
‹ 上一页
1234567
下一页 ›