6月16日

08:00

HuggingFace Daily Papers（社区热门论文）

GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD（在策略自蒸馏）虽能提供密集token级教师信号，但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏，通过软正确性感知门控和教师概率缩放改善信号质量：门控检查教师当前坐标预测能否在给定前缀下完成到真实框，否则降权；教师概率缩放用置信度校准监督强度。两个组件单独无效，组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。

arXiv 多模态数据/训练论文/研究

07:59

IT之家（RSS）

AMD 收购 MEXT，为 AI 负载吃内存寻找降本新路径

6月15日，AMD宣布收购内存优化技术公司MEXT，旨在缓解数据中心内存瓶颈。MEXT通过内存分层将不常访问的数据从DRAM迁移至NAND闪存，利用闪存低成本扩大可用内存池。其预测性内存引擎借助AI模型分析访问模式，提前将可能调用的数据迁回DRAM，维持主内存级体验。该技术可提高内存利用率、减少对高价DRAM的依赖，降低总体拥有成本。

数据/训练行业动态部署/工程

07:19

Rohan Paul@rohanpaul_ai

Pythagoras-Prover 发布 4B 参数定理证明器及扩散模型概念验证版

Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版，均仅 4B 参数。在 MiniF2F 测试中，4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B；32B 版本达 89.8% Pass@32 和 92.6% Pass@2024，创当前最佳成绩。核心在于数据效率：构造约 80 万 Lean 验证示例，按易到难训练，并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。

Joshua Ong @ ICML: 🚀🚀 Introducing Pythagoras-Prover 🚀🚀 🔹 The smallest theorem prover to date - Pythagoras-Prover-4B 🔹 The first proof...

开源/仓库推理数据/训练模型发布

06:43

Nathan Lambert@natolambert

我发布了后训练课程中的另外3个视频！ 1. 第5讲：推理模型的崛起 2. 第6讲：DPO推导、直觉与实践 3. 读者关于第1-4讲的问答 rlhfbook dot com slash course 更多即将到来！

推理教程/实践数据/训练

03:59

GitHub Blog

GitHub 发布新开源数据集，加速多语言 AI 研究与开发

GitHub 在 CC0-1.0 许可下发布了一个仓库级数据集，涵盖多语言开发者内容，包括 README、issue 和 pull request。该数据集旨在帮助研究者和开发者发现并利用跨语言的技术文档与社区讨论，以推动多语言 AI 的构建与优化。

GitHub 开源/仓库数据/训练

00:59

凡人小北@frxiaobei

YC 新项目 Hub：全人类正成为 AI 世界模型的数据生产者

Y Combinator 发布的新项目 Hub（@hubxyz）为前沿 AI 实验室和机器人提供真实世界训练数据。Hub 指出：人类劳动力占全球 GDP 一半，但几乎从未被记录；它通过全球贡献者网络捕获难以访问的数据。主推文引用印度工厂工人头戴摄像头工作的视频，调侃这是在训练自己的 AI 替代者，现在看 Hub 可能是更大规模的开端——全人类正在成为世界模型的数据生产者。

Y Combinator: Hub (@hubxyz) provides real-world training data to frontier AI labs and robotics. Human labor is half of global GDP. Alm...

数据/训练现象/趋势

00:26

Microsoft Research@MSFTResearch

30倍更快的分析，从SQL自动生成的GPU内核，AI与实验室培育的肿瘤模型匹配用于癌症治疗，以及无需重新训练即可跨任务学习的大语言模型。深入探索最新一期Research Focus：https://msft.it/6010vcYZ4

Microsoft 数据/训练论文/研究

00:13

Rohan Paul@rohanpaul_ai

Heidi Evidence 小模型匹配 Sonnet 4.6 临床搜索质量

临床搜索工具 Heidi Evidence 表示，六周前其自研小模型在临床搜索任务中匹配了前沿规模模型 Sonnet 4.6 的质量。方法是通过临床医生的偏好反馈训练，而非单纯扩大模型规模。在匿名测试中，医生面对同一医学问题、两个匿名答案，选择 Heidi 小模型答案的概率为 49.9%。Heidi 指出，医学领域的关键难点在于知道何时搜索、引用什么、说多少，以及模糊答案何时比不回答更糟。

Tom Kelly: There's been debate in the last couple days about whether general models beat specialized medical AI. It's the wrong que...

Anthropic 数据/训练评测/基准

6月15日

23:01

公众号：MiniMax（稀宇科技）

同事件精选76

MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重，同步发布 MSA（MiniMax Sparse Attention）技术论文，该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后，M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一，Code Arena WebDev 跻身帕累托最优序列，Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS，计划再提速 30–40%；Token Plan 后台新增调用量看板。

多模态数据/训练模型发布

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：M3 是第一个从预训练阶段就深度融合多模态的开源模型，MSA 架构让长上下文成本大幅降低，它的开源会给做多模态应用的团队一个高性价比的选择，国产开源又多了一个能打的基座。

22:01

向阳乔木@vista8

AppStore评论LLM分析工具开源

Vista 发布一个开源工具：输入任意 App 名称，自动抓取 AppStore 用户评价，并用 LLM 进行数据分析，将评论转化为产品经理可用的洞察。工具预设了全球各国免费版和付费版 Top 10 App 数据，便于研究学习。代码已开源，链接见评论区。

开源/仓库数据/训练

21:43

OpenBMB@OpenBMB

面壁智能 OpenBMB 联合发布 FactNet：十亿级开源多语言知识图谱

面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet，构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets，附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据（页面ID、修订版ID、Unicode偏移），99.63% 精确重定位。人工审计 4,200 项，设计加权精度 92.1%（低资源语言 88.5%）。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务，显式惩罚信息泄露，为可验证 AI 提供结构化事实基础。

检索增强数据/训练论文/研究

21:30

The Decoder：AI News（RSS）

同事件精选70

Pokémon Go 玩家扫描数据用于训练军事无人机导航 AI

Pokémon Go 玩家自愿提交的数百万份 3D 扫描数据训练了 Niantic Spatial 的视觉定位基础模型。该模型与国防承包商 Vantor 的 Raptor 软件及卫星地形数据组合，形成共享坐标系统，在 GPS 信号被干扰、欺骗或阻断时仍能为无人机等设备导航。早期测试显示误差降低 70%，精度约 1.5 米，且对标准信号干扰免疫。Vantor 于 2026 年 2 月获得美国陆军 2.17 亿美元合同用于“One World Terrain”项目。Niantic Spatial 强调玩家数据仅用于训练基础模型，未直接移交 Vantor。

数据/训练行业动态

同一事件，精选展示《Pokémon Go玩家无意中为军用无人机技术贡献数据，引发持续审视》

推荐理由：玩家自愿扫描以为只是在玩游戏，但数据训练的 AI 模型最终与军事承包商合作。这暴露出 AI 基础数据用途的不可控性，做产品的人都应该重新审视用户授权边界。

17:41

MarkTechPost（RSS）

精选73

Flash-KMeans：IO感知的精确K-Means，在GPU上比FAISS快200倍以上

UC Berkeley与UT Austin团队开源Flash-KMeans（Apache 2.0，pip install flash-kmeans），精确实现标准Lloyd's k-Means，通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上，端到端速度比最佳基线快17.9×，比cuML快33×，比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵，将IO复杂度从O(NK)降至O(Nd+Kd)，单核加速最高21.2×；Sort-Inverse Update核通过排序聚类ID减少原子争用，单核加速最高6.3×。支持out-of-core处理，在1B数据点、K=32768时单次迭代仅41.4s。适用于向量搜索索引、稀疏注意力路由、KV缓存压缩等在线场景。

开源/仓库数据/训练部署/工程

推荐理由：Flash-KMeans 把 k-means 从离线预处理拉进了在线循环，200 倍加速不是纸面数字，而是让向量索引重建、稀疏注意力路由这些场景突然可行了。做大规模聚类的可以立刻换掉 FAISS。

08:45

meng shao@shao__meng

微软CEO Satya Nadella：没有生态的「前沿AI模型」不可持续

微软CEO Nadella撰文指出，企业真正资产是人类资本（知识、判断力等）与token资本（自建AI能力）相互强化的学习闭环。他提出可落地的AI架构：可替换通用模型+不可丢失的组织经验；通过私有评测（Private Evals）和私有强化学习环境（Private RL Environments）以真实业务结果驱动模型进化；知识库作为可查询的制度记忆。该闭环被称为“爬山机”，具有复利效应。他警告若少数模型攫取全部回报将重演产业空心化，主张构建“前沿生态”而非仅“前沿模型”，让价值广泛流向各行业与国家。

Satya Nadella: http://x.com/i/article/2065582894790365184

大佬观点数据/训练