6月16日

08:00

HuggingFace Daily Papers（社区热门论文）

GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD（在策略自蒸馏）虽能提供密集token级教师信号，但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏，通过软正确性感知门控和教师概率缩放改善信号质量：门控检查教师当前坐标预测能否在给定前缀下完成到真实框，否则降权；教师概率缩放用置信度校准监督强度。两个组件单独无效，组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。

arXiv 多模态数据/训练论文/研究

07:59

IT之家（RSS）

AMD 收购 MEXT，为 AI 负载吃内存寻找降本新路径

6月15日，AMD宣布收购内存优化技术公司MEXT，旨在缓解数据中心内存瓶颈。MEXT通过内存分层将不常访问的数据从DRAM迁移至NAND闪存，利用闪存低成本扩大可用内存池。其预测性内存引擎借助AI模型分析访问模式，提前将可能调用的数据迁回DRAM，维持主内存级体验。该技术可提高内存利用率、减少对高价DRAM的依赖，降低总体拥有成本。

数据/训练行业动态部署/工程

03:59

GitHub Blog

GitHub 发布新开源数据集，加速多语言 AI 研究与开发

GitHub 在 CC0-1.0 许可下发布了一个仓库级数据集，涵盖多语言开发者内容，包括 README、issue 和 pull request。该数据集旨在帮助研究者和开发者发现并利用跨语言的技术文档与社区讨论，以推动多语言 AI 的构建与优化。

GitHub 开源/仓库数据/训练

6月15日

23:01

公众号：MiniMax（稀宇科技）

同事件精选76

MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重，同步发布 MSA（MiniMax Sparse Attention）技术论文，该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后，M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一，Code Arena WebDev 跻身帕累托最优序列，Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS，计划再提速 30–40%；Token Plan 后台新增调用量看板。

多模态数据/训练模型发布

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：M3 是第一个从预训练阶段就深度融合多模态的开源模型，MSA 架构让长上下文成本大幅降低，它的开源会给做多模态应用的团队一个高性价比的选择，国产开源又多了一个能打的基座。

21:30

The Decoder：AI News（RSS）

同事件精选70

Pokémon Go 玩家扫描数据用于训练军事无人机导航 AI

Pokémon Go 玩家自愿提交的数百万份 3D 扫描数据训练了 Niantic Spatial 的视觉定位基础模型。该模型与国防承包商 Vantor 的 Raptor 软件及卫星地形数据组合，形成共享坐标系统，在 GPS 信号被干扰、欺骗或阻断时仍能为无人机等设备导航。早期测试显示误差降低 70%，精度约 1.5 米，且对标准信号干扰免疫。Vantor 于 2026 年 2 月获得美国陆军 2.17 亿美元合同用于“One World Terrain”项目。Niantic Spatial 强调玩家数据仅用于训练基础模型，未直接移交 Vantor。

数据/训练行业动态

同一事件，精选展示《Pokémon Go玩家无意中为军用无人机技术贡献数据，引发持续审视》

推荐理由：玩家自愿扫描以为只是在玩游戏，但数据训练的 AI 模型最终与军事承包商合作。这暴露出 AI 基础数据用途的不可控性，做产品的人都应该重新审视用户授权边界。

17:41

MarkTechPost（RSS）

精选73

Flash-KMeans：IO感知的精确K-Means，在GPU上比FAISS快200倍以上

UC Berkeley与UT Austin团队开源Flash-KMeans（Apache 2.0，pip install flash-kmeans），精确实现标准Lloyd's k-Means，通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上，端到端速度比最佳基线快17.9×，比cuML快33×，比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵，将IO复杂度从O(NK)降至O(Nd+Kd)，单核加速最高21.2×；Sort-Inverse Update核通过排序聚类ID减少原子争用，单核加速最高6.3×。支持out-of-core处理，在1B数据点、K=32768时单次迭代仅41.4s。适用于向量搜索索引、稀疏注意力路由、KV缓存压缩等在线场景。

开源/仓库数据/训练部署/工程

推荐理由：Flash-KMeans 把 k-means 从离线预处理拉进了在线循环，200 倍加速不是纸面数字，而是让向量索引重建、稀疏注意力路由这些场景突然可行了。做大规模聚类的可以立刻换掉 FAISS。