6月13日

17:54

公众号：百度智能云（文心）

6月11日，IDC报告显示2025年中国零售信贷智能风控解决方案市场规模达74.23亿元，同比增长13.5%。百度智能云在决策工具及服务市场位居第一，收入翻倍，服务客户数同比增长近100%，覆盖超800家金融机构。其推出首个可商用自我演进超级智能体“伐谋”，涵盖挖掘、模型、策略三大模块；与中信百信银行合作“AlphaMo”项目实现特征挖掘效率提升320%，风险区分度提升10%。另推出反代理投诉、资质预测、涉农评分等产品，依托千帆大模型与胜算数据平台推动决策工具向自主决策演进。

智能体数据/训练行业动态

10:58

MarkTechPost（RSS）

基于city2graph、OSMnx和PyTorch Geometric的空间图神经网络城市功能推断编码实现

构建了一个端到端空间图学习流程，使用city2graph从OpenStreetMap收集城市POI和街道网络数据，并以合成回退保障可靠性。工程化空间特征后，构造多个邻近图族并比较各自对同一城市环境的表征能力。随后将异质图和同质图转换为PyTorch Geometric格式，训练GraphSAGE模型从空间结构预测POI类别。

开源生态教程/实践数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

RL4IL：强化学习引导的检索与软融合实现缺失模态下的鲁棒多模态模仿学习

RL4IL是一种强化学习引导的模仿学习方法，通过近端策略优化对广度优先搜索候选集排序，并利用软交叉注意力融合头部聚合

arXiv 具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAGA：利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架

多模态大语言模型（MLLM）能描述图像间的属性差异用于类别预测，但现有视觉编码器仅依赖标量类标签监督。SAGA框架采用组相对策略优化（GRPO）奖励冻结MLLM对编码器token的正确预测，迫使编码器编码具体匹配或差异属性，替代均匀标量监督。结合辅助注意力蒸馏损失与度量学习损失，推理时丢弃MLLM，部署成本与基线一致。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves的零样本图像检索中，SAGA将Recall@1提升3到6个百分点。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重新思考高效注意力在混合架构中的作用

混合语言模型结合全注意力与高效注意力模块（如SWA），但高效模块对模型能力的影响不明确。系统分析从缩放、机制和架构三角度揭示：高效设计主要影响长上下文能力涌现速度，充分训练后不同架构性能可比；长距离检索由全注意力承载，高效注意力塑造其优化轨迹，解释“大窗口懒惰”现象；对小窗口SWA混合的全注意力层仅应用NoPE可显著提升长上下文性能，短上下文影响极小。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CODA-BENCH：代码智能体能处理数据密集型任务吗？

CODA-BENCH 是首个同时评估代码智能体在代码与数据两方面能力的基准测试，专为数据密集型环境设计。该基准基于 Kaggle 生态系统搭建，包含数百个数据集，共 1009 个任务，覆盖 31 个社区。每个任务环境平均拥有 980 个文件，模拟真实的数据规模与噪声。对现有高级智能体的评估显示，即使表现最佳的系统也难以有效整合数据发现与代码执行，成功率仅为 61.1%，暴露了当前智能体在处理数据密集型任务时的能力缺口。

智能体数据/训练评测/基准

04:38

elvis@omarsar0

GoogleResearch推出Gemini-SQL2，基于Gemini 3.1 Pro，在BIRD benchmark上达到Text-to-SQL的SOTA结果，能将自然语言翻译为可直接执行的SQL查询。DAIR.AI的Elvis Saravia指出，现实世界数据复杂混乱，尽管强推理模型表现不错，但定制模型（如Gemini-SQL2）在此类任务上更胜一筹。他认为在知识库、搜索、图数据库等领域也存在类似机会，BIRD是一个非常具有挑战性的基准。

Google Research: 🚀 Introducing Gemini-SQL2, our breakthrough text-to-SQL capability powered by Gemini 3.1 Pro! We've achieved state-of-t...

Google 数据/训练模型发布

01:48

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Maxproof 论文发布

6月12日，名为 Maxproof 的论文在 arXiv 上发布，并在 Hacker News 上获得 100 点热度。

推理数据/训练论文/研究

推荐理由：MiniMax把数学证明拉到IMO金牌线以上，用的不是更大模型而是群体搜索+验证-修复的test-time scaling，做推理产品的人该看看这套流程。

01:35

Nathan Lambert@natolambert

策略梯度推导： https://rlhfbook.com/c/06-policy-gradients#deriving-the-policy-gradient

Harsh Bhatt: derivation of Policy Gradient.

教程/实践数据/训练

6月12日

20:36

IT之家（RSS）

国产GPU厂商沐曦股份筹划赴港上市，拟搭建"A+H"双资本平台

沐曦股份董事会通过议案，拟发行H股并在香港联交所主板上市，初始发行规模不超过发行后总股本的5%，另设不超过15%的超额配售权。募集资金将用于新一代通用GPU研发、MXMACA软件生态建设、产业链投资等。该公司于2025年12月在科创板上市，2025年营收16.44亿元同比增121.26%，GPU累计销量超5.5万颗；2026年一季度营收5.62亿元同比增75.37%。新一代训推一体GPU曦云C600已量产销售。

推理数据/训练行业动态

15:26

MarkTechPost（RSS）

基于MONAI与UNet的医学CT三维脾脏分割端到端实现教程

该教程使用MONAI框架在Medical Segmentation Decathlon Task09数据集上搭建了端到端的三维医学图像分割流程。处理对象为脾脏的CT容积扫描，依次应用方向对齐、体素间距归一化、强度窗值调整、前景裁剪和基于补丁的采样等医学影像变换，最后训练一个3D UNet模型用于分割。

教程/实践数据/训练

13:53

TechCrunch：AI（RSS）

Avataar AI 发布蒸馏视频生成模型，面向印度市场

Avataar AI 推出蒸馏视频生成模型，专为印度的大规模应用打造，定价为每生成一秒视频 0.005 美元。该模型主打更廉价、更快速且具有文化意识，旨在适应印度本地需求。

数据/训练模型发布视频

11:00

HuggingFace Daily Papers（社区热门论文）

LabVLA：面向科学实验室的视觉-语言-动作模型

科学实验室的机器人操作需要VLA模型，但现有模型多训练于家居场景，缺少实验室专用数据和多形态机器人支持。研究者构建仿真数据引擎RoboGenesis，从原子技能组合生成结构化演示；并提出LabVLA模型，采用两阶段训练：先用FAST动作token预训练使Qwen3-VL-4B-Instruct骨干具备动作感知能力，再通过流匹配后训练附加知识隔离的DiT动作专家。在LabUtopia基准上，LabVLA在分布内和分布外设置下均取得所有基线中最高的平均成功率。

具身智能数据/训练论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

精选75

WEAVER：一种更优、更快、更长的机器人操作世界模型

WEAVER是一种多视图世界模型架构，通过流匹配损失训练预测未来潜变量和奖励值，满足保真度、一致性和效率三个要求。在机器人操作任务上，WEAVER在政策评估中与真实成功率的相关系数ρ=0.870，在π₀.₅基础模型基础上实现政策改进成功率提升38%，测试时规划成功率提升14%，且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。

arXiv 具身智能数据/训练论文/研究

推荐理由：世界模型在机器人操控上第一次同时跑通了「高保真、长时一致、高推理效率」这三个硬指标，真机实验把成功率拉高38%，代码模型全开源，搞具身智能的值得认真读。

08:34

IT之家（RSS）

三星有望代工谷歌 TPU v10 的 2nm I/O Die 芯片

消息称，谷歌正与三星晶圆代工部门洽谈生产其自研 TPU 芯片。目前谷歌第七代 Ironwood TPU 超 60% HBM 由三星提供。内部人士透露，谷歌推进代号“冰鱼”的 TPU v10，其计算引擎仍由台积电代工，而内存 I/O Die 可能交由三星 2nm 工艺生产。TPU 性能与英伟达 H100 相当，成本降低约 80%。双方尚未签署正式协议。

Google 数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

FastMix：基于梯度下降的快速数据混合优化

FASTMIX是一个自动化数据混合发现框架，只需训练单个代理模型，即可通过梯度下降联合优化混合系数和模型参数。该方法将混合选择重新表述为双层优化问题，将混合系数嵌入可微的迭代优化目标中，交替更新模型参数和混合比例。在预训练和后训练场景中，FASTMIX均优于基线方法，同时大幅降低搜索成本。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ViT-Up：面向视觉Transformer的高保真特征上采样

ViT-Up提出隐式特征上采样框架，利用中间ViT隐藏状态构建逐层查询，替代外部图像引导，可在任意连续坐标预测特征并保持与骨干特征空间对齐。在密集预测和语义对应任务上，ViT-Up一致优于现有图像引导上采样方法：在DINOv3-S+骨干上，Cityscapes提升+2.07 mIoU，SPair-71k提升+4.17 PCK@0.10；在DINOv3-B骨干上，提升分别达+3.36 mIoU和+8.09 PCK@0.10，表明ViT-Up随骨干容量增长性能更优。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AdaSR：自适应流式推理框架

AdaSR 是一个自适应流式推理框架，使大语言模型在输入持续到达时边接收边思考，并在流结束后进行最终推敲。它引入分层相对策略优化（HRPO），将策略优化分解为流式推理和深度推理两阶段，提供更细粒度的优势分配，取代传统单一序列级奖励。HRPO 综合格式、准确性和自适应思考奖励，确保推理协议有效、保持最终性能并鼓励延迟感知的计算分配。实验表明，相比监督微调基线，AdaSR 在推理准确性、计算效率和流式延迟间取得更优平衡。代码已开源。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ClinHallu：用于诊断医疗MLLM推理中阶段性幻觉的基准测试

ClinHallu是一个面向医疗多模态大语言模型（MLLM）的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例，每个实例都带有结构化的推理追踪，分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预，可测量修正特定阶段对最终答案的影响。实验表明，追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台，并已公开提供。

arXiv GitHub 多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

VISTA：基于视图一致的自验证训练实现GUI定位

将GRPO直接用于GUI定位时，单视图采样会导致困难实例全失败、简单实例全成功，无法产生有效相对优势。VISTA提出GRPO训练框架，从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点，使用优势加权损失优化Oracle答案，不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上，VISTA一致提升精度：ScreenSpot-Pro上，Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniVideo-100K：通过结构化脚本和证据链进行视听推理的数据集

针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题，提出自动数据引擎，包含实体锚定视频脚本化（生成摘要、主实体列表和片段描述）和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后，OmniVideo-Test性能最高提升20.59%，在Daily-Omni、JointAVBench等基准上最多提升12.64%。

多模态数据/训练视频论文/研究

07:02

SemiAnalysis@SemiAnalysis_

预训练从根本上说对前沿实验室以外的任何人都不再有意义。虽然企业和初创公司中有很多人患有"预训练症"以显示"影响力"并获得晋升，但从根本上说，这并不合理。与前沿实验室合作进行提示工程可能会有更高的投资回报率，尽管它不像预训练那样"性感"。

大佬观点数据/训练

05:29

Rohan Paul@rohanpaul_ai

SIA： Self Improving AI 框架

该论文提出SIA框架，让AI自动循环改进：一个观察者AI监控任务代理的表现，然后修改其外部设置（提示词、工具、重试规则、输出解析）或通过LoRA权重更新训练模型本身，模型主体不变，仅适配器从任务反馈中学习。在三个任务上测试：中文法律罪名分类（LawBench达70.1%）、GPU内核速度调优（生成代码优于此前最佳）、单细胞RNA降噪（得分0.289）。综合版本在所有任务上超越仅修改设置的方案，表明权重更新能帮助模型学到提示和工具无法发现的模式。

智能体 arXiv 数据/训练论文/研究

02:59

HuggingFace Daily Papers（社区热门论文）

我们的模型基于哪些模型？--审计现代大语言模型中的隐形依赖

现代LLM训练管线日益依赖其他模型生成数据、过滤语料、评判输出，形成递归依赖，但完整依赖结构分散在不同公共工件中，复杂度和递归深度远超人工追踪能力。本文提出ModSleuth，一个能从公共工件递归重建LLM依赖图并附源证据的智能体系统。对4个LLM发布的分析，恢复1060个源验证依赖，构建了大规模依赖图，揭示了多跳许可证义务、训练-评估耦合、发布版本与训练版本不一致及文档不一致等问题。ModSleuth及依赖图已开源。

安全/对齐数据/训练论文/研究

02:46

jason@jxnlco

一年多前我见到了@jolandgraf等人、@humford和Sandeep，现在更兴奋很快就能在办公室见到他们！ https://openai.com/index/openai-to-acquire-ona/

OpenAI 开源生态数据/训练行业动态

02:25

Epoch AI@EpochAIResearch

单个数据中心的计算能力记录每 7 个月翻倍一次。 Colossus 1、Anthropic-Amazon New Carlisle 和 Meta Prometheus 依次登顶。

数据/训练论文/研究部署/工程

02:09

OpenCode@opencode

OpenCode Go 正在成为哪些模型被使用、如何使用的最佳数据来源。我们制作了一个公开统计页面，供你查看最新数据。 https://opencode.ai/data

产品更新数据/训练

02:02

Nathan Lambert@natolambert

Dolci数据集中有一类特定粉丝小说，角色在池塘放屁导致鱼被熏死。数据集通过选择生动描写的回答、拒绝不配合的回答，教会模型服从。Nathan Lambert表示乐于创造此类研究场景。

Goodfire: #4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...

安全/对齐数据/训练

01:59

HuggingFace Daily Papers（社区热门论文）

APEX：用于无线边缘运维的网络原生时间序列基础模型

APEX 是一个网络原生、仅解码器的 Transformer 模型，专用于企业无线接入点（AP）遥测的预测与异常检测。它在约 4,500 个生产无线网络的 10 通道多元遥测数据上预训练，涵盖约 10 万条 AP 时间序列、每 AP 34 个指标。提供两个版本：APEX-Large（269M 参数，云部署）和 APEX-Edge（10.5M 参数，边缘部署）。在 192 步（4 天）的 DHCP 退化基准上，APEX-Large 比最强基础模型基线 Toto 降低 MAE 18%，比 SARIMA 降低 38%，异常检测 F1 达 0.93；APEX-Edge 可在 AP 级边缘硬件上实现亚秒级、保护隐私的推理。结果表明网络原生预训练是主动无线运维的实用基础。

数据/训练端侧论文/研究

01:29

Deedy@deedydas

数据质量直接决定 AI 模型性能，但此前数据对模型的影响机制难以捉摸。GoodfireAI 提出"预测性数据调试"方法，允许在投入昂贵训练前提前发现数据问题。在 DPO 数据集中，他们发现了损坏的护栏、模型幻觉，甚至包含"鱼放屁同人小说"等低质内容。该技术旨在揭示并塑造模型将在训练中学到的内容，避免不可逆的无效训练。

Goodfire: Have you debugged your training data? You might not like what you find. Introducing predictive data debugging: reveal an...

大佬观点数据/训练

00:30

AK@_akhaliq

TRL-Bench 标准化跨范式表格编码器的表示级评估

数据/训练论文/研究评测/基准

00:00

AK@_akhaliq

用流形幂迭代重新设计混合专家路由器

数据/训练论文/研究

6月11日

23:49

Chubby♨️@kimmonismus

精选75

Prometheus 融资120亿美元，估值410亿美元，定位"人工通用工程师"

杰夫·贝佐斯旗下AI公司Prometheus在成立仅7个月、尚无任何产品交付的情况下，以410亿美元估值完成120亿美元融资（最初估值62亿美元）。该公司定位为“人工通用工程师”，目标是将设计到制造的循环压缩10倍以上。但物理经济无法像互联网数据那样抓取，缺乏制造业训练数据。为此，Prometheus计划斥资1000亿美元收购传统工业企业，通过获取工厂生成的数据构建护城河。

数据/训练行业动态

关联讨论 2 条

推荐理由：贝索斯这12B融资最有趣的点不在金额，而在通过收购工厂获取真实制造数据来训练物理AI，这个数据护城河如果建成，后面玩家根本没法追。

19:00

Artificial Intelligence News（RSS）

Xebia：构建AI智能体的数据基础并加速

Xebia全球CTO Niels Zeilemaker指出，为组织引入AI智能体加速流程必须从数据基础着手——让数据可供AI消费。Agentic AI的规模取决于数据强度，忽视这一点将无法推进。

智能体大佬观点数据/训练

18:59

HuggingFace Daily Papers（社区热门论文）

ART：基于艺术强化训练的多模态大语言模型微调方法

ART（Art-based Reinforcement Training）是一种参数高效微调方法，通过仅优化冻结多模态大语言模型的原始视觉输入（像素阵列）来注入信息，无需修改预编译计算图，从而可在 vLLM 等高性能推理引擎上以软提示方式运行。ART 支持任意微调目标，优化后的视觉输入可被风格化为计算艺术作品。在开源 Qwen 架构的不同规模模型上，ART 在数学和结构化工具使用基准测试中达到了与 LoRA 相当的准确率。

多模态数据/训练论文/研究

17:06

Alibaba Cloud@alibaba_cloud

阿里云发布ApsaraDB Enterprise Agents数据库智能体

阿里云宣布推出ApsaraDB Enterprise Agents，即内置于数据库中的AI原生智能体，可自主执行分析、治理、数据准备等运维任务，无需人工干预；具备企业级安全能力（细粒度访问控制、数据脱敏、token管控），并能自我学习适应。相关活动将于2026年6月24日10:00（UTC+8）线上举办，时长30分钟。

智能体数据/训练行业动态

17:06

Alibaba Cloud@alibaba_cloud

👏#ApsaraDB 有10篇论文被SIGMOD 2026接收--DB×AI、云原生存储与智能工具。从论文到产品：Beluga的CXL内存池正处于工程验证阶段；CloudJump III现已为#PolarDB的分层存储提供动力。 #AlibabaCloud 持续推动数据库前沿。🚀

数据/训练行业动态部署/工程

17:00

公众号：千问APP（阿里）

精选72

千问推出首个足球预测AI助手，竞猜赢奖并捐建球场

千问上线首个足球预测AI助手，基于海量大数据（含历史比赛、球员数据、伤病、美加墨地貌及天气等）。以6月22日挪威对塞内加尔为例，预测“1:1平局”，理由为气候差异。活动：参与全部104场竞猜，预测超80场且准确率超千问可抽万元大奖（100个名额）；预测超32场可抽千问AI眼镜G1（1000副），该眼镜支持赛后分析、拍屏识球员及赛事结果订阅。累积积分将向乡村学校捐建足球场，目标至少50所。

产品更新数据/训练

推荐理由：千问把AI预测和世界杯热点捆绑，玩法不算新鲜，但捐球场的设计让这件事多了点人情味。如果你对预测模型感兴趣，可以看看它怎么处理天气和地貌数据，虽然实际准确率还得踢了才知道。

16:17

Hacker News 热门（buzzing.cc 中文翻译）

精灵宝可梦GO的扫描功能为军用无人机导航技术提供了训练

精灵宝可梦GO的扫描功能被用于训练军用无人机的导航技术。该游戏通过玩家提交的地理位置和扫描数据，帮助优化无人机在复杂环境中的自主导航能力。

具身智能数据/训练行业动态

15:30

IT之家（RSS）

SK集团会长崔泰源：海力士2034年晶圆产能有望达今天3倍

SK集团会长崔泰源接受《日本经济新闻》专访称，若建设计划顺利，SK海力士晶圆产能到2034年将是当前三倍。SK集团计划于2028~2029年在日本建成AI工厂数据中心，正寻找GW级电力供应位置。崔泰源称日本半导体生态系统良好，是韩国外建晶圆厂的理想候选地之一，但当下非决策时机。SK与铠侠存在竞合关系，希望人员、研发和生态合作；对Rapidus随时准备合作。崔泰源认为AI技术仍处早期，当前投资多来自企业端，未来个人AI智能体将带动算力需求提升。

数据/训练行业动态