全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「数据/训练」清除

6月29日周一

13:27宝玉56福特召回350名退休/离职资深工程师重新调教AI质检系统

13:27Rohan Paul56《The Red Queen Gödel Machine》：剑桥大学与NVIDIA等机构提出智能体与评估者协同进化

10:01IT之家（RSS）53曝中国移动设立 Token 办公室，集团领导挂帅督战

09:27Rohan Paul57OpenAI、Anthropic、xAI仅用全球21%算力

09:01IT之家（RSS）58国安部警示：某知名AR手游数据被用于军事目的，采集超300亿环境扫描数据

08:00HuggingFace Daily Papers（社区热门论文）52SciIR：面向科学图像推理生成的大规模训练数据集与基准

08:00HuggingFace Daily Papers（社区热门论文）55评估策略还是措辞？LLM数学推理中表面多样性与策略多样性之间的鸿沟

08:00HuggingFace Daily Papers（社区热门论文）50MOPD：多教师在线蒸馏实现大语言模型后训练能力整合

08:00HuggingFace Daily Papers（社区热门论文）50MatMMExtract：面向材料科学的大规模多模态数据集MatSciFig

08:00HuggingFace Daily Papers（社区热门论文）42DOPD：优势感知的双在线蒸馏

01:33Hacker News 热门（buzzing.cc 中文翻译）56谷歌限制Meta使用其Gemini人工智能模型

01:33Yuchen Jin40GLM-5.2：开源模型迎来Claude式时刻

01:27Rohan Paul53中国开发者通过灰色市场API中转站以低价购买Claude token

00:54TechCrunch：AI（RSS）65美光因AI内存短缺股价飙升236%，市值一度超越Meta和特斯拉

6月28日周日

21:32小互64Grok 4.5 基于1.5T V9进入SpaceX/Tesla测试

20:56meng shao45LoanLens：基于LandingAI的AI审贷初筛系统

20:08Chubby♨️65Grok 4.5 内测：性能接近或超越 Opus

18:50Elon Musk70精选Grok 4.5 私测于 SpaceX 和 Tesla，性能接近 Opus

11:31AK37VISReg：JEPA训练的新正则化方法

08:00HuggingFace Daily Papers（社区热门论文）39用于视觉-语言数据集蒸馏的秩感知双曲对齐（RAHA）

04:50TechCrunch：AI（RSS）54软银CEO并非唯一对马斯克轨道数据中心炒作有疑问的人

01:28SemiAnalysis64SemiAnalysis：AI token支出已达薪酬30%

6月27日周六

22:48TechCrunch：AI（RSS）50Conno Christou用AI辅助决策治疗罕见淋巴瘤

18:24Rohan Paul50RiVER：无需标准答案即可训练LLM生成更优代码

15:24Rohan Paul56韩国银行AI生产力报告：省时未增产出

09:59IT之家（RSS）71精选国家统计局：1-5月规上工业企业利润增18.8%，电子行业利润增103.9%贡献43.1%

08:05MarkTechPost（RSS）67NVIDIA Open-SWE-Traces：构建监督微调数据--轨迹解析、补丁分析与 token 预算

08:00HuggingFace Daily Papers（社区热门论文）51Evolution Fine-Tuning：跨371个优化任务学习发现

06:53Nathan Lambert43Nathan Lambert回应：《RLHF》书不改名"后训练"仍将出版

02:16AYi49斯坦福CS336：从零手搓LLM全链路

00:18Ethan Mollick46扩散模型发现巨无霸并优化汉堡

6月26日周五

23:56AK28DanceOPD：策略内生成场蒸馏

23:51Dwarkesh Patel：Podcast & Blog（RSS）61精选下一个重大突破：AI在工作中学习

23:24Microsoft Research41M365 Copilot 对话分析揭示 AI 工作用途

22:59IT之家（RSS）57加州推出CAIT系统监测AI对就业市场冲击

22:58SenseTime60商汤 SenseNova U1 完整训练代码开源并发布 smoke-test 数据集

22:26François Chollet48Chollet：自主性是学习而非无监督行动

21:09Artificial Intelligence News（RSS）28SAP 推出 Advanced Success Plan，整合碎片化数据实现 AI 个性化

16:59IT之家（RSS）49福特重获JD Power新车质量第一，反思过度依赖AI请回350名老工程师

14:56Alibaba Cloud40阿里云Apache Flink演进为Agentic Streaming for AI

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月29日

13:27

宝玉@dotey

56

福特召回350名退休/离职资深工程师重新调教AI质检系统

福特过去三年召回350名退休/离职资深工程师（gray beard），负责带新人并重新调教未达预期的AI质检系统。整车工程副总裁Charles Poon承认曾错误认为引入AI就能产出高质量产品。效果立竿见影：福特时隔16年重返JD Power新车质量榜主流品牌第一（从第10升至第1），F-150、Super Duty、Mustang分别拿下品类冠军，预计今年节省约10亿美元质保和召回成本。福特未抛弃AI，正新增约10万项评估模拟更多路况。

TechCrunch: Ford rehires 'gray beard' engineers after AI falls short https://techcrunch.com/2026/06/28/ford-rehires-gray-beard-engin...

数据/训练行业动态部署/工程

13:27

Rohan Paul@rohanpaul_ai

56

《The Red Queen Gödel Machine》：剑桥大学与NVIDIA等机构提出智能体与评估者协同进化

剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》，提出让AI智能体与评估者协同进化，避免固定基准导致的分数停滞或易被利用。每轮训练中，评估者冻结，同时用留出的人类/客观答案单独训练更强评估者，在安全交接点更新。在编程任务上，系统以1.35×-1.72×更少token超越此前最佳自改进编程智能体；论文写作中，协同进化的写作者获得审稿小组约1.86倍的平均接收率提升。论文强调更强AI需要更强的评估者与之共同成长。

arXiv 推理数据/训练论文/研究

10:01

IT之家（RSS）

53

曝中国移动设立 Token 办公室，集团领导挂帅督战

中国移动近日设立 Token 办公室，级别高于算力办，由集团核心领导直接挂帅，战略发展部总经理担任常务副主任。该办公室旨在拉通“创造 Token、输送 Token、应用 Token”全流程，打破算力办、移动云公司、数智事业部等二级部门各管一摊的局面。今年 5 月，中国移动上线词元（Token）套餐，最低 5 元月包，可与云电脑、云手机等产品深度融合，用于 AI 应用。在 MWC26 上海上，中国移动提出“智为先”战略方向，探索 AI 手机、AI 眼镜和人形机器人等移动智能新形态。

数据/训练行业动态

09:27

Rohan Paul@rohanpaul_ai

57

OpenAI、Anthropic 和 xAI 三家公司在 2025 年底合计仅使用了全球约 21% 的运营 AI 算力，而当时全球部署的 H100 等效约 1600 万个，已销售的 H100 等效约 2000 万个。数据来自 EpochAI epoch .ai/gradient-updates/frontier-labs-dont-use-most-ai-compute

Anthropic OpenAI 数据/训练行业动态

09:01

IT之家（RSS）

58

国安部警示：某知名AR手游数据被用于军事目的，采集超300亿环境扫描数据

外媒披露，某知名AR手游旗下AI公司获取近300亿份用户环境扫描数据，或用于训练理解物理空间的AI模型，因与某国军工合作，可能用于军事目的。国家安全部指出，该游戏实质诱导玩家完成三维点云扫描，采集维度远超拍照，坐标绑定高精度GPS、海拔、朝向、时间戳。国安部重点提示三种风险：窃取隐私、透支行业信任、泄露地理信息危害国家安全，并建议用户权限管理“小气”、敏感区域“谨慎”、可疑任务“多想”。

政策/监管数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

52

SciIR：面向科学图像推理生成的大规模训练数据集与基准

针对文本到图像模型在科学图像中语义对齐与逻辑推理的不足，本文提出SciIR框架，基于皮尔斯符号学三元组，涵盖实体结构、科学过程、科学定律三个维度。创建了SciIR-82k数据集，含超8万高质量科学图像-文本对，来自前沿论文，并引入科学推理思维链Sci-RCoT建模视觉逻辑。评估基准SciIR-Bench使用原子检查表将科学准确性转为可验证细粒度问题。实验表明当前模型推理能力不足；在SciIR-82k上微调的Qwen-Image-SciIR模型将Bench分数从35%提升至43%。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

评估策略还是措辞？LLM数学推理中表面多样性与策略多样性之间的鸿沟

本文提出策略多样性（approach-level diversity），即同一问题正确解法在策略上的差异。通过人类校准的LLM法官框架，发现现有表面多样性指标无法可靠反映策略多样性，且该不匹配在多样性感知RLVR训练中延续——目标指标不变而策略多样性下降。策略多样的候选集可提升测试时扩展效果，但直接优化LLM法官多样性奖励会导致策略迎合法官偏好而非拓宽方法。策略多样性的直接优化仍是开放问题。工作揭示了表面信号与策略信号间的系统性偏离。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

MOPD：多教师在线蒸馏实现大语言模型后训练能力整合

大语言模型后训练中常用强化学习提升特定能力，但多能力整合困难。现有Off-Policy Finetune和Mix-RL等方法效率低或性能下降。MOPD提出新范式：先对每个领域进行专用RL训练获得领域教师，再在学生模型自身rollout上蒸馏这些教师，消除暴露偏差并提供密集优化信号。在Qwen3-30B-A3B上，MOPD优于Mix-RL、Cascade RL、Off-Policy Finetune和Param-Merge基线，几乎继承每位教师全部能力。MOPD支持领域教师并行独立开发，去除跨领域耦合，已部署于工业级模型MiMo-V2-Flash的后训练。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

MatMMExtract：面向材料科学的大规模多模态数据集MatSciFig

MatMMExtract 是一个端到端开源管道，将复合图表分解为独立子面板，并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章，从 180,571 张图中生成 MatSciFig 数据集，包含 391,606 个面板级图像-文本对，每对配有子标题、两级可视化类别（19 个大类、100+ 子类）和科学摘要。引入 MaterialScope 检测数据集（2,811 张人工标注图），微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中，Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡，82% 输出良好，模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍，所有资源已向社区开放。

多模态开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

DOPD：优势感知的双在线蒸馏

在线策略蒸馏（OPD）通过密集的token级信号监督学生采样轨迹，实现能力迁移，但引入特权信息会引发“特权幻觉”——学生将信息不对称差距误认为可迁移的能力差距。该问题因token级监督的非均匀性而加剧，仅有少量token携带关键能力信号。DOPD提出优势感知的双蒸馏范式，根据优势差距和相对概率动态在特权教师与特权学生策略之间路由token级监督，缓解特权幻觉。在LLM和VLM上的实验表明，DOPD优于标准OPD及其他方法。

数据/训练论文/研究

01:33

Hacker News 热门（buzzing.cc 中文翻译）

56

谷歌限制Meta使用其Gemini人工智能模型

据英国《金融时报》报道，谷歌对Meta使用其Gemini AI模型设限。Meta寻求的计算容量超出谷歌所能提供，导致其部分内部AI项目受阻延迟。其他谷歌客户也受影响，程度较轻。Meta已鼓励员工提高AI token使用效率。

Google Meta 数据/训练行业动态

01:33

Yuchen Jin@Yuchenj_UW

40

GLM-5.2 是开源的 Claude 时刻。我们在 Databricks 看到的（模型）需求令人震惊。全世界将大规模采用开源大语言模型。此外，更多公司会转向在开源模型之上后训练自己的模型并拥有权重。

大佬观点开源生态数据/训练

01:27

Rohan Paul@rohanpaul_ai

53

中国开发者通过灰色市场API中转站以低价购买Claude token

中国开发者通过灰色市场API中转站以官方价格5%-10%购买Claude token。中转站利用免费额度、折扣账户、共享订阅、海外支付绕过、虚假验证及盗刷信用卡汇集多个账户，通过微信/支付宝收款。低价源于账户农场、免费额度滥用、未使用配额转售、订阅拆分及可能盗刷信用卡，并可能将用户提示词和输出用作训练数据创收。风险包括：中转站可能替换为更弱模型、虚报token用量、存储用户私有数据并出售或用于模型训练。这破坏了KYC、账户封禁和滥用监控的有效性——Anthropic只能封禁中转站，无法触及真实用户。

Anthropic 数据/训练现象/趋势

00:54

TechCrunch：AI（RSS）

65

美光因AI内存短缺股价飙升236%，市值一度超越Meta和特斯拉

内存芯片制造商美光受益于AI数据中心建设导致的DRAM和NAND（尤其是HBM）供应短缺，股价过去一个月飙升236%，市值接近1.27万亿美元，一度超越Meta和特斯拉。第三季度营收同比增至414.5亿美元，利润从18.8亿美元暴涨至282亿美元，并预测第四季度营收490至510亿美元。美光已与英伟达、Anthropic等签订16项长期战略客户协议。分析认为需求增长持续超过新产线投产速度，缺货（RAMageddon）预计持续至2027年。

数据/训练行业动态部署/工程

6月28日

21:32

小互@xiaohu

64

Grok 4.5 基于1.5T V9进入SpaceX/Tesla测试

马斯克宣布Grok 4.5基于1.5T V9基础模型，并在补充训练中加入Cursor数据，现已于SpaceX和Tesla进入私人测试。早期评估显示其性能接近甚至可能超过Opus。RL持续显著优化模型，Grok Build工具每日改进。此外，SpaceX今年将每月发布完全从零训练的新模型。

Elon Musk: Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta...

xAI 数据/训练模型发布

20:56

meng shao@shao__meng

45

LoanLens：基于LandingAI的AI审贷初筛系统

LoanLens从六类借款人文档抽取结构化字段，进行欺诈检测与可解释评分，并附带案件RAG问答。采用Schema驱动抽取，可追溯字段来源；欺诈检测包括姓名TF-IDF比对和护照篡改检测；评分透明（信用23%、DTI 23%等），≥60批准，40–59复核，<40拒绝。

LandingAI: http://x.com/i/article/2070766331306332160

检索增强数据/训练行业动态

20:08

Chubby♨️@kimmonismus

65

Grok 4.5 基于 1.5T V9 基础模型，补充训练加入 Cursor 数据，已在 SpaceX 和 Tesla 进行内测。早期评测显示性能接近甚至可能超过 Opus。RL 持续显著改进模型，Grok Build 工具链每日提升。Elon Musk 宣布今年 SpaceX 将每月发布完全从头训练的新模型。

Elon Musk: Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta...

数据/训练模型发布

18:50

Elon Musk@elonmusk

精选70

Grok 4.5，基于我们的1.5T V9基础模型，并在补充训练中加入Cursor数据，现已在SpaceX和Tesla进入私测。初步评估显示其性能接近，或许超越Opus。强化学习仍在持续显著改进模型，Grok Build工具链也在日益完善。所有参与者的出色工作！今年，@SpaceX 将每月发布完全从头训练的新模型。

xAI 数据/训练模型发布

推荐理由：Elon 亲自宣布 Grok 4.5 内部测试，性能可能超过 Opus，虽然还没公开可用，但每月从零训练新模型的节奏，意味着算力军备竞赛还在加速。

11:31

AK@_akhaliq

37

VISReg 用于JEPA训练的方差-不变性-草图正则化

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

用于视觉-语言数据集蒸馏的秩感知双曲对齐（RAHA）

RAHA（Rank-Aware Hyperbolic Alignment）提出将多模态表示提升到双曲空间，通过非对称目标优化蒸馏对，强制在共享低秩范围内进行测地线对齐，同时正则化残差子空间以保留模态私有多样性并提升迁移鲁棒性。该方法解决了现有视觉-语言数据集蒸馏中欧几里得全维度对齐过于严格的问题，在固定预算下实现有竞争力的跨模态检索和更优的迁移指标。

多模态数据/训练论文/研究

04:50

TechCrunch：AI（RSS）

54

软银CEO并非唯一对马斯克轨道数据中心炒作有疑问的人

软银CEO孙正义在股东大会上批评马斯克的轨道数据中心构想，认为其成本高、周期长，而AI竞赛未来几年比十年后的可能性更重要。SpaceX目前占据全球发射市场80-90%份额，主要依赖Starlink业务；建设需要每隔几年更换卫星的轨道数据中心将为SpaceX带来更多发射业务。同期，芯片公司Groq完成6.5亿美元融资，OpenAI推进定制芯片计划。

大佬观点数据/训练部署/工程

01:28

SemiAnalysis@SemiAnalysis_

64

我们在《AI价值捕获》一文中一个令人不安的内部观察是：SemiAnalysis 现在的 token 支出约占员工薪酬的 30%，员工平均每月使用近 50 亿 token，是 Meta 的 5 倍以上，而我们的顶级贡献者已超过 1000 亿。我们公开写下这一点，是因为我们认识的每一家研究公司、对冲基金和律所，都在朝着类似的数字迈进，只是时间上有所延迟。（1/4）🧵

数据/训练现象/趋势

6月27日

22:48

TechCrunch：AI（RSS）

50

Conno Christou用AI辅助决策治疗罕见淋巴瘤

Conno Christou被诊断出罕见非霍奇金淋巴瘤，肿瘤约11×11×8厘米。两位肿瘤专家给出不同化疗方案，较轻方案成功率约60%，较重方案约85%。他收集12位专家意见后选择后者。治疗期间，他用Whoop监测身体，并将血液结果、扫描数据、可穿戴设备输出和日志输入Claude，借助其分析辅助决策。治疗后PET扫描结果模糊，Claude指出该类型淋巴瘤治疗结束后的PET假阳性率约60%，并判断胸腺反弹概率约90%。第四位医生确认无需放疗，他最终痊愈。

Anthropic 数据/训练现象/趋势

18:24

Rohan Paul@rohanpaul_ai

50

RiVER：无需标准答案即可训练LLM生成更优代码

论文提出RiVER方法，让LLM从没有已知标准答案的问题中学习编码行为。RiVER使模型编写多个程序，在相同隐藏测试上运行，奖励表现较优者。关键是对每个测试用例内的程序排序，给最优者额外权重，其他有效程序也获得较小分级反馈，避免因原始分数数值差异扭曲训练。在12个AtCoder Heuristic Contest任务上，RiVER同时提升了基于分数的竞赛表现和常规通过/失败编码基准测试。arXiv:2606.27369。

推理数据/训练编码论文/研究

15:24

Rohan Paul@rohanpaul_ai

56

韩国银行刚发布了一份关于AI生产力的报告。使用生成式AI的韩国工人将任务时间缩短了3.8%，按40小时工作制计算约为每周1.5小时，然而节省的时间与实际完成更多工作之间并无关联。仅有4.4%的任务节省了超过20%的时间。这造成了AI生产力脱节：更快的报告可能催生更多报告，更快的审查可能催生更多审查，节省的时间可能被组织习惯吸收，而非转化为更高的产出。

数据/训练现象/趋势

09:59

IT之家（RSS）

精选71

国家统计局：1-5月规上工业企业利润增18.8%，电子行业利润增103.9%贡献43.1%

1—5月全国规上工业企业利润同比增18.8%。电子行业利润增103.9%，贡献率43.1%，主因全球AI技术变革推动高端算力芯片和存储芯片需求爆发。原材料制造业利润增83.1%，其中有色增117.1%、化工增71.6%。高技术制造业利润增44.7%，电子专用材料制造增665.4%。企业每百元营收成本降0.59元，营收利润率5.56%，为2024年以来累计最高。

数据/训练行业动态

推荐理由：国家统计局这组数据让AI不再是融资故事，电子行业利润增长103.9%，AI需求是实实在在的引擎，硬件供应链的价值该被重估了。

08:05

MarkTechPost（RSS）

67

NVIDIA Open-SWE-Traces：构建监督微调数据--轨迹解析、补丁分析与 token 预算

本文介绍如何从 Hugging Face 流式加载 nvidia/Open-SWE-Traces 数据集，解析 openhands、sweagent 等智能体与 minimax_m25、qwen35_122b 模型的轨迹，标准化多轮对话，解析最终代码补丁并统计新增/删除行数、文件扩展名分布。构建分析 DataFrame 考察轨迹长度、工具调用、补丁规模、语言分布及解决结果。基于成功标签、MAX_SFT_TOKENS=32000 的 token 限制、语言过滤和补丁可用性，筛选高质量轨迹形成监督微调子集。

Hugging Face 教程/实践数据/训练编码

08:00

HuggingFace Daily Papers（社区热门论文）

51

Evolution Fine-Tuning：跨371个优化任务学习发现

Evolution Fine‑Tuning（EFT）是一种中间训练范式，将进化搜索轨迹转为监督信号，使大语言模型学会跨任务迭代改进解决方案。研究构建了包含15.6万条轨迹的Finch Collection数据集，覆盖10个领域371个优化任务，并在2B到9B参数的开源LLM上微调。在22个保留任务上，EFT模型平均超越基线10.22%；结合测试时强化学习，在两个圆填充任务上达到当前最优，并在Erdős最小重叠问题上超越基线。EFT相当于通用发现代理的“练习阶段”，避免从零开始解决新问题。

智能体数据/训练论文/研究

06:53

Nathan Lambert@natolambert

43

Nathan Lambert回应：《RLHF》书不改名"后训练"仍将出版

Nathan Lambert回应外界建议——他的《RLHF: Reinforcement Learning from Human Feedback》若改名“后训练”书籍会更畅销。Lambert承认内容本质正是后训练，但改名需重构3至15个月，因精力有限未做。他认为RLHF远未解决，值得独立成篇；该书侧重数学与直觉，后训练更偏数据与系统。他坚持原题以避免不诚实，并宣布“RLHF后训练书籍”即将出版。

大佬观点数据/训练

02:16

AYi@AYi_AInotes

49

斯坦福CS336：从零手搓LLM全链路

斯坦福CS336课程要求学生从零实现完整LLM流水线，覆盖分词、Transformer架构、GPU优化、数据清洗、scaling laws、对齐技术等核心环节。五个作业打穿全链路，强调手搓比调包更能获得系统直觉，例如用Triton实现FlashAttention比看论文印象深。课程无需前期深度背景，每周投入约十五小时，三个月即可建立对LLM底层理解的系统性认知。知识获取伴随挫败，但执行力是拉开差距的关键。

AYi: http://x.com/i/article/2069024565901119488

大佬观点数据/训练

00:18

Ethan Mollick@emollick

46

终于，AI找到了其终极无争议用途。一个基于汉堡食谱训练的扩散模型"在没有显式监督的情况下发现了经典巨无霸，并生成了针对美味、可持续性或营养优化的新型汉堡。" ASI= automated slider intelligence

Eric Topol: Generative AI design of the best burger for its taste, nutrition, and for the environment https://www.nature.com/article...

数据/训练论文/研究

6月26日

23:56

AK@_akhaliq

28

DanceOPD 策略内生成场蒸馏

数据/训练论文/研究

23:51

Dwarkesh Patel：Podcast & Blog（RSS）

精选61

下一个重大突破：AI在工作中学习

AI实验室的研究赌注是：在数千个多样化RL环境中训练模型完成数百万可验证任务，就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一，但训练成本是一次性的，可摊销到数十亿次用户会话中；真正重要的是模型在单个会话内的智能和样本效率，而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长，就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储，未来可能实现任意大的上下文窗口。论文还指出，一个领域不仅需要可验证性，还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。

大佬观点推理数据/训练

推荐理由：RLVR 范式能否通向 AGI？Dwarkesh 指出关键瓶颈在于样本效率和 grindability，他提出的 OPSD 和 dreaming 方案重新定义了「学习中」的边界，虽然离落地尚远，但值得每一个关心 AI 下一步的人细读。

23:24

Microsoft Research@MSFTResearch

41

跟进我起草的社交文案：人们在工作中的 AI 到底用来做什么？一项对五百万次 M365 Copilot 对话的新分析给出了答案。Scott Counts 在一段新视频中进行了详细解读。点击此处深入了解分析：https://msft.it/6015vUHsh

Microsoft 数据/训练论文/研究

22:59

IT之家（RSS）

57

加州推出CAIT系统监测AI对就业市场冲击

美国加州州长纽森宣布推出“California AI-Unemployment Tracker（CAIT）”系统，每月将失业保险申领数据与各职业受AI影响程度交叉分析，作为早期预警工具。首份报告显示，截至今年5月，加州整体未出现AI导致失业保险申请大幅上升，但自2022年底ChatGPT 3.5推出以来，大学以上学历且从事易被AI替代职业的劳动者，失业保险申请持续上升，旧金山湾区最明显。专业服务业和信息产业变化突出，其中信息产业在2025年底回落至基准线附近。该系统旨在提前识别受冲击人群以便提供支持，并非直接证明AI导致失业的证据。

政策/监管数据/训练

22:58

SenseTime@SenseTime_AI

60

商汤 SenseNova U1 完整训练代码开源并发布 smoke-test 数据集

商汤开源 SenseNova U1 完整训练代码，提供可检查、可修改、可重建的完整训练栈。同步发布 smoke-test 数据集，覆盖 t2i、it2i、多图输入、交错生成、多模态理解、视频理解、纯语言续写 7 种任务类型。用户可基于该 schema 用自有数据微调 U1，或验证数据格式及端到端测试 pipeline。数据集已上架 HuggingFace，代码托管于 GitHub。

GitHub Hugging Face 开源/仓库数据/训练

22:26

François Chollet@fchollet

48

自主性不是在没有人类监督的情况下行动的能力。而是在过程中没有人类瓶颈的情况下*学习*的能力。一个完全依赖人类训练数据和RL环境的系统，只是人类知识的印记。

大佬观点数据/训练

21:09

Artificial Intelligence News（RSS）

28

SAP 推出 Advanced Success Plan，整合碎片化数据实现 AI 个性化

SAP 面向 SAP Customer Experience 解决方案推出 Advanced Success Plan，解决企业数据碎片化问题。该计划覆盖三层：数据层统一实时客户画像并遵守用户授权；决策层由 AI 算法确定展示商品、促销时机；交付层通过数字店铺、邮件、推送通知等渠道执行。SAP Commerce Cloud 具备 AI 辅助商品推荐系统，基于实时行为提升转化；SAP Engagement Cloud（由 SAP Emarsys 驱动）支持 AI 发送时间优化，根据联系人行为模式决定发送时机，替代固定计划。

产品更新数据/训练

16:59

IT之家（RSS）

49

福特重获JD Power新车质量第一，反思过度依赖AI请回350名老工程师

福特在JD Power 2026年美国新车质量研究（IQS）中以152 PP100获主流品牌第一。高管坦承过去过度依赖AI和自动化系统，低估了资深工程师“隐性知识”的价值，导致质量下滑。过去三年，福特累计聘用、晋升或返聘超350名“灰胡子”工程师，指导年轻团队并改进AI训练。同时组建40人软件质量管控团队，新增超10万项AI测试用例。2025年福特召回153次涉及约1300万辆车，2025年4月至2026年4月累计召回1960万辆。福特强调AI效果取决于数据质量，让资深工程师成为AI的“老师”。

数据/训练行业动态

14:56

Alibaba Cloud@alibaba_cloud

40

阿里云Apache Flink演进为Agentic Streaming for AI

在深圳举办的Flink Forward Asia 2026上，阿里云研究员、开放数据平台负责人Feng Wang指出，AI时代模型与数据共同决定Agent质量与效率。Apache Flink演进为Agentic Streaming for AI，与Agentic Lake协同，构建AI原生数据平台。下一代智能体建立在统一、实时的AI原生数据基础设施之上。

数据/训练行业动态部署/工程

1 234 5…42