全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「数据/训练」清除

5月18日周一

06:39Ethan Mollick61真AI腾飞面临两大关键障碍

5月17日周日

22:32Hacker News 热门（buzzing.cc 中文翻译）61每一份 AI 订阅对企业而言都是一颗定时炸弹

16:10Rohan Paul70研究揭示LLM智能体记忆重写机制损害可靠性

10:42SemiAnalysis53Jensen Huang谈低MFU策略与智能系统设计

08:00HuggingFace Daily Papers（社区热门论文）50引入有限元分析反馈的自改进CAD生成智能体

08:00HuggingFace Daily Papers（社区热门论文）50Bug还是Feature^2：权重漂移、激活稀疏性与激活尖峰

03:54Dwarkesh Patel：Podcast & Blog（RSS）50关于预训练并行化与失败训练运行的笔记

02:32Hacker News 热门（buzzing.cc 中文翻译）52OpenClaw 创始人30天内斥资130万美元购买 OpenAI 代币

00:03Chubby♨️5330天消耗130万美元token竞争激烈

5月16日周六

22:54Berryxia.AI65无需重训，对齐即可高效训练扩散语言模型

15:42IT之家（RSS）60我国科研团队"造"出 200 微米高质量单晶石墨，厚度为世界水平 3 倍以上

15:32Chubby♨️59Grok模型升级至1.5T参数性能显著提升

15:17OpenAI：官网动态（RSS · 排除企业/客户案例）66精选数据科学团队如何使用 Codex

11:14Google DeepMind：Blog（RSS）43WeatherNext如何帮助美国国家飓风中心更好预测飓风Melissa在牙买加的历史性登陆

08:00HuggingFace Daily Papers（社区热门论文）60动态谱整形视角下的DynMuon优化方法

08:00HuggingFace Daily Papers（社区热门论文）56强化学习中可验证奖励语言模型的不可学习现象

08:00HuggingFace Daily Papers（社区热门论文）61E-PMQ：基于合并权重锚定的专家指导后合并量化框架

08:00HuggingFace Daily Papers（社区热门论文）59即插即用、无需训练的LLM记忆模块NGM

08:00HuggingFace Daily Papers（社区热门论文）55MixSD：混合上下文的自蒸馏知识注入方法

07:09SemiAnalysis57DeepSeek V4发布MegaMoE优化内核

04:49HuggingFace Daily Papers（社区热门论文）67为图像生成中的球面流匹配对齐潜在几何

02:37Rohan Paul55Grok基础模型V9规模扩大三倍，专为竞争顶级编码智能体

5月15日周五

23:49HuggingFace Daily Papers（社区热门论文）64通过随机选取少样本指导提升带可验证奖励的强化学习

22:54Berryxia.AI46Transformer与MoE架构的核心区别与训练挑战

21:27向阳乔木36LLM后训练技术：SFT、DPO、GRPO进阶对比

16:49HuggingFace Daily Papers（社区热门论文）54FrontierSmith：大规模合成开放式编码问题

12:49HuggingFace Daily Papers（社区热门论文）62动态潜在路由

11:49HuggingFace Daily Papers（社区热门论文）59DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

10:48HuggingFace Daily Papers（社区热门论文）64自蒸馏智能体强化学习

10:18SenseTime70同事件精选SenseNova-U1空间智能突破，开源最大空间问答数据集同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

09:48HuggingFace Daily Papers（社区热门论文）41德国政治文本的意识形态倾向预测研究

08:40🚨 AI News | TestingCatalog61Manus与Similarweb合作增强流量分析功能

08:35Ethan Mollick66思维令牌持续提升大模型性能无瓶颈

08:10🚨 AI News | TestingCatalog67Perplexity Computer集成Snowflake，赋能团队数据分析

08:00HuggingFace Daily Papers（社区热门论文）44Rule2DRC：基于执行引导测试生成的DRC脚本合成LLM智能体基准测试

08:00HuggingFace Daily Papers（社区热门论文）62面向数据流的代理式大语言模型强化学习系统AstraFlow

08:00HuggingFace Daily Papers（社区热门论文）61GRASP：基于多人非语言交互的社会推理学习

08:00HuggingFace Daily Papers（社区热门论文）56使用稀疏自编码器实现CLIP模型的鲁棒和可解释微调

08:00HuggingFace Daily Papers（社区热门论文）51CM-EVS：用于完整场景覆盖的稀疏全景RGB-D-Pose数据

08:00HuggingFace Daily Papers（社区热门论文）55解锁视觉语言模型中的稠密度量深度估计

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月18日

06:39

Ethan Mollick@emollick

61

因此，实现真正AI腾飞的两个最明显障碍是：强大的RSI（AI作为独立的AI研究者，而"不仅仅"是人类工作的倍增器）以及持续学习能力。其中任何一项都将代表AI发展轨迹的重大转变。

智能体大佬观点数据/训练

5月17日

22:32

Hacker News 热门（buzzing.cc 中文翻译）

61

每一份 AI 订阅对企业而言都是一颗定时炸弹

企业广泛采用AI订阅服务正成为潜在运营风险源，这些订阅可能引发隐藏成本激增、数据安全漏洞和技术依赖问题。随着使用量扩大，费用失控和合规性挑战如同定时炸弹般威胁企业财务与稳定。业界警示需建立严格管理机制，以防范未来危机爆发。

数据/训练现象/趋势部署/工程

16:10

Rohan Paul@rohanpaul_ai

70

研究揭示LLM智能体记忆重写机制损害可靠性

伊利诺伊大学与清华大学等机构的研究发现，LLM智能体虽能从经验中学习，但其通过LLM将原始经历压缩成书面教训的记忆重写机制会损害记忆可靠性。在网页购物、模拟世界及ARC风格谜题等任务测试中，反复重写记忆会导致错误分组、规则过度泛化或过拟合，使智能体遗忘细节或混淆任务类型。例如，GPT-4在无记忆时可100%解决小型ARC-AGI问题集，而建立记忆并流式更新后，性能降至约54%。研究主张智能体记忆系统应重视原始经历作为关键证据，而非自动将所有经验重写为摘要，保留原始证据并选择性摘要效果更佳。

智能体数据/训练论文/研究

10:42

SemiAnalysis@SemiAnalysis_

53

在斯坦福CS153前沿系统课程中，Jensen Huang逐字表示他"希望始终保持低MFU"，其给出的理由是：他希望系统足够智能，以至于超额配置了如浮点运算、网络、内存等工作负载。或许@xai的内核团队也在遵循这一理念。

大佬观点数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

50

引入有限元分析反馈的自改进CAD生成智能体

本研究提出一种更贴近工业实际的CAD生成任务，要求模型从工程描述直接生成完整的多部件STEP文件，并通过有限元分析进行验证。初始测试中，GPT-5.5和Claude Code（Opus-4.7）智能体均未生成完全通过验证的作品，最佳配置平均仅满足约20%的规范要求。为改进流程，引入了纯文本蓝图规范与21视角图像渲染器两种新的监督信号，以辅助智能体进行视觉检查与迭代。这些反馈工具提升了生成质量，使GPT-5.5/xhigh在S2O基准上的Box-IoU从0.444提升至0.592，在Fusion360基准上从0.397提升至0.505，推动CAD生成结果在满足视觉合理性的同时，更能通过物理与结构要求的检验。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

Bug还是Feature^2：权重漂移、激活稀疏性与激活尖峰

研究发现，标准损失函数与正偏置激活函数（如ReLU）的相互作用，会在训练早期普遍引发与数据无关的权重负向漂移现象。该漂移在多种架构中存在，并能与ReLU结合使GPT-nano的激活稀疏度高达90%。研究分析了79种配置下的稀疏度-精度权衡，发现超过约70%的稀疏度会导致精度骤降。虽然ReLU²能取得较好的平衡，但会病态放大Transformer中间层的激活尖峰；而裁剪后的ReLU²解决了这一问题，且GELU²在GPT-nano上取得了最佳性能。

数据/训练论文/研究

03:54

Dwarkesh Patel：Podcast & Blog（RSS）

50

关于预训练并行化与失败训练运行的笔记

近期访谈揭示了大规模语言模型预训练中的并行化策略与失败案例。关键变化包括从数据并行转向更复杂的模型并行、流水线并行及混合策略，以应对万亿参数模型的内存与计算挑战。具体指标显示，某些失败训练运行因硬件故障或超参数设置不当，导致数百GPU小时损失。成功案例则通过优化通信开销与负载均衡，将训练效率提升约15-30%。这些经验为GPT、Claude、LLaMA等模型的稳定训练提供了重要技术参考。

OpenAI 教程/实践数据/训练部署/工程

02:32

Hacker News 热门（buzzing.cc 中文翻译）

52

OpenClaw 创始人30天内斥资130万美元购买 OpenAI 代币

OpenClaw 创始人在30天内花费130万美元购买OpenAI代币，这一高额支出凸显了其项目对AI算力资源的巨大需求。该笔交易反映出开发前沿AI应用可能伴随的显著运营成本，也引发了业界对AI基础设施使用经济性的关注。相关信息在Hacker News上获得100点讨论热度。

OpenAI 数据/训练行业动态

00:03

Chubby♨️@kimmonismus

53

这就是你正在面对的竞争。 30天内消耗130万美元的token。总计6030亿token。燃烧更多token，否则你将无法成功。

Peter Steinberger 🦞: The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar

数据/训练现象/趋势

5月16日

22:54

Berryxia.AI@berryxia

65

无需重训，对齐即可高效训练扩散语言模型

杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练，而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法，在掩码扩散训练过程中，通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构，仅调整注意力掩码。实验结果显示，训练速度最高可提升4倍，在低数据场景下效果提升尤其显著。

Fred Peng: How to Train Diffusion LLM more efficiently? Our paper has an answer for you: Don't Retrain, Align: Adapting Autoregress...

arXiv 开源生态数据/训练论文/研究

15:42

IT之家（RSS）

60

我国科研团队"造"出 200 微米高质量单晶石墨，厚度为世界水平 3 倍以上

上海人工智能实验室联合苏州国家实验室、清华大学等团队成功制备出厘米级尺寸、厚度超过200微米的高质量单晶石墨，该厚度达到世界水平的3倍以上。团队构建了亿级计算材料数据库，训练出高精度机器学习势函数模型，可模拟超过十万原子规模的体系动力学，揭示了单晶石墨的生长机制。基于模拟结果优化工艺后，最终实现这一突破，验证了AI驱动科学发现的智能化科研路径。

数据/训练论文/研究

15:32

Chubby♨️@kimmonismus

59

据Elon称，Grok 4.2基于基础模型v8： 0.5T参数，在Hoppers上训练，存在主要数据质量问题。新的v9模型为1.5T参数，采用更好的训练方案和数据管理，并为Blackwell优化。更好的模型将加剧竞争。

数据/训练模型发布

15:17

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选66

数据科学团队如何使用 Codex

Codex 能够帮助数据科学团队根据实际工作输入，自动化生成根本原因简报、影响报告、关键绩效指标备忘录、范围分析以及仪表板规格文档。该工具将自然语言描述转化为结构化分析框架，提升了从数据查询到报告生成的工作流效率，使团队能更快速地将业务问题转化为可执行的数据分析方案。

OpenAI 教程/实践数据/训练

推荐理由：OpenAI Academy 手把手教数据科学团队用 Codex 产出分析报告，prompt 模板可以直接抄，但作为教程新信息不多，适合 Codex 用户按需参考。

11:14

Google DeepMind：Blog（RSS）

43

WeatherNext如何帮助美国国家飓风中心更好预测飓风Melissa在牙买加的历史性登陆

WeatherNext AI模型协助气象预报员为社区在飓风Melissa登陆前提供了前所未有的准备时间。该模型通过提升预测准确性与提前量，帮助牙买加等地成功应对了这场历史性的飓风事件，显著增强了灾害预警的时效性。

DeepMind Google 数据/训练现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

60

动态谱整形视角下的DynMuon优化方法

DynMuon是一种用于高效训练大模型的动态谱整形优化方法。它改进了Muon算法，将更新矩阵从极分解形式UΣV^top调整为UΣ^p V^top。其核心创新在于，训练过程中将谱调整参数p从正值动态调度为轻微负值。此设计基于对损失曲率、梯度噪声和训练阶段的理论分析：早期使用p>0强调高曲率方向以加速收敛；后期转为轻微负p值，将更新强度重新分配给仍含有效信号的低曲率方向。实验表明，该方法在各类设置下均优于Muon，达到相同目标损失所需步数可减少10.6%-26.5%。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

强化学习中可验证奖励语言模型的不可学习现象

研究发现，可验证奖励强化学习虽能提升语言模型的推理能力，但存在一种反直觉现象：在模型初始难以处理的困难样本中，有相当一部分即使提供正确答案也无法被学习。通过跨样本梯度分析，研究揭示了不可学习样本的根本性表征缺陷，其特征是与其他样本梯度相似性低且推理模式难以泛化，而数据增强无法改善这一问题。该研究首次系统描述了训练中的不可学习数据现象，并指出当前强化学习方法在推理任务上存在根本性局限。

arXiv GitHub 推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

61

E-PMQ：基于合并权重锚定的专家指导后合并量化框架

针对模型量化与合并结合时，量化偏差与合并偏差相互耦合导致性能下降的难题，本文提出了E-PMQ框架。该框架在逐层校准过程中，利用源模型的权重提供专家指导的输出目标，并引入合并权重锚定机制以稳定校准过程，从而有效整合合并模型的行为。实验结果表明，E-PMQ显著提升了量化后模型的性能：在CLIP-ViT-B/32的8任务合并中，4位GPTQ的准确率在Task Arithmetic和TIES-Merging方法下分别从65.0%和69.1%提升至73.6%和74.8%；在更具挑战性的20任务CLIP-ViT-L/14设置上，准确率从34.8%大幅跃升至76.7%。这证明了E-PMQ能够实现高效的后合并量化与低比特部署。

数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

59

即插即用、无需训练的LLM记忆模块NGM

本文提出NGM，一种无需训练、即插即用的记忆模块，旨在提升大语言模型的知识检索效率。它包含因果N元组编码器与余弦门控记忆注入器，直接利用模型预训练词嵌入构建N元组表示，无需额外训练或检索步骤。在Qwen3系列模型的多项基准测试中，NGM平均提升性能0.5至1.2分，在代码生成与知识密集型任务中效果尤为显著（如LiveCodeBench提升3.0分，GPQA提升3.03分），并在多模态任务中也带来性能增益。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

MixSD：混合上下文的自蒸馏知识注入方法

为解决监督微调（SFT）导致语言模型灾难性遗忘的问题，本文提出了MixSD方法。该方法无需外部教师模型，通过动态混合基础模型自身的“专家条件”（基于注入的事实）和“朴素条件”（模型原有先验）的token来构造监督信号，使训练目标更贴合模型原生分布。在合成数据集与开放域问答基准的实验表明，MixSD在多个模型规模下均优于SFT和自蒸馏基线，能近乎完美地保留基础模型全部未保持能力（高达100%），而标准SFT仅能保留低至1%。该方法降低了监督目标的困惑度（NLL），减少了在Fisher敏感参数方向上的有害更新，为知识注入提供了分布对齐的有效原则。

数据/训练论文/研究

07:09

SemiAnalysis@SemiAnalysis_

57

正如我们对DeepSeek发布的期待，DeepSeek V4带来了更多炫目的ML系统优化。这次是MegaMoE，一个1400行融合CUDA内核，可计算整个MoE前向传播。让我们看看它是如何工作的（1/4）🧵

DeepSeek 大佬观点数据/训练部署/工程

04:49

HuggingFace Daily Papers（社区热门论文）

67

为图像生成中的球面流匹配对齐潜在几何

研究提出一种球面流匹配方法，改进图像生成的潜在几何对齐。通过将潜在标记分解为径向与角度分量，发现解码后的感知与语义信息主要由方向承载。该方法将数据潜在投影到固定半径，以高斯噪声的径向投影作为球面先验，冻结编码器微调解码器，并用球面线性插值替代线性插值。由此构建的测地路径始终保持在球面上，速度目标纯由角度构成。在同等训练条件下，该方法在不同图像标记器上持续提升类别条件ImageNet-256的FID指标，无需改变扩散架构，也不依赖辅助编码器或表示对齐目标。

图像生成数据/训练论文/研究

02:37

Rohan Paul@rohanpaul_ai

55

Elon Musk表示，Grok基础模型V8与V9之间存在巨大差距。内部开发的V9是一个1.5万亿参数模型，在数据质量、训练方法、规模等各方面均远超V8，并针对Blackwells架构优化，旨在与顶级编码智能体竞争。而当前公开的v4.2版本基于仅0.5万亿参数、在Hoppers上训练的V8基础模型，其训练数据在质量、全面性和均衡性上存在显著不足。

Elon Musk: The version numbers are a little confusing and deserve some explanation. Internally, we are working on version 9 of our ...

数据/训练模型发布

5月15日

23:49

HuggingFace Daily Papers（社区热门论文）

64

通过随机选取少样本指导提升带可验证奖励的强化学习

针对传统RLVR在难题上样本效率低的问题，研究团队提出了少样本演示指导的强化学习算法FEST。该方法仅需从监督微调数据集中随机选取128个演示样本，即可取得显著效果。其成功关键在于结合了监督信号与同策略信号，并通过对少样本SFT数据集设置衰减权重来防止多轮训练中的过拟合。在多个基准测试中，FEST以远少于基线方法所需的SFT数据量实现了更优性能，甚至在使用完整数据集时也能达到与之匹配的水平。

arXiv 数据/训练论文/研究

22:54

Berryxia.AI@berryxia

46

Transformer与MoE架构的核心区别与训练挑战

Mixture of Experts（MoE）与标准Transformer的核心区别在于解码器模块：后者使用单一前馈网络，而MoE将其替换为多个小型专家网络。推理时，MoE仅激活部分专家，以更多参数换取更快的计算速度。模型通过路由器为每个token选择top-K专家。训练面临两大挑战：一是“专家过选”，通过添加噪声和屏蔽非top-K logit来缓解；二是“负载不均”，通过设置专家处理token的容量上限来平衡。Mixtral 8x7B等模型是MoE的典型应用。

Daily Dose of Data Science: Transformer and Mixture of Experts, explained visually! Mixture of Experts (MoE) is a popular architecture that uses dif...

教程/实践数据/训练

21:27

向阳乔木@vista8

36

推文简要对比了大语言模型（LLM）的三种后训练技术。SFT旨在让模型学会遵循指令。DPO则进一步优化模型输出，使其更符合人类偏好。GRPO作为后续步骤，专注于激发和提升模型的推理与思考能力。这三种技术构成了一个从基础指令遵循到高级认知能力开发的渐进式训练路径。

推理教程/实践数据/训练

16:49

HuggingFace Daily Papers（社区热门论文）

54

FrontierSmith：大规模合成开放式编码问题

FrontierSmith 是一个自动化系统，能从现有封闭式编码任务中迭代演化出开放式问题。它通过改变问题目标、限制输出和泛化输入生成候选变体，并利用量化思维发散指标筛选能激发多元解法的问题，再由智能体生成测试用例与验证器。在两个开放式编码基准测试中，使用合成数据训练后，基础模型性能显著提升：Qwen3.5-9B 在 FrontierCS 上得分提高 +8.82，在 ALE-bench 上基于 Elo 评分的性能提升 +306.36；Qwen3.5-27B 分别提升 +12.12 和 +309.12。合成问题还使智能体进行更多轮次、消耗更多令牌，其特性与人工构建问题相似，表明封闭式问题种子可作为生成长视野编码数据的实用起点。

推理数据/训练编码论文/研究

12:49

HuggingFace Daily Papers（社区热门论文）

62

动态潜在路由

本文针对奖励函数时变的马尔可夫决策过程，提出了通用迪杰斯特拉搜索方法，证明了通过中间最优子策略的时间组合可恢复全局最优策略。受此启发，作者提出了动态潜在路由，这是一种语言模型后训练方法，能在单一训练阶段通过动态搜索联合学习离散潜在代码、路由策略和模型参数。在低数据微调场景下，该方法在四个数据集和六个模型上达到或超越了监督微调的性能，平均提升6.6个百分点，而先前的离散潜在基线方法则持续表现不佳。机理分析表明，该方法能学习具有不同因果角色的结构化路由行为。

推理数据/训练论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

59

DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

DiffusionOPD 提出一种基于在线策略蒸馏的扩散模型多任务训练范式，以解决多任务强化学习中的交叉干扰与失衡问题。该方法先独立训练任务专属教师模型，再沿学生自身采样轨迹将能力蒸馏至统一学生，从而解耦单任务探索与多任务整合。理论层面，研究将 OPD 框架从离散标记推广至连续状态马尔可夫过程，推导出闭式逐步 KL 目标，通过均值匹配统一随机 SDE 与确定性 ODE 优化，其解析梯度相比传统 PPO 类策略梯度具有更低方差与更好泛化性。实验表明，DiffusionOPD 在训练效率和最终性能上均超越多奖励强化学习与级联强化学习基线，并在全部评估基准上取得领先结果。

arXiv 多模态数据/训练论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

64

自蒸馏智能体强化学习

强化学习为LLM智能体后训练提供核心范式，但其轨迹级奖励信号对长程交互的监督较为粗略。针对多轮智能体应用策略自蒸馏时，存在多轮不稳定性加剧以及技能条件化特权指导处理不对称的问题。本文提出的SDAR方法将策略自蒸馏作为门控辅助目标，以强化学习为主要优化主干，通过Sigmoid门映射分离的令牌级信号，强化教师认可的正向差距令牌的蒸馏，并软衰减教师的负面拒绝。在多个基准上的实验表明，SDAR显著优于GRPO基线，避免了朴素混合方法的不稳定性，并在不同模型规模上持续超越混合基线。

智能体数据/训练论文/研究

10:18

SenseTime@SenseTime_AI

同事件精选70

主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出，SenseNova-U1在空间智能能力上取得进展，其关键基准测试表现超越了Qwen3.5等强劲基线。同时，团队开源了目前最大的空间问答数据集SenseNova-SI-8M，并邀请业界在CVPR会议进行线下交流。

Zhongang Cai: Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...

多模态开源生态数据/训练论文/研究

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤的 SenseNova-U1 在空间智能基准上压过 Qwen3.5，还顺手开源了目前最大的空间 QA 数据集 SenseNova-SI-8M，搞具身智能和多模态的可以直接抱走数据。

09:48

HuggingFace Daily Papers（社区热门论文）

41

德国政治文本的意识形态倾向预测研究

研究提出一种基于Transformer的模型，可将德国政治文本的意识形态投射到连续的左-右光谱上（-1到1）。为筛选最优基础模型，团队构建了四个语料库：联邦议院记录、Wahl-O-Mat内容、33家报纸文章及535,200条议员推文。在13个候选模型中，DeBERTa-large在领域内测试获得最高F1分数（0.844），在推文跨域测试中准确率达0.864；Gemma2-2B在报纸跨域测试中表现最优（平均绝对误差0.172）。研究表明，Transformer模型识别德国新闻政治框架的能力可达民意调查水平，且模型架构与领域训练数据的影响可与模型规模相当。

数据/训练论文/研究

08:40

🚨 AI News | TestingCatalog@testingcatalog

61

Manus 🤝 Similarweb Manus用户现可获取Similarweb更丰富的数据，用于分析流量与增长驱动力。通过更多指标深入分析： • 关键词需求、难度、CPC及意图 • 品牌与非品牌搜索流量 • 引入+外链来源 • 自然与付费着陆页 • 任意域名下访问量最高的页面随后利用Manus将研究转化为简报、仪表板、报告与演示文稿

Manus: 2/ Go deeper with more metrics and analyze: • Keyword demand, difficulty, CPC, and intent • Branded vs. unbranded search...

智能体产品更新数据/训练

08:35

Ethan Mollick@emollick

66

第二扩展定律依然所向披靡。若想从大语言模型中获得更强的黑客能力（或数学、科学、填字游戏解题能力），只需增加思维令牌。目前看来尚未出现任何性能瓶颈。

Natália 🔍: Very important update from UK AISI. This is a meaningful change from the previous report. Here's what the new data would...

大佬观点推理数据/训练

08:10

🚨 AI News | TestingCatalog@testingcatalog

67

Perplexity Computer现已支持将Snowflake作为数据源，能够充当个人数据科学团队和数据分析团队的角色。用户可以直接基于Snowflake数据构建仪表盘和自动化流程，用于分析销售管道、产品使用情况、客户细分等。同时，系统管理员能够保持对组织内数据访问权限、业务定义和共享数据逻辑的集中控制。这一集成旨在将数据科学能力带给每个团队。

Perplexity: Build dashboards and automations from your Snowflake data for pipeline analysis, product usage, customer segments, and m...

产品更新数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

44

Rule2DRC：基于执行引导测试生成的DRC脚本合成LLM智能体基准测试

为解决将自然语言设计规则转换为可执行DRC脚本过程中成本高、专业门槛高的问题，研究团队提出了Rule2DRC大规模基准测试集。该基准包含1,000个规则到脚本的映射任务及13,921个用于执行评分的芯片布局，并提供基于DRC执行结果的功能正确性评估流程，无需将评估布局作为智能体输入。同时，研究设计了SplitTester测试智能体，它利用执行反馈生成有区分性的测试用例，有效分离先前难以区分的候选脚本，显著提升了该领域中Best-of-N选择策略的性能，为相关研究与开发提供了重要工具。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

面向数据流的代理式大语言模型强化学习系统AstraFlow

为解决强化学习应用于代理式大语言模型时成本高、扩展难的问题，我们提出AstraFlow。该系统采用数据流导向的组件化架构，替代了传统以训练器为中心的控制模式，将服务、数据流与训练解耦为自治组件。这使系统能原生支持多策略协同训练，并高效利用弹性、异构的跨区域计算资源。在数学、编程、搜索等多类任务评估中，AstraFlow无需修改系统代码即可运行复杂工作负载。实验表明，在多策略协同训练下，它相比现有框架能达到相当或更好的任务准确率，并将训练速度提升2.7倍。

智能体数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

61

GRASP：基于多人非语言交互的社会推理学习

针对多模态大语言模型在多人视频中难以识别交互关系的问题，研究团队提出了GRASP数据集。该数据集包含29万个问答对，源自4.6万个视频共749小时，建立了涵盖注视、指示性手势及其组合推理的16类分类体系。同时发布配套评估基准GRASP-Bench，并提出社会情境奖励学习信号，利用这些细粒度事件引导模型推理交互参与者。实验表明，该方法提升了GRASP-Bench性能，并保持了在相关视频问答基准上的零样本能力。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

使用稀疏自编码器实现CLIP模型的鲁棒和可解释微调

针对CLIP在微调时易因分布偏移而鲁棒性下降的问题，本文提出SAE-FT方法。该方法仅作用于视觉表征，利用稀疏自编码器识别预训练模型中的语义特征，并在微调中约束这些特征的变化，从而在防止灾难性遗忘的同时提升可解释性。实验表明，SAE-FT计算高效且透明，在ImageNet及相关分布偏移基准上达到或超越现有最优性能，代码已公开。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

CM-EVS：用于完整场景覆盖的稀疏全景RGB-D-Pose数据

针对现有3D数据集存在的视图冗余与标注不一致等问题，本研究提出了COVER视角筛选方法。该方法无需训练，通过将多视角观测投影至等距柱状投影探针，以增量式覆盖评分与深度冲突惩罚，筛选出低冗余的稀疏视角。基于此方法，研究构建了CM-EVS数据集，包含来自1,275个室内场景的36,373帧精选全景帧，每帧提供全视角RGB、度量级深度及校准位姿。该数据集室内部分仅用中位25帧/场景即覆盖所有13种统一房间类型，实现了紧凑而完整的场景覆盖。实验表明，COVER方法优化了覆盖与冲突的权衡，使CM-EVS成为一个稀疏、紧凑、可审计的资源，适用于几何一致的全景3D学习。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

解锁视觉语言模型中的稠密度量深度估计

DepthVLM框架通过为大型语言模型主干附加轻量级深度头，并采用统一视觉-文本监督范式与两阶段训练策略，将单一视觉语言模型转化为原生稠密几何预测器。该模型能在单次前向传播中生成全分辨率深度图与语言输出，推理效率更高。实验表明，其性能显著超越现有视觉语言模型和领先的纯视觉模型，并提升了复杂三维空间推理能力。所有代码与模型检查点将公开。

多模态数据/训练论文/研究

1…23 242526 27…43