全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态论文 · 2867 条

全部一手资讯 X 论文

6月24日周三

18:30Hacker News 热门（buzzing.cc 中文翻译）80Qwen-AgentWorld：通用智能体的语言世界模型

15:37MarkTechPost（RSS）74精选DFlash：块扩散草稿模型实现最高15倍吞吐量提升

15:09HuggingFace Daily Papers（社区热门论文）55FLAT：前馈潜码三角形泼溅实现几何精确场景生成

11:55HuggingFace Daily Papers（社区热门论文）52DREAM：通过自回归建模实现密集检索嵌入

11:55HuggingFace Daily Papers（社区热门论文）54FlowR2A：多模态驾驶规划的奖励到动作分布学习

11:55HuggingFace Daily Papers（社区热门论文）49EDV：逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

11:47Rohan Paul46微软NextLat：预测隐藏状态让Transformer推理更强

10:49HuggingFace Daily Papers（社区热门论文）49DiffusionBench：扩散Transformer的整体评估基准

10:49HuggingFace Daily Papers（社区热门论文）52FLUX3D：扩散对齐稀疏表示的高保真3D高斯生成

10:49HuggingFace Daily Papers（社区热门论文）61OpenThoughts-Agent：开源数据流水线训练智能体模型

10:49HuggingFace Daily Papers（社区热门论文）76Qwen-AgentWorld：用于通用智能体的语言世界模型

10:49HuggingFace Daily Papers（社区热门论文）47世界价值模型（WVM）用于机器人操作

10:49HuggingFace Daily Papers（社区热门论文）51CF-World：一个用于测试T2I模型因果推理的反事实基准

10:49HuggingFace Daily Papers（社区热门论文）46基于多目标强化学习的大语言模型预训练全息数据调度器

10:49HuggingFace Daily Papers（社区热门论文）57ReMMD：面向多模态虚假信息检测的现实多语言多图像智能体验证框架

09:47Rohan Paul49热力学智能度量：将智能定义为使罕见有效未来更可能发生的能力

08:00HuggingFace Daily Papers（社区热门论文）37研究：读者认为AI文学翻译"还行"，但仍偏爱人工翻译

08:00HuggingFace Daily Papers（社区热门论文）49Play2Perfect：灵巧玩耍预训练对精确装配的关键因素

08:00HuggingFace Daily Papers（社区热门论文）47单一模型适配多种延迟：用于多样化实时应用的通用语音增强方案

08:00HuggingFace Daily Papers（社区热门论文）56TheoremGraph：连接非形式化与形式化数学的统一语句级依赖图

08:00HuggingFace Daily Papers（社区热门论文）44MIMFlow：掩码图像建模与归一化流融合的端到端图像生成框架

08:00HuggingFace Daily Papers（社区热门论文）40星系分词器指南：科学基础模型基准

08:00HuggingFace Daily Papers（社区热门论文）39Tatoxa 系统：面向低资源语言鞑靼语的文本去毒化

08:00HuggingFace Daily Papers（社区热门论文）48Physics Question Scene Graph：文本到视频生成物理合理性细粒度评估方法

08:00HuggingFace Daily Papers（社区热门论文）42COrigami：用于协同设计可折叠平面折纸的AI管道

08:00HuggingFace Daily Papers（社区热门论文）40Fast LeWorldModel

08:00HuggingFace Daily Papers（社区热门论文）56多步工具使用的强化学习为何崩溃以及监督信号如何修复它

08:00HuggingFace Daily Papers（社区热门论文）51验证地平线：编程智能体奖励无银弹

08:00HuggingFace Daily Papers（社区热门论文）64进展优势：后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号

07:07Hacker News 热门（buzzing.cc 中文翻译）48Lift4D：协调单视图3D估计与4D重建的真实场景框架

06:07Hacker News 热门（buzzing.cc 中文翻译）71精选AI招聘工具存在种族偏见和系统性排斥；黑人占比26%，亚裔占比15%

05:06HuggingFace Daily Papers（社区热门论文）49Lift4D：调和单视图三维估计以实现野外四维重建

03:06HuggingFace Daily Papers（社区热门论文）42ShotcreteDepth：用于喷射混凝土施工环境中鲁棒机器人深度感知的双模态数据集

02:50Apple Machine Learning Research（RSS）68精选九位评委，两个有效投票：相关错误削弱LLM评审面板

02:19AK40Lift4D：单视图3D估计实现4D重建

02:19AK43Ling and Ring 2.6 技术报告发布

02:03HuggingFace Daily Papers（社区热门论文）51提前承诺：LLM智能体过早固守证据的隐藏故障诊断

00:19IT之家（RSS）61研究揭示 AI 聊天机器人或成"妄想放大器"：个性化互动能让用户越聊越偏执

00:19AK32世界动作模型：一项综述论文

00:19AK35PlanBench-XL：评估LLM智能体长时域规划

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月24日

18:30

Hacker News 热门（buzzing.cc 中文翻译）

80

Qwen-AgentWorld：通用智能体的语言世界模型

研究团队推出Qwen-AgentWorld系列，是首批基于语言模型的“语言世界模型”，通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹，经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器，它支持可扩展的可控仿真以增强智能体强化学习；作为统一基础模型，世界模型训练可有效预热下游7个智能体基准的性能。

智能体 arXiv 数据/训练论文/研究

关联讨论 4 条X：通义千问 / Qwen (@Alibaba_Qwen)X：Berry Xia (@berryxia)公众号：通义实验室（千问）Qwen：Blog Retrieval（API）

15:37

MarkTechPost（RSS）

精选74

DFlash：块扩散草稿模型实现最高15倍吞吐量提升

DFlash 由 UC San Diego 团队提出，是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token，再由目标模型并行验证，保证输出无损。相比 EAGLE-3，DFlash 实现最高 2.5 倍加速，在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍（MATH-500 达 6.08×）。在 NVIDIA Blackwell 上（TensorRT-LLM），gpt-oss-120b 模型吞吐量提升最高 15 倍，约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影，使接受长度随草稿深度增长。

推理论文/研究部署/工程

推荐理由：DFlash把扩散模型引入推测解码草案阶段，一次并行生成整块token，单流加速最高6倍，NVIDIA实测吞吐量提升15倍，推理成本下降幅度很大，部署大模型的团队可以立刻关注。

15:09

HuggingFace Daily Papers（社区热门论文）

55

FLAT：前馈潜码三角形泼溅实现几何精确场景生成

FLAT 从单张图像直接解码视频扩散潜码中的三角形泼溅表面基元，首次实现前馈传递下从压缩潜码到显式三角形面片的映射。针对平面基元方向敏感、梯度流动困难问题，引入射线中心旋转参数化回归三角形，并设计乘积窗函数改进可微分三角形渲染的梯度流。标准基准上 FLAT 在保持视觉质量的同时取得显著更高的几何精度。轻量级测试时优化可将三角形网格转换为不透明、支持实时渲染的游戏引擎就绪表示。在相同训练设置下系统对比了 3DGS、2DGS 与三角形泼溅的表示权衡。

arXiv 图像生成论文/研究

11:55

HuggingFace Daily Papers（社区热门论文）

52

DREAM：通过自回归建模实现密集检索嵌入

DREAM是一种利用大语言模型（LLM）自回归下一token预测目标为密集检索嵌入模型提供监督训练的方法。它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头，使预测损失通过注意力机制为检索器提供梯度。在BEIR和RTEB检索基准上，使用0.5B至3B参数的嵌入骨干，DREAM均持续优于现有基线。

arXiv 检索增强数据/训练论文/研究

11:55

HuggingFace Daily Papers（社区热门论文）

54

FlowR2A：多模态驾驶规划的奖励到动作分布学习

FlowR2A通过flow-matching解码器学习奖励条件动作分布，将基于评分方法（密集奖励监督但固定动作词汇）与基于锚点方法（动态生成提案但稀疏监督）统一到单一生成模型中。模型从密集轨迹-奖励对中学习分布，引入细粒度每时间步奖励条件和奖励噪声增强，以平衡硬安全约束与软进度目标。测试时支持通过奖励引导和锚定采样实现可控生成。在NAVSIM v1和v2基准上达到最新最优结果，多模态提案质量显著高于此前方法。

具身智能多模态论文/研究

11:55

HuggingFace Daily Papers（社区热门论文）

49

EDV：逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

大语言模型智能体在开放世界交互中自我进化时，单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功，导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段：多异构智能体并行探索产生多样化轨迹；第三方智能体对比分析减少归纳偏差；执行组通过共识机制验证候选经验，仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上，EDV 持续超越强基线，验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。

智能体 Hugging Face 开源/仓库论文/研究

11:47

Rohan Paul@rohanpaul_ai

46

微软NextLat：预测隐藏状态让Transformer推理更强

微软新论文Next-Latent Prediction (NextLat) 提出一种自监督学习方法，在常规token预测基础上增加预测下一隐藏状态的任务，迫使Transformer学习紧凑的内部世界模型。该方法在地图式世界建模、数学推理、图规划、故事预测等任务上表现更优，生成速度通过自推测解码最高提升3.3x，且无需改变Transformer架构或减慢正常推理。

Jayden Teoh: Next-token prediction is myopic. What if transformers learn to predict their own next latent state? 🌠 We present Next-L...

Microsoft 推理数据/训练论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

49

DiffusionBench：扩散Transformer的整体评估基准

当前扩散Transformer（DiT）研究集中于ImageNet类别条件生成单一评估设置，方法排名与文生图（T2I）任务间无强相关。NanoGen框架统一了DiT训练与评估：在ImageNet上匹配SOTA基线，仅需修改12行配置即可训练T2I模型，两种任务训练计算量相当。基于NanoGen训练21个潜在扩散模型后，三个指标上ImageNet与T2I排名间的Pearson相关系数为-0.377至-0.580，表明仅靠ImageNet FID改进未必反映T2I真实进步。为此整合ImageNet与T2I结果形成DiffusionBench，作为替代单一ImageNet评估的DiT整体基准。

图像生成论文/研究评测/基准

10:49

HuggingFace Daily Papers（社区热门论文）

52

FLUX3D：扩散对齐稀疏表示的高保真3D高斯生成

FLUX3D提出图像到3D高斯泼溅（3DGS）生成框架，解决两个结构性瓶颈：表示瓶颈（判别式2D特征构建稀疏体素潜在表示抑制重构线索）与跨模态对应瓶颈（标准扩散Transformer难对齐密集2D与稀疏3D token）。引入扩散对齐结构化潜在（DA-SLAT）与仅解码器架构提升3DGS保真度，并设计含稀疏结构多模态扩散Transformer（SMDiT）和模态感知旋转位置编码（MARoPE）的稀疏结构感知扩散框架，实现几何无关对齐。实验表明FLUX3D在外观保真度上显著超越现有SOTA。

图像生成论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

61

OpenThoughts-Agent：开源数据流水线训练智能体模型

OpenThoughts-Agent（OT-Agent）项目提出一套完全开源的数据 curation 流水线，专门用于训练智能体模型。研究团队通过 100 余项对照消融实验，系统探索了任务来源与多样性的影响，并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后，模型在 7 项智能体基准测试中平均准确率为 44.8%，比现有最强的开源数据智能体模型 Nemotron-Terminal-32B（40.9%）高 3.9 个百分点。训练数据展现出强扩展性，同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。

智能体 Hugging Face 开源生态数据/训练

10:49

HuggingFace Daily Papers（社区热门论文）

76

Qwen-AgentWorld：用于通用智能体的语言世界模型

Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B是首批能通过长链式推理模拟7个领域智能体环境的语言世界模型。它们基于超过1000万条真实环境交互轨迹，经连续预训练（注入状态转移与专业语料）、监督微调（激活下一状态预测推理）和强化学习（混合规则与评分奖励提升仿真保真度）三阶段训练而成。配套基准AgentWorldBench利用5个前沿模型在9个已建立基准上的真实交互构建，实验表明Qwen-AgentWorld显著优于现有前沿模型。该模型既可充当解耦环境模拟器支持智能体强化学习，也可作为统一智能体基础模型，通过世界模型训练预热提升下游7个智能体基准的性能。

智能体开源生态论文/研究

关联讨论 4 条X：通义千问 / Qwen (@Alibaba_Qwen)X：Berry Xia (@berryxia)公众号：通义实验室（千问）Qwen：Blog Retrieval（API）

10:49

HuggingFace Daily Papers（社区热门论文）

47

世界价值模型（WVM）用于机器人操作

现有机器人价值模型基于缺乏时间建模能力的VLM骨干。世界模型擅长时间建模与未来规划，由此将世界模型与价值估计结合，构建了世界价值模型（WVM）。WVM在标准基准上取得SOTA的价值序相关（VOC）结果。为补充仅含专家数据的评测，新引入Suboptimal-Value-Bench（含800条次优轨迹及人工标注），WVM同样保持SOTA。在策略学习中，WVM在模拟和真实部署中提升了多种策略提取方法的操作性能。

具身智能数据/训练论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

51

CF-World：一个用于测试T2I模型因果推理的反事实基准

CF-World是一个反事实基准，用于测试文本到图像（T2I）模型在系统性违背现实世界先验规则下生成图像的能力。每个场景分三个递进层级：事实生成、显式反事实生成和隐式反事实生成。评估采用VLM-based评估器CF-Eval，引入两个指标：Prior Resistance Rate（PRR）衡量克服固有先验的能力，Reasoning Retention Rate（RRR）评估无显式视觉线索时的推理依赖生成。实验表明，所有模型在反事实场景中性能急剧下降，原因是T2I模型将世界知识与视觉外观编码为紧密耦合模式，过度依赖训练数据中的频繁视觉共现，在反事实任务中退回至熟悉常识先验。

arXiv 多模态推理论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

46

基于多目标强化学习的大语言模型预训练全息数据调度器

现有大语言模型预训练的在线数据混合方法仅从单一角度优化。新框架全息数据调度器（HDS）将数据调度建模为连续控制空间中的强化学习问题，采用Soft Actor-Critic算法。其核心是多目标综合奖励函数，整合数据驱动质量奖励、损失驱动域间影响奖励和模型驱动权重范数奖励。在The Pile基准上，HDS达到次优方法最终验证困惑度所需训练迭代减少44%，并在MMLU 0-shot任务上提升7.2%。

数据/训练论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

57

ReMMD：面向多模态虚假信息检测的现实多语言多图像智能体验证框架

提出ReMMD框架，包含基准ReMMDBench（500样本、2756张图片、5种单语及2种跨语言设置、多图像帖子、5类真实性标签与8类失真标签）及持久记忆验证器ReMMD-Agent。该Agent将帖子分解为原子点，构建可重用证据集，输出结构化L1/L2/L3预测。在闭源系统、开源LVLMs、MMD-Agent和T2-Agent对比中，ReMMD-Agent搭配GPT-5.2取得最佳五类真实性性能，准确率41.80%，macro-F1 39.12%，成本较MMD-Agent降低17.5%，较T2-Agent降低79.9%。项目已在HuggingFace开源。

智能体多模态论文/研究

09:47

Rohan Paul@rohanpaul_ai

49

热力学智能度量：将智能定义为使罕见有效未来更可能发生的能力

该论文提出“热力学智能”概念，将智能定义为通过信息与控制显著提高罕见有效结果概率的能力。现有评测仅关注任务成功率，而论文指出大脑、大语言模型、控制器等智能体的共同点：系统将自身纳入世界模型，并基于模型选择行动以改变未来概率。有效未来需满足在被动行为下罕见且仍有效。作者提出“罕见有效提升”度量，衡量系统比被动基线更频繁产生此类未来的倍数。高提升取决于系统能否准确识别罕见有效未来。核心论点：智能是物理层面的概率转移过程，而非测试分数或类人行为标签。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

37

研究：读者认为AI文学翻译"还行"，但仍偏爱人工翻译

一项研究对比了基于智能体大语言模型的机器翻译（MT）与人工翻译（HT）在文学作品中的读者体验。15名读者评估了15部近期从法语、波兰语和日语译成英语的小说节选（每部约8000词）。在沉浸式阅读（30次比较）和精读（772次片段对比）中，读者认为MT“还行”，但更偏好HT（节选19/30偏好HT，片段522/772），因其更易读、清晰且沉浸。MT质量波动更大。读者无法可靠区分两者（17/30猜对），且倾向于相信是人工翻译的版本。自动评测指标（包括LLM作为评判者）无法复现读者偏好。研究发布了LAIT数据集（含1000条读者评论、2000条偏好评分、7200条片段级标注）。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

49

Play2Perfect：灵巧玩耍预训练对精确装配的关键因素

Play2Perfect 提出一种基于强化学习的任务无关预训练框架，让多指机器人在多样化对象和目标上通过“玩耍”习得可复用的操作先验（如抓取、手中重定向、姿态到达），再微调用于精确装配任务。系统研究表明，对象多样性、训练目标、轨迹多样性和目标精度是关键设计因素。该先验使样本效率比从零强化学习提升 33 倍。零样本 sim-to-real 迁移实现了 0.5 mm 间隙紧配插入 60% 成功率，以及长时序多部件装配和拧螺丝超过 50% 成功率。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

单一模型适配多种延迟：用于多样化实时应用的通用语音增强方案

针对不同实时语音应用需单独训练增强模型的痛点，本文提出一种通用实时语音增强模型，可同时控制算法延迟与计算延迟。算法延迟通过可配置的前瞻帧灵活调整，并引入并行卷积层应对不同填充配置带来的学习低效；计算延迟由早期退出机制控制，支持在不同网络深度推理。两阶段训练策略（共享到多解码器过渡）缩小了通用模型与专用模型的性能差距。该框架使单个模型可在多种延迟预算下部署，无需重新训练。

论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

56

TheoremGraph：连接非形式化与形式化数学的统一语句级依赖图

TheoremGraph 是覆盖非形式化与形式化数学的语句级依赖图。非形式化侧从 arXiv 解析 1170 万定理环境，提取 1830 万条有向依赖；形式化侧 LeanGraph 从 25 个 Lean 项目提取 388,105 声明节点和 1130 万类型化边。通过嵌入自然语言 slogan 将两类图映射到同一语义空间，LLM judge 在余弦阈值 ≥0.8 时确认 47,952 个匹配，阈值 ≥0.9 时接受率升至 87%。形式化概念检索中，name-and-signature 加图扩展的 Recall@10 达 0.775，接近 LeanSearch v2 的 0.780（无需 LM 重排序）。相关数据集、提取器、HTTP API 及 MCP 接口已开源。

搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

MIMFlow：掩码图像建模与归一化流融合的端到端图像生成框架

MIMFlow是一个统一端到端框架，联合优化潜语义、像素重建和生成流。它采用VAE编码器从掩码图像推断语义潜变量，使归一化流专注于建模简化的低频频谱流形，专用解码器处理高频合成，从而解决归一化流的容量瓶颈。在ImageNet 256×256上，MIMFlow-L达到71.3%线性探测准确率和FID 2.50。仅使用128 token（比标准模型少50%），性能较相似规模NF基线提升32.8%。代码已开源。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

40

星系分词器指南：科学基础模型基准

在统一Transformer框架下，比较Affine、AIM、JetFormer和VQ-VAE四种tokenization策略对天文成像的影响。使用DESI Legacy Survey中640,000张星系图像和共享AstroPT骨干，评估重建保真度与物理属性预测。结果显示：基于流的JetFormer重建质量更高，VQ-VAE对星系物理属性的探针性能更强，Affine与AIM更好保留局部形态信息。重建质量与表示质量相互解耦，没有单一方法在所有任务上一致最优。研究以独立测量的物理量为基准，凸显科学数据构建可解释基础模型基准的潜力。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

Tatoxa 系统：面向低资源语言鞑靼语的文本去毒化

Tatoxa 是一个针对鞑靼语（Tatar）文本去毒化的最新系统，能够自动检测并缓解攻击性和有害内容。对比实验表明，该方案在关键质量指标上超越了现有开源和闭源商用大语言模型。研究同时引入了一个专为低资源场景下微调和评估设计的鞑靼语文本去毒化数据集。跨语言迁移实验显示，即使使用大规模俄语语料，从其他语言（包括文化相近的俄语）迁移的效果也显著差于在本地鞑靼语数据上训练。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Physics Question Scene Graph：文本到视频生成物理合理性细粒度评估方法

论文提出 Physics Question Scene Graph (PQSG)，一种层级问题图评估方法，利用 VLM 生成带逻辑依赖的问题图，从对象、动作和物理定律三个维度细粒度检查生成视频。为验证方法，构建了 FinePhyEval 数据集，包含来自 Sora 2、Veo 3 和 Wan 2.1 的生成视频及人工标注。PQSG 的细粒度评分与人类判断相关性优于以往方法，且闭源模型物理真实性排名高于 Wan 2.1。此外，FinePhyEval 标注可用于子任务评估：两个强 VLM 能生成类人问题，但回答准确率仍不及人类。

视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

42

COrigami：用于协同设计可折叠平面折纸的AI管道

COrigami是一个端到端AI驱动管道，从自然语言生成可折叠平面折纸的折痕图案。管道流程包括生成语义火柴人、计算基础填充、求解可折叠折痕图案、塑造平面折叠图案，并通过强化学习与自主审美评估循环对生成模型进行优化。该系统作为高效协作助手，为人类艺术家提供结构起点，展示了AI如何在满足多目标物理约束（如平面可折叠性方程）的前提下实现可靠的、基于数学的协同创造力。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

40

Fast LeWorldModel

Fast-LeWM是一种快速潜空间世界模型，基于JEPA和LeWM。它用动作前缀预测替代LeWM逐次单步潜状态展开：将候选动作序列的前缀编码后并行预测对应未来潜状态。前缀级监督使模型学习不同前缀下状态的连续演化，规划时可直接利用最后一个前缀token评估未来潜状态，无需逐一遍历中间想象状态。在多个任务上，Fast-LeWM相比LeWM提高了平均成功率，大幅缩短了规划时间，并实现了随展开步长增长显著变慢的开环潜损失。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

多步工具使用的强化学习为何崩溃以及监督信号如何修复它

大语言模型在多步工具使用的强化学习（RL）训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现，崩溃源于特定控制 token 的概率尖峰，但底层工具使用能力并未丢失，仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，发现将监督微调（SFT）与 RL 交错训练可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。代码已开源。

智能体 GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

验证地平线：编程智能体奖励无银弹

随着基础模型推理能力与工程框架增强，生成长代码方案已不困难，可靠验证反成瓶颈。验证器仅为人类意图的代理，意图天然欠指定，优化会拉大代理与意图差距（奖励破解或信号饱和）。论文沿可扩展性、忠实性、鲁棒性三维度刻画验证信号质量，研究测试验证器、评分标准验证器、用户验证器及自动化智能体验证器四种构造。实验表明针对性设计能抑制奖励破解、提升任务质量。核心结论：无固定奖励函数能随策略能力增长保持有效，验证必须与生成协同进化。

智能体 arXiv 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

进展优势：后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号

研究表明，强化学习后训练本身即可提供有效的步骤级评分信号，无需单独训练奖励模型。研究者在随机马尔可夫决策过程中推导出隐式优势函数——进展优势，即RL训练后策略与参考策略的对数概率比恰好还原最优优势函数。该信号无需人工标注、领域无关，且是标准RL后训练管线的副产品。在五个基准和四个模型族上，进展优势在测试时缩放、不确定性量化和失败归因三项应用中持续优于基于置信度的基线，甚至超越专门训练的奖励模型。

智能体数据/训练论文/研究

07:07

Hacker News 热门（buzzing.cc 中文翻译）

48

Lift4D：协调单视图3D估计与4D重建的真实场景框架

Lift4D是一个测试时优化框架，从单目视频重建动态物体的完整几何、外观和变形，包括相机从未观察到的区域。它通过因果潜在条件化使单视图3D重建模型（图像到3D DiT）生成时间一致的逐帧预测，作为可变形3D高斯泼溅表示的初始化；随后结合遮挡感知优化与视图条件扩散先验，恢复可见表面细节并补全被遮挡及未观测部分。在合成和真实场景中，Lift4D在严重遮挡与非刚性运动下显著优于先前4D重建方法。

图像生成视频论文/研究

06:07

Hacker News 热门（buzzing.cc 中文翻译）

精选71

AI招聘工具存在种族偏见和系统性排斥；黑人占比26%，亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现，AI招聘筛选工具存在显著的种族歧视：26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥；若AI按推荐率最高群体（通常为白人）标准执行，将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法，形成“算法单一文化”，导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据（8.3万份申请、108家财富500强企业），未发现此类模式。研究呼吁对算法招聘进行独立监管。

安全/对齐现象/趋势论文/研究

推荐理由：大规模实地研究揭示AI招聘存在显著种族偏见与系统性排斥，算法单一文化让同一批人被所有雇主拒绝，这是AI公平性领域近年最扎实的实证，做招聘产品的人和政策制定者都应该仔细读。

05:06

HuggingFace Daily Papers（社区热门论文）

49

Lift4D：调和单视图三维估计以实现野外四维重建

Lift4D 是一种测试时优化框架，用于从单目视频重建动态非刚性物体。它首先通过因果潜在条件适配单视图3D重建模型，生成时间一致的逐帧预测，作为可变形3D高斯溅射表示的初始化；随后通过遮挡感知优化与视图条件扩散先验，在恢复可见表面细节的同时补全未观测区域。在包含严重遮挡和非刚性运动的野外序列上，Lift4D 明显优于此前方法。

arXiv 多模态论文/研究

03:06

HuggingFace Daily Papers（社区热门论文）

42

ShotcreteDepth：用于喷射混凝土施工环境中鲁棒机器人深度感知的双模态数据集

ShotcreteDepth是一个来自建筑领域的双模态数据集，包含立体RGB图像与LiDAR点云，采集于主动喷射混凝土施工过程及一般建筑环境。数据在真实恶劣条件（高浊度、低光照）下获取，导致传感器观测不完整且含噪。该数据集由11,252个时间同步样本组成，其中220个带有标注用于评估。同时发布一套轻量级LiDAR点云标注工具。数据集支持在贴近工业操作复杂度的场景中进行立体匹配、深度补全与深度估计研究。

arXiv 具身智能数据/训练论文/研究

02:50

Apple Machine Learning Research（RSS）

精选68

九位评委，两个有效投票：相关错误削弱LLM评审面板

苹果机器学习研究团队发现，LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明，9位评委实际仅提供约2个独立投票的信息量，面板准确率比独立投票理想值低8–22个百分点，最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微，即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证，瓶颈在于评委间的相关性而非聚合算法。

论文/研究评测/基准

推荐理由：这篇Apple论文揭示了一个反直觉的事实：在LLM评估面板中，9个法官实际上只提供约2个独立票的信息，因为模型会犯相似错误。这解释了为何简单聚合面板往往不如最佳单模型，做评估的团队必须重视法官相关性。

02:19

AK@_akhaliq

40

Lift4D 协调单视图3D估计用于野外4D重建

02:19

AK@_akhaliq

43

Ling and Ring 2.6 Technical Report 高效且即时的万亿参数量级智能体智能

智能体论文/研究

02:03

HuggingFace Daily Papers（社区热门论文）

51

提前承诺：LLM智能体过早固守证据的隐藏故障诊断

长周期LLM智能体会出现“过早承诺”故障——早期选定证据解读并固守，最终答案评分无法捕捉。研究用跨运行隐藏状态收敛性作为承诺指标。在Llama-3.1-70B运行ReAct于HotpotQA上，第4步隐藏状态相似性预测下游行为一致性（r=-0.35，偏相关-0.45）。信号在Qwen-2.5-72B、Phi-3-14B及StrategyQA（r=-0.83）复现。承诺不追踪正确性。运行时监测器检测不一致轨迹，AUROC最高0.97（严格拆分0.85-0.88）；提示词干预将行为方差降低28%且准确率无显著变化。结果提供了一个隐藏过程故障诊断工具，并明确了局限性。

智能体论文/研究

00:19

IT之家（RSS）

61

研究揭示 AI 聊天机器人或成"妄想放大器"：个性化互动能让用户越聊越偏执

伦敦国王学院和德国新教应用科学大学的精神科医生在《自然》发表论文，提出“放大螺旋”框架，解释AI聊天机器人如何助推用户妄想持续发展。研究指出，聊天机器人的语言对齐（模仿用户表达方式）、超个性化内容生成和迎合倾向三项特征相互作用，可能形成回音室，不断确认和放大用户的错误信念。论文强调该假设仍有待验证，但已有用户报告陷入有害的妄想螺旋。研究人员建议医疗人员将聊天机器人使用情况纳入常规筛查。

安全/对齐论文/研究

00:19

AK@_akhaliq

32

世界动作模型：一项综述

智能体论文/研究

00:19

AK@_akhaliq

35

PlanBench-XL 评估LLM工具使用智能体在大型工具生态系统中的长时域规划能力

智能体论文/研究评测/基准

1…6 789 10…50