全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态论文 · 2872 条

全部一手资讯 X 论文

6月23日周二

00:08Google Developers Blog（RSS）61精选Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

6月22日周一

23:41AK32PerceptionDLM：平行区域感知多模态扩散语言模型

22:37elvis53多智能体通信协议五维分类法报告发布

22:09Nathan Lambert67TMax发布：开源终端智能体RL配方与数据

13:07Rohan Paul50《LLM智能体能推断世界模型吗？来自智能体自动机学习的证据》

12:07Rohan Paul65皮尤研究中心发布"Americans and AI 2026"报告

08:00HuggingFace Daily Papers（社区热门论文）54程序性记忆管理：LLM智能体的控制、适应与评估

08:00HuggingFace Daily Papers（社区热门论文）43HeRA：面向多模态大语言模型的逐头表示对齐方法

08:00HuggingFace Daily Papers（社区热门论文）44RaysUp：基于几何感知射线表示的超轻量通用特征上采样框架

08:00HuggingFace Daily Papers（社区热门论文）52ReasoningLens：大型推理模型层级可视化与诊断审计框架

08:00HuggingFace Daily Papers（社区热门论文）35SingGuard：政策自适应多模态LLM护栏模型系列

08:00HuggingFace Daily Papers（社区热门论文）50GUI vs. CLI：屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

08:00HuggingFace Daily Papers（社区热门论文）43ABACUS：适配统一基础模型以桥接图像计数理解与生成

08:00HuggingFace Daily Papers（社区热门论文）65计划不持久：为何上下文管理对LLM智能体至关重要

08:00HuggingFace Daily Papers（社区热门论文）49ReNIO：为大语言模型同策略蒸馏重加权负轨迹重要性

08:00HuggingFace Daily Papers（社区热门论文）60VeriEvol：通过可验证进化指令扩展多模态数学推理

08:00HuggingFace Daily Papers（社区热门论文）36AI智能体模型批判--从笛卡尔思想到GIC通用架构

08:00HuggingFace Daily Papers（社区热门论文）42语义浏览：图像生成的可控多样性

08:00HuggingFace Daily Papers（社区热门论文）36ChartWalker：面向跨图表RAG任务的基准框架

08:00HuggingFace Daily Papers（社区热门论文）48AOHP：面向个性化、高效与安全交互的开源操作系统级智能体框架

08:00HuggingFace Daily Papers（社区热门论文）48FedOT：面向联邦LDMs的所有权验证与泄漏追踪水印方法

01:34elvis47《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法

6月21日周日

08:00HuggingFace Daily Papers（社区热门论文）55交错式语音语言模型在文本中隐式工作

08:00HuggingFace Daily Papers（社区热门论文）61Look Light， Think Heavy：多模态Chain-of-Thought推理能做什么、不能做什么

08:00HuggingFace Daily Papers（社区热门论文）37Libretto：赋予LLM智能体音乐结构感知

08:00HuggingFace Daily Papers（社区热门论文）47PolicyTrim：提升VLA模型内在策略效率

08:00HuggingFace Daily Papers（社区热门论文）52PlanBench-XL：评估大规模工具生态中LLM智能体的长时域规划

04:08HuggingFace Daily Papers（社区热门论文）51Lexical Consensus：人工智能体基于具身经验的词汇习得与共享意义

6月20日周六

23:28AK44S-Agent 空间工具使用推理

16:59IT之家（RSS）49中国科学家提出BabelTele"AI语言"：压缩至27.9%仍保留99.5%语义，人类难懂但LLM能懂

09:59IT之家（RSS）4超级珊瑚礁被发现：水温高出2°C仍生机盎然

09:25Rohan Paul47微软与约克大学论文：若LLM拥有人类属性，则《帝国时代II》亦然

08:00HuggingFace Daily Papers（社区热门论文）52OpenBioRQ：未解决生物医学研究问题的智能体基准测试

08:00HuggingFace Daily Papers（社区热门论文）45EBench：通用移动操控策略的细粒度诊断基准

08:00HuggingFace Daily Papers（社区热门论文）74精选可验证搜索不是可学习的链式思维

08:00HuggingFace Daily Papers（社区热门论文）57BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

08:00HuggingFace Daily Papers（社区热门论文）54更深并非总是更好：通过Confident Decoding缓解对齐税

03:02HuggingFace Daily Papers（社区热门论文）43LedgerAgent：面向策略合规工具调用智能体的结构化状态管理方法

6月19日周五

23:22elvis51自动化SKILL.md生成：三阶段流水线论文

23:02HuggingFace Daily Papers（社区热门论文）67FID彩票：量化生成式模型评估中的隐藏随机性

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月23日

00:08

Google Developers Blog（RSS）

精选61

Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性，而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug（1178 个 CL），通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示：Jules 在单轮探索下洞察相关性评分平均 4.5/5；探索预算从两轮增至三轮时，Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据，并探索纳入问题追踪器、对话等更丰富的上下文。

智能体 Google 编码论文/研究

推荐理由：AI 编码代理的评估从任务修复转向目标洞察，Google 这个思路让评估更接近真实开发场景，但实验还是内部数据，等公开 GitHub 版本再看落地效果。

6月22日

23:41

AK@_akhaliq

32

PerceptionDLM 平行区域感知与多模态扩散语言模型

多模态论文/研究

22:37

elvis@omarsar0

53

多智能体通信协议五维分类法报告发布

该报告针对LLM多智能体系统的通信瓶颈，构建了五维分类法（对方、有效载荷、交互状态、发现机制、模式灵活性），系统梳理了9个积极维护的开源智能体协议，覆盖MCP和A2A的实际格局。报告发现两个突出模式：每个智能体间协议都采用混合有效载荷与会话状态持久化组合，而去中心化发现机制仍极为罕见。领域正悄然标准化有状态会话，但发现与策略执行层仍留白。该报告为今年选择通信层时提供了九大协议的真实对比参考。

智能体 arXiv MCP/工具论文/研究

22:09

Nathan Lambert@natolambert

67

TMax发布：开源终端智能体RL配方与数据

TMax 是面向终端任务的开源 RL 配方，基于 Qwen 3.5 较小密集模型，在默认设置和 65k token 预算下超越此前开源工作。训练需 8 节点 H100（2 训练+6 推理）运行 2-3 天，配方经约 100 次训练才稳定。发布模型权重、数据及训练 rollouts。配方工作强调从零获得初始基线成本高昂（1 万至百万美元），需要明确决策阶梯和稳定性改进。

Hamish Ivison: Trained some terminal agents with friends! Introducing Tmax, open RL terminal agent models. Under default settings and s...

智能体开源生态论文/研究

13:07

Rohan Paul@rohanpaul_ai

50

《LLM智能体能推断世界模型吗？来自智能体自动机学习的证据》

Rohan Paul引用新论文指出，尽管LLM智能体有时能通过交互发现隐藏结构，但其推断世界模型的能力存在根本局限：随着隐藏世界复杂度增加，AI智能体的表现迅速落后，难以将积累的反馈转化为稳定的内部模型，尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是，在复杂环境中，LLM智能体建立可靠心智模型的速度跟不上难度增长。

智能体 arXiv 推理论文/研究

12:07

Rohan Paul@rohanpaul_ai

65

皮尤研究中心发布"Americans and AI 2026"报告

皮尤研究中心最新报告显示，仅16%美国成年人预期AI在未来20年帮助社会，40%预期伤害。24%每天使用聊天机器人，51%从未使用。聊天机器人首要用途是搜索信息（42%），38%上班族用于工作，10%用于情感支持，4%用于陪伴。ChatGPT使用率最高（44%），其次Gemini（24%）、Copilot（17%）、Meta AI（14%）、Grok（8%）、Claude（6%）、Character.ai（3%）。30%称聊天机器人提升生产力，28%认为帮助了解信息。60%成年人阅读AI搜索摘要，表明AI正影响信息摄入。

搜索现象/趋势行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

54

程序性记忆管理：LLM智能体的控制、适应与评估

程序性记忆可帮助LLM智能体在重复工作中产生可复用技能，但其迁移能力尚不明确。AFTER基准包含382个真实企业任务，覆盖6种职业角色和22个程序性技能，评估跨任务、跨角色、跨模型的技能迁移。实验表明，单轮优化使整体性能提升3.7–6.7个百分点；基于多模型执行轨迹演化的技能在跨模型测试中达到73.1%准确率，优于所有单模型轨迹。部分技能可广泛泛化，另一些则专化于特定角色流程，迁移后效果下降。这些结果为生产级智能体平台构建和部署程序性记忆系统提供了实践指导。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

HeRA：面向多模态大语言模型的逐头表示对齐方法

HeRA在单个注意力头级别执行跨模态对齐，基于柏拉图表示假说，利用互K近邻（MKNN）度量定义对比损失，作为匹配局部拓扑结构的可微代理。训练时选择MKNN对齐分数最低的注意力头进行对齐，发现对齐最差的头反而带来最大收益。在多个MLLM和18项基准上的评估表明，HeRA一致提升视觉密集任务性能，并通过自然抑制对语言先验的过度依赖，有效缓解视觉幻觉。代码已开源。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

RaysUp：基于几何感知射线表示的超轻量通用特征上采样框架

RaysUp是一个超轻量、任务无关且与视觉基础模型无关的特征上采样框架，通过将重建提升至几何感知光线域，在任意分辨率下重建高分辨率特征图。核心组件包括空间解耦引导编码器、任意分辨率交叉注意力机制、基于6D Plücker射线坐标的RayPE（射线位置编码）和几何感知邻域注意力模块。在多种密集预测任务中取得SOTA性能，参数量仅为AnyUp的16%，推理速度提升约7倍。代码已开源。

开源生态论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

52

ReasoningLens：大型推理模型层级可视化与诊断审计框架

ReasoningLens是一个开源框架，用于对大型推理模型的超长思维链进行层级可视化与诊断审计。它通过三方面解决信息埋没问题：将推理轨迹组织成交互式层级，分离高级策略与低级执行；利用智能体审计器自动检测错误并进行工具增强验证；综合系统推理画像以揭示模型特定盲点。该框架将无结构文本转化为可操作的洞察，为解释、调试和优化推理AI提供基础。

开源生态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

35

SingGuard：政策自适应多模态LLM护栏模型系列

SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列，可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式，并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准，含56,340个样本，覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族（35个数据集）上均取得平均F1 SOTA；动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。

arXiv GitHub 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

50

GUI vs. CLI：屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

该研究引入一项匹配执行层基准测试（440个桌面任务、18个应用、12个工作流类别），对屏幕仅限的GUI智能体与技能中介的CLI智能体进行控制对比，两者接受相同目标、状态和最终状态验证器，但仅限使用模态原生操作。最强GUI智能体全通过率59.1%，高于最强原始技能CLI智能体的48.2%；经验证器引导的技能增强后，CLI成功率升至69.3%，表明CLI缺陷主要来自技能覆盖不完整。结果揭示两类智能体不同的执行瓶颈：GUI受限于长时程工作流中的可靠接地交互，CLI受限于技能接口的覆盖率和可扩展性。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

43

ABACUS：适配统一基础模型以桥接图像计数理解与生成

ABACUS是一个统一的视觉语言模型，无需基准特定训练即可处理对象计数、人群计数、指代表达式计数和计数忠实的图像生成。它基于3B参数基础模型，通过三项创新适配目标定位：基于目标图的密度感知自适应缩放实现空间定位；GRPO边界感知计数策略消除裁剪边界错误；循环一致GRPO策略让理解分支自我批判生成输出，无需外部标注缩小理解-生成差距。在七个基准上取得SOTA，超越任务专用专家和更大通用模型。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

计划不持久：为何上下文管理对LLM智能体至关重要

研究揭示标准LLM智能体依赖上下文窗口保持计划信息，而非将其内化为持久状态。在Llama-3.1-70B上，计划信号写入一步后从0.453骤降4.1倍，HotpotQA下降12.4倍。推理模型（DeepSeek-R1-Distill-Llama-70B）的思维链痕迹会重新推导计划，严格剥离后恢复样本内+163%、样本外+153%信号，非推理模型仅+4.8%。基于Llama训练的分类器迁移到R1上AUROC为0.748，R1专用分类器达1.000。压力测试中，丢弃计划导致ALFWorld成功率下降34.7个百分点。该框架证明关键信息仅驻留于上下文而非持久存在。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

ReNIO：为大语言模型同策略蒸馏重加权负轨迹重要性

同策略蒸馏平等对待所有学生生成输出。实验发现，仅用错误输出训练效果优于仅用正确输出，因错误输出保留模型能力边界附近的探索性推理。为此，ReNIO利用学生-教师概率比识别导致错误推理轨迹的关键token，聚合为归一化样本权重，无需观测最终答案正确性即可自动赋予负轨迹更高权重。在数学推理和代码生成任务上，ReNIO同时提升同策略蒸馏和同策略自蒸馏，对Qwen3-1.7B最高提升8.90%，对R1-Distill-Qwen-7B最高提升10.00%。代码已开源。

GitHub 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

VeriEvol：通过可验证进化指令扩展多模态数学推理

VeriEvol 是一个迭代框架，将多模态数学推理的奖励可靠性问题转化为可验证的数据构造问题。其类型感知进化模块将低难度图像-问题种子改写为更难的图像化提示；HTV-Agent 验证器在多项反证失败后才接受答案。在五个视觉数学基准上，将进化 SFT 数据从 10K 扩展至 250K 样本，平均准确率从 35.42 升至 54.73；固定 backbone、SFT 初始化和 GRPO 配方后，VeriEvol 相比未进化 RL 基线累积提升 +3.88，其中进化提示贡献 +1.82，验证器贡献 +2.06。项目开源全部提示、数据、模型、代码及验证轨迹。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

36

AI智能体模型批判--从笛卡尔思想到GIC通用架构

论文基于笛卡尔独立思想奠基与科幻自主存在体描绘，从目标、身份、决策、自我调节与学习五维度剖析当前AI智能体架构。区分能力来自外部工程组装的agentic系统与能力（含社交互动）内生的agentive系统。提出Goal-Identity-Configurator（GIC）通用架构，融合分层目标分解、身份演化、基于世界模型的模拟推理、习得性自我调节与自我导向学习，并讨论agentive系统在人类监督下的可审计性、可控性与安全性。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

语义浏览：图像生成的可控多样性

现有文本到图像模型虽保真度高，但生成样本单一。现有多样性方法往往产生偶然变化而非有意义的设计选择。本文提出可控多样性方法“语义浏览”，让用户沿可解释变化轴系统遍历结构化图像画廊。核心思路是将语义决策与像素生成分离，直接在文本层面诱导多样性：利用视觉语言模型（VLM）操作完整场景上下文，并通过智能体工作流强制执行与原始提示一致的结构化变化。该方法生成多样且可导航的设计空间，每种变化对应一个可理解的语义决策。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

36

ChartWalker：面向跨图表RAG任务的基准框架

ChartWalker是一个面向跨图表检索增强生成（RAG）任务的新框架。它采用层次知识图谱构建方法，按粒度组织实体与关系，并设计结构感知采样算法生成语义一致的多跳推理路径，显式控制查询难度与粒度，以解决现有基准中查询与证据词汇重合度高、推理链逻辑不一致的问题。基于该框架发布ChartWalker-Bench基准，覆盖多领域与多类型跨图表查询。主流RAG范式评估显示显著性能差距，同时提供ChartWalker-Agent基线辅助分析。

检索增强多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

AOHP：面向个性化、高效与安全交互的开源操作系统级智能体框架

AOHP（Android Open Harness Project）基于Android开源项目（AOSP）构建，将AI智能体视为操作系统的一等角色，提供自适应UI和智能体友好运行时环境，同时保留安卓软硬件生态。系统引入三种智能体导向机制：个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中，AOHP的任务完成率提升21.12%，token成本降低51.55%，并满足安全策略合规要求。

智能体开源/仓库论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

48

FedOT：面向联邦LDMs的所有权验证与泄漏追踪水印方法

联邦学习（FL）中的潜扩散模型（LDM）面临恶意客户端未经授权分发或转售全局模型的风险。现有基于VAE的水印方法无法追踪具体违规客户端，且可通过替换解码器轻易移除。为此提出FedOT框架，设计分块水印：第一部分用于所有权验证，第二部分用于客户端身份识别；同时引入潜向量变换（LVT），修改VAE原始潜分布以强化VAE与U-Net潜空间连接，使任何替换VAE去除水印的尝试都会导致图像质量严重下降，令模型不可用。实验表明FedOT在所有权验证和可追溯性上均取得优异性能。

安全/对齐数据/训练论文/研究

01:34

elvis@omarsar0

47

《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法

论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法：将人类判断前置到可复用评估资产中，专家在上游策划评估智慧，而非在测试循环中逐一审查输出。现有方法各有局限：Benchmark测量固定能力，人工审核不具可扩展性，LLM-as-Judge存在评估器设计问题，红队测试偶发，trace审计需明确证据规则。AI智能体需作为行为系统评估，因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。

智能体 arXiv 论文/研究评测/基准

6月21日

08:00

HuggingFace Daily Papers（社区热门论文）

55

交错式语音语言模型在文本中隐式工作

通过logit lens分析不同家族和规模的交错式语音语言模型，发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列，随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练，交错数据和文本LM初始化是诱发该机制的关键因素。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

61

Look Light， Think Heavy：多模态Chain-of-Thought推理能做什么、不能做什么

系统评估12个多模态任务（14个非推理模型、8个推理模型），发现：①CoT并非免费午餐——在视觉定位、物体计数等感知任务中反而降低性能，在数学、科学、多图像推理中有效；②现有开源多模态推理模型相比原始模型整体提升有限，可能因过度侧重数学推理而牺牲其他能力；③视觉推理是瓶颈，模型呈现“Look Light, Think Heavy”模式——语言反思起伏，视觉反思持续减弱，缺乏全程深度视觉内省。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

37

Libretto：赋予LLM智能体音乐结构感知

Libretto是一个面向LLM智能体的符号音乐生成与修订框架，采用包含显式onset槽、声部和小节组织的LLM原生语法，并在节奏、和声、旋律、织体、形式与变奏的语料校准统计空间中评估每首作品。同一结构轴支持检索、诊断、复制风险控制及迭代自修订。在填空生成、参考引导整曲生成、渐变变形与教育音乐生成等任务中，Libretto将符号音乐从原始token序列转化为语言模型智能体可测量、可编辑的对象。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

PolicyTrim：提升VLA模型内在策略效率

VLA模型部署受执行效率制约，现有工作多聚焦单步推理延迟，未充分探索内在策略效率。PolicyTrim提出基于强化学习的后训练框架，通过动态探索策略奖励更长可执行动作块长度，并设计冗余感知奖励减少冗余物理步。在三个基准与三个VLA模型上，动作块利用率提升3倍，物理执行步减少51.4%，端到端部署速度提升5.83倍，任务成功率未受影响。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

PlanBench-XL：评估大规模工具生态中LLM智能体的长时域规划

PlanBench-XL是一个交互式基准测试，包含327个零售任务和1,665个工具，用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性，迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示，GPT-5.4在无阻塞条件下准确率为51.90%，最严重阻塞下骤降至11.36%。分析表明，当故障缺乏明确错误信号或恢复需要更长替代工具路径时，智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。

智能体 MCP/工具推理论文/研究

04:08

HuggingFace Daily Papers（社区热门论文）

51

Lexical Consensus：人工智能体基于具身经验的词汇习得与共享意义

Lexical Consensus 是一个研究AI智能体通过具身经验习得、稳定并运用词汇意义的框架。使用冻结DINOv2视觉嵌入、Carroll式假词和可解释词汇学习器，实验发现感知连贯性梯度主导学习效果：原生类别最易习得，远析取概念接近随机。CIFAR-100解离实验证实，感知距离显著预测习得准确率（partial R²=0.245, p<1e-7），语义距离无显著解释力。双向评估显示，样例机制在标签到图像检索中优于质心原型，命名与检索是分离的能力。控制实验表明，冻结的感知几何同时支撑了词汇基础并限制了无需表征适应即可习得的范围。

arXiv 多模态论文/研究

6月20日

23:28

AK@_akhaliq

44

S-Agent 空间工具使用催生空间智能的推理

智能体具身智能论文/研究

16:59

IT之家（RSS）

49

中国科学家提出BabelTele"AI语言"：压缩至27.9%仍保留99.5%语义，人类难懂但LLM能懂

上海交通大学等六所高校于6月18日在arXiv发布研究，提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情，生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”，可将文本压缩至27.9%，语义准确率保持99.5%。在QuALITY问答中，人类阅读压缩文本后准确率下降，而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2，支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token，任务完成度超96%。

智能体推理论文/研究

09:59

IT之家（RSS）

4

超级珊瑚礁被发现：水温高出2°C仍生机盎然

全球海洋热浪致超80%珊瑚白化背景下，伍兹霍尔海洋研究所团队在马绍尔群岛马朱罗环礁发现一片生机勃勃的珊瑚礁，命名为“超级珊瑚礁”。模型预测该处水温比其他区域高近2°C，实地实验证实其耐热性最强。团队使用无人船“黄鳍”搭载GoPro相机，单日扫描40英里礁石并拍摄2万张图像，远超百名潜水员数周工作量。随后用这些图像训练AI模型自动识别白化与恢复状况，并构建三维模型分析珊瑚位置、角度对热暴露的影响。科恩设想建立“超级珊瑚礁蓝色走廊”，连接马绍尔群岛、基里巴斯和图瓦卢的保护区网络，利用洋流让耐热珊瑚幼虫跨区域繁殖。

其他多模态

09:25

Rohan Paul@rohanpaul_ai

47

微软与约克大学论文：若LLM拥有人类属性，则《帝国时代II》亦然

微软与约克大学新论文指出，许多研究在未经严格测试的情况下就将理解、共情、焦虑等人类属性赋予LLM，往往一开始就把这些概念内嵌到测试设计中。作者论证，原则上老策略游戏《帝国时代II》也能实现逻辑门、训练小型感知机，作为计算基底。若同样的语言模型以山羊移动作为bit在游戏中重建，输出相似句子，人们将不再认为它“理解”或“有共情”。论文并非否定AI认知，而是揭示测量问题：许多关于LLM类人属性的声称依赖于界面和观察者的预设，而不是系统本身。

arXiv Microsoft 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

OpenBioRQ：未解决生物医学研究问题的智能体基准测试

OpenBioRQ 是一个包含 12,553 个未解决生物医学研究问题的智能体基准测试，覆盖 12 个领域。问题无固定答案密钥，迫使模型通过多步工具调用自主验证证据，从而评估其真实性及弃权能力。当前智能体极少捏造引用（超 99% 可解析），但约 15.9% 的链接指向无关论文。难度锚定在三个开源模型都无法回答的问题上；在最难子集中同系列模型仅解决约 17%，而前沿智能体（Gemini-3-Pro、Opus-4.7、GPT-5.5）表现跨度达 29-60%。困难问题中出现“智能体崩溃”——模型停止使用工具。引入冻结的每问题检查表后，评分者间一致性从 Spearman 0.35 提升至 0.82。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

EBench：通用移动操控策略的细粒度诊断基准

EBench是一个模拟基准，用于细粒度诊断通用移动操控策略的能力，而非仅评估单一成功率。它包含26个多样化任务，沿5个能力维度和4个泛化维度标注。评估了π₀、π₀.₅、XVLA和InternVLA-A1等当前最先进的通用操控模型，发现成功率相近的模型能力画像存在显著差异：π₀.₅测试成功率最高且训练-测试保留最佳；InternVLA-A1在移动操控任务上占优，但在灵巧任务上崩溃；XVLA在原子技能上与其他策略互补。EBench还从4个代表性角度分析泛化能力，揭示了不同分布偏移因素的影响。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选74

可验证搜索不是可学习的链式思维

论文以九个确定性生成器推理任务为测试床，证明可验证搜索无法作为可学习的CoT进行蒸馏。Cryptarithm任务中，即使backbone规模从3B到671B、采用多种CoT设计、基于可验证奖励的强化学习和自训练，蒸馏后准确率始终为0.01–0.07，而搜索求解器回答71%实例。模型能正确计算97–100%的算术步骤并将正确密码排在候选前八（71%），但无法前向推导。干预实验揭示密码键后，同一实例准确率从0.03提升至0.57。只有移除搜索、预计算组合核心为目录，让模型仅做回忆加验证，才能学会该任务（Private LB 0.92）。结论：蒸馏学到的是记忆和验证，而非搜索。

推理数据/训练论文/研究

推荐理由：这篇论文给CoT蒸馏泼了盆冷水，证明回溯搜索这种过程是学不会的，模型只能记住验证步骤。做推理微调的团队该重新审视自己的数据生成策略了。

08:00

HuggingFace Daily Papers（社区热门论文）

57

BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

BioMatrix采用单一解码器架构，通过统一token化方案将分子序列（SMILES/SELFIES）、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间，所有模态均以下一个token预测目标生成。模型基于Qwen3（1.7B和4B），在3044亿tokens上预训练。在80项下游任务中，BioMatrix在77项上达到最优或竞争力水平。

Hugging Face 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

更深并非总是更好：通过Confident Decoding缓解对齐税

大语言模型自动回归生成传统上从最终层解码，但研究发现最终层可能将预测扰动到通用或对齐偏好的token，造成对齐税。Confident Decoding是一种无需训练的解码策略，通过熵引导的保守向后搜索动态选择最可靠的近最终层，并将层选择理论化为最优停止问题。在稠密和MoE大语言模型上，该方法在GPQA-Diamond、Omni-MATH、HLE等推理基准上取得一致改进，零内存开销，延迟增加不到2%。结果表明，动态绕过最终层扰动可以解锁更强推理能力。

安全/对齐推理论文/研究

03:02

HuggingFace Daily Papers（社区热门论文）

43

LedgerAgent：面向策略合规工具调用智能体的结构化状态管理方法

客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中，易导致信息过时或策略违规。LedgerAgent 是一种推理时方法，将观察到的任务状态单独维护于分类账中并渲染到提示词；在改变环境的工具调用前，用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上，LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法，在多轮一致性指标上提升最大。

智能体 MCP/工具论文/研究

6月19日

23:22

elvis@omarsar0

51

自动化SKILL.md生成：三阶段流水线论文

关键要点：OpenAI昨日为Codex推出了从交互中打包技能的类似功能；论文提出三阶段流水线（GUI轨迹分割→聚类候选技能→训练技能感知策略）。聚类纯度优异（5/8簇达0.95以上），但可读性未迁移：GRPO仅将技能步骤准确率从18.5%提至20.5%，在BrowseComp+上无改善，甚至输给简单频率先验。作者指出三个缺陷：弱边界检测器、无序片段表示、离线奖励模型。

智能体 arXiv 数据/训练论文/研究

23:02

HuggingFace Daily Papers（社区热门论文）

67

FID彩票：量化生成式模型评估中的隐藏随机性

FID是图像生成的事实标准评估指标，但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量，在数百个SiT网络上直接测量方差。发现：重新训练模型使FID变化幅度是固定网络重新采样的3.2倍，差距来自随机初始化、数据顺序和流匹配损失的高斯噪声；增加计算或模型大小几乎不缩小分散度，FID变异系数稳定在1-2%；每格无分类器引导调优使分散度减半，但重新洗牌最优种子。建议：在每格最优引导下评估，将低于~1.3% CoV的FID差距视为无结论，报告多个训练种子的误差条。

图像生成论文/研究评测/基准

1…8 91011 12…50