6月25日

09:00

公众号：蚂蚁百灵（Ling）

Ling Team 提出 UFP4：FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文，重新思考 FP4 预训练中的格式选择。研究发现，主流 E2M1 格式存在先天 Shrinkage Bias，导致数值量化时左右 rounding bin 不对称，该 bias 在训练中累积拖慢收敛。相比之下，E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform（RHT）后，更高的 bucket 利用率能转化为实际量化质量收益，收敛表现优于 E2M1。团队提出 UFP4 方案：在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT，并将 SR 用于 dy 量化。研究认为，细粒度量化与 RHT 引入后，FP4 训练已转向“局部分辨率主导”，uniform 4-bit 格式的价值应被重新评估。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PolyFlow：面向艺术家风格网格生成的连续拓扑嵌入流匹配框架

自回归Transformer可生成高质量网格拓扑，但串行解码计算量比并行模型慢数个数量级；连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器，将离散顶点位置和法线投影为连续逐顶点嵌入，通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后，任意网格可转换为统一连续顶点状态空间。基于此表示，PolyFlow采用Transformer流匹配框架，对提取的点云特征条件化，实现完全并行顶点状态去噪；推理时通过ODE求解器快速生成，并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上，PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MemoBench：动态变化环境中的世界建模基准测试

MemoBench 是一个针对视频生成模型在动态变化环境中的记忆一致性诊断基准，围绕“消失-重现”范式设计：目标物体经历物理过程后从画面中消失，模型需在其重新出现时正确恢复更新后的状态。基准包含 360 段真实与合成场景的真值片段，结合自动化指标与基于 VQA 的评估，覆盖四个诊断支柱。对八款当前最优模型的评测揭示了消失-重现模式下记忆一致性面临的关键难题与开放挑战。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

NeuraDock Agent：低通道脑电图智能体的边界感知上下文接地架构

NeuraDock Agent是一个开源架构，将确定性本地EEG引擎与硬件感知语言层分离。它解析七通道脑电图，执行质量控制与审核后的频谱工作流，生成机器可读结果。大语言模型仅接收经过允许列表筛选的摘要和版本化上下文包，包含硬件描述、工作流、结果字段、实施边界、科学限制及参考案例，原始EEG和密集数组数据保留在本地。评估分三个层面：12份记录在十次数值重复中结果一致；请求捕获与故障注入实验验证了数据边界和本地工件保留；边界意识基准测试对36个普通和对抗性问题在4种上下文消融设置和2个LLM下产生288个输出，证实了硬件与实现感知接地机制的可行性，但未验证临床有效性。

arXiv 其他论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Ko-WideSearch：韩语广度搜索基准

现有网页智能体基准主要测深度搜索，缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准，通过自动化合成-验证流程构建。任务要求从集合父实体（如电视剧季、王朝）中完整列举成员并填充属性表，采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格，覆盖 190 个实体、16 个类别，设三个难度层级，通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示，智能体能恢复集合但无法填充行（Item-F1 92.8，Row-F1 53.7），难度提升准确率下降，增加搜索或花费无法缩小差距；难点在找到正确值而非格式化，自由文本单元格失败率最高。

智能体 arXiv 搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ViQ：任意分辨率的文本对齐视觉量化表示

ViQ 是一种视觉量化表示框架，通过两阶段学习（文本对齐预训练与特征离散化）在离散表示中平衡语义与细节，并支持原生分辨率输入。预训练借助语言模型增强语义监督，离散化阶段采用近端表示学习逐步压缩特征空间，结合位置感知多头量化实现任意分辨率处理。多模态任务上，ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力，同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速，适用于不同大语言模型和训练方案。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

JetSpec：基于因果并行草稿头的推测解码框架

JetSpec 是一种头部驱动推测解码框架，通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头，生成与自回归因子分解对齐的候选树，从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中，JetSpec 一致优于双向头和树形基线。在 H100 GPU 上，MATH-500 达 9.64 倍加速，开放对话达 4.58 倍；经 vLLM 集成在现实服务负载下进一步降低延迟。

arXiv GitHub 开源生态推理

08:00

HuggingFace Daily Papers（社区热门论文）

LISA：基于似然分数对齐的视觉条件可控生成正则化方法

LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式（预训练主网络+侧网络）重新解释为基于分数的生成建模：主网络提供无条件先验分数，侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间，与构造的近似似然分数目标计算距离作为正则化损失，并与标准扩散损失联合优化。实验表明，LISA能一致加速训练收敛并提升合成质量，使侧网络特征更解耦，且几乎不增加训练成本、零额外推理成本。

arXiv 图像生成视频论文/研究

6月24日

20:48

Ant Ling@AntLingAGI

蚂蚁百灵发表UFP4论文，提出均匀网格FP4训练配方。在Dense 1.5B、MoE 7.9B和MoE 124B长程预训练中，该配方相比强E2M1基线实现了更低的BF16相对损失退化。论文指出，配合细粒度缩放和RHT后，FP4训练的瓶颈从动态范围转向局部分辨率，E1M2/INT4格式能更好利用RHT改进的桶分配，而E2M1可能使RHT有害。论文地址：https://arxiv.org/abs/2606.20381

Qian: Should FP4 training still default to E2M1?🤔 With fine-grained scaling + RHT, the bottleneck may shift from dynamic rang...

arXiv 数据/训练论文/研究

18:30

Hacker News 热门（buzzing.cc 中文翻译）

Qwen-AgentWorld：通用智能体的语言世界模型

研究团队推出Qwen-AgentWorld系列，是首批基于语言模型的“语言世界模型”，通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹，经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器，它支持可扩展的可控仿真以增强智能体强化学习；作为统一基础模型，世界模型训练可有效预热下游7个智能体基准的性能。

智能体 arXiv 数据/训练论文/研究

关联讨论 3 条

18:12

Qwen@Alibaba_Qwen

通义千问发布Qwen-AgentWorld原生语言世界模型

通义千问发布Qwen-AgentWorld，一款原生语言世界模型，可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标，非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径：一是构建环境模拟基础模型；二是探索世界模型增强智能体训练——可控Sim RL（以LWM为环境的智能体强化学习）优于真实环境训练，而LWM预热（预测环境的学习）即使不经任何智能体特定微调，也能将预测知识迁移至智能体任务。

智能体 arXiv MCP/工具模型发布

关联讨论 3 条

15:09

HuggingFace Daily Papers（社区热门论文）

FLAT：前馈潜码三角形泼溅实现几何精确场景生成

FLAT 从单张图像直接解码视频扩散潜码中的三角形泼溅表面基元，首次实现前馈传递下从压缩潜码到显式三角形面片的映射。针对平面基元方向敏感、梯度流动困难问题，引入射线中心旋转参数化回归三角形，并设计乘积窗函数改进可微分三角形渲染的梯度流。标准基准上 FLAT 在保持视觉质量的同时取得显著更高的几何精度。轻量级测试时优化可将三角形网格转换为不透明、支持实时渲染的游戏引擎就绪表示。在相同训练设置下系统对比了 3DGS、2DGS 与三角形泼溅的表示权衡。

arXiv 图像生成论文/研究

11:55

HuggingFace Daily Papers（社区热门论文）

DREAM：通过自回归建模实现密集检索嵌入

DREAM是一种利用大语言模型（LLM）自回归下一token预测目标为密集检索嵌入模型提供监督训练的方法。它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头，使预测损失通过注意力机制为检索器提供梯度。在BEIR和RTEB检索基准上，使用0.5B至3B参数的嵌入骨干，DREAM均持续优于现有基线。

arXiv 检索增强数据/训练论文/研究

11:54

Qwen：Blog Retrieval（API）

精选81

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体 arXiv Hugging Face MCP/工具

关联讨论 3 条

推荐理由：Qwen把世界模型做成了一个可开源的通用产品，覆盖七域，做agent RL的可以直接拿它仿真训练，可控性甚至超过真实环境，做agent的团队应该认真看看。

10:49

HuggingFace Daily Papers（社区热门论文）

CF-World：一个用于测试T2I模型因果推理的反事实基准

CF-World是一个反事实基准，用于测试文本到图像（T2I）模型在系统性违背现实世界先验规则下生成图像的能力。每个场景分三个递进层级：事实生成、显式反事实生成和隐式反事实生成。评估采用VLM-based评估器CF-Eval，引入两个指标：Prior Resistance Rate（PRR）衡量克服固有先验的能力，Reasoning Retention Rate（RRR）评估无显式视觉线索时的推理依赖生成。实验表明，所有模型在反事实场景中性能急剧下降，原因是T2I模型将世界知识与视觉外观编码为紧密耦合模式，过度依赖训练数据中的频繁视觉共现，在反事实任务中退回至熟悉常识先验。

arXiv 多模态推理论文/研究

09:47

Rohan Paul@rohanpaul_ai

热力学智能度量：将智能定义为使罕见有效未来更可能发生的能力

该论文提出“热力学智能”概念，将智能定义为通过信息与控制显著提高罕见有效结果概率的能力。现有评测仅关注任务成功率，而论文指出大脑、大语言模型、控制器等智能体的共同点：系统将自身纳入世界模型，并基于模型选择行动以改变未来概率。有效未来需满足在被动行为下罕见且仍有效。作者提出“罕见有效提升”度量，衡量系统比被动基线更频繁产生此类未来的倍数。高提升取决于系统能否准确识别罕见有效未来。核心论点：智能是物理层面的概率转移过程，而非测试分数或类人行为标签。

arXiv 推理论文/研究

08:17

Rohan Paul@rohanpaul_ai

研究揭示大语言模型难以识别对抗性前缀攻击

一项针对10个开源模型、4个安全基准的研究发现，大语言模型在遭遇对抗性前缀攻击（模型被植入有害开篇并继续生成）后，无法可靠识别自己的输出已被外部引导。模型所谓的“自我意识”更像安全机制的延迟反射：拒绝受攻击回答时通常引用政策或缺乏意图，而非检测到输出被篡改的机械事实。平均有27.3%的受攻击响应被模型误认为自身意图，表明自我报告证据薄弱。模型的有限识别主要来自正常拒绝行为，而非对攻击的深层认知。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

验证地平线：编程智能体奖励无银弹

随着基础模型推理能力与工程框架增强，生成长代码方案已不困难，可靠验证反成瓶颈。验证器仅为人类意图的代理，意图天然欠指定，优化会拉大代理与意图差距（奖励破解或信号饱和）。论文沿可扩展性、忠实性、鲁棒性三维度刻画验证信号质量，研究测试验证器、评分标准验证器、用户验证器及自动化智能体验证器四种构造。实验表明针对性设计能抑制奖励破解、提升任务质量。核心结论：无固定奖励函数能随策略能力增长保持有效，验证必须与生成协同进化。

智能体 arXiv 编码论文/研究

06:12

HuggingFace Daily Papers（社区热门论文）

TROPT：统一与推进离散文本优化的开源框架

TROPT 是首个开源框架，通过统一接口标准化离散优化器的执行与开发。它支持灵活替换模型、目标和优化器，定制端到端优化配方。框架内置30余个优化配方（覆盖LLM越狱、模型内部探测等），由15余个优化器（白盒到黑盒）和15余个损失函数组合而成。通过大规模对比实验验证了LLM越狱优化策略改进，并将优化器从越狱场景移植至语料投毒嵌入模型等领域，显著降低了离散文本优化的使用门槛。

arXiv 安全/对齐开源/仓库

05:06

HuggingFace Daily Papers（社区热门论文）

Lift4D：调和单视图三维估计以实现野外四维重建

Lift4D 是一种测试时优化框架，用于从单目视频重建动态非刚性物体。它首先通过因果潜在条件适配单视图3D重建模型，生成时间一致的逐帧预测，作为可变形3D高斯溅射表示的初始化；随后通过遮挡感知优化与视图条件扩散先验，在恢复可见表面细节的同时补全未观测区域。在包含严重遮挡和非刚性运动的野外序列上，Lift4D 明显优于此前方法。

arXiv 多模态论文/研究

03:06

HuggingFace Daily Papers（社区热门论文）

ShotcreteDepth：用于喷射混凝土施工环境中鲁棒机器人深度感知的双模态数据集

ShotcreteDepth是一个来自建筑领域的双模态数据集，包含立体RGB图像与LiDAR点云，采集于主动喷射混凝土施工过程及一般建筑环境。数据在真实恶劣条件（高浊度、低光照）下获取，导致传感器观测不完整且含噪。该数据集由11,252个时间同步样本组成，其中220个带有标注用于评估。同时发布一套轻量级LiDAR点云标注工具。数据集支持在贴近工业操作复杂度的场景中进行立体匹配、深度补全与深度估计研究。

arXiv 具身智能数据/训练论文/研究

6月23日

14:45

Hacker News 热门（buzzing.cc 中文翻译）

VibeThinker-3B：探索小语言模型中可验证推理的前沿

VibeThinker-3B是一款仅3B参数的紧凑密集模型，采用Spectrum-to-Signal后训练范式，结合课程式监督微调、多领域强化学习与离线自蒸馏。在AIME26上达到94.3分，采用claim级测试时缩放可提升至97.1；LiveCodeBench v6 Pass@1为80.2；最新LeetCode竞赛接受率达96.1%，性能与DeepSeek V3.2、GLM-5、Gemini 3 Pro等大模型相当或超越。IFEval得分93.4，表明极端推理增强未损害指令可控性。该工作支撑了参数压缩-覆盖假说，认为可验证推理可压缩为紧凑推理核，而开放知识需广泛参数覆盖。

arXiv 推理论文/研究

13:13

HuggingFace Daily Papers（社区热门论文）

Self-Compact：让语言模型智能体自行决定何时压缩轨迹

长期agent轨迹会积累陈旧内容，最终超出上下文窗口。现有固定token阈值压缩忽略轨迹结构，可能丢失中间结果。SelfCompact提供压缩工具供模型调用，并配套轻量级规则指明触发时机（子任务完成或轨迹收敛）与抑制时机（中途推导或卡住），实现自适应压缩，无需微调或外部监督。在六个基准及七种模型上，SelfCompact以远低于固定间隔压缩的token成本达到相近或更优效果：数学相比无压缩基线最高提升18.1分，智能体搜索提升5–9分，每题成本降低30–70%。

智能体 arXiv 推理论文/研究

13:13

HuggingFace Daily Papers（社区热门论文）

PhoneBuddy：训练开放模型实现智能体手机使用

训练开放模型实现可靠手机操控面临真实设备慢、难重置，模拟环境不逼真的问题。PhoneBuddy提出结合真实应用与模拟环境PhoneWorld的训练方案：先共享监督微调，再对比真实RL与混合RL。在150项真实手机评估中，成功率从SFT的36.67%提升至混合RL的45.33%；在AndroidWorld上从60.3%升至83.2%。结果表明，模拟训练是真实RL的互补来源，优势在应用/小程序任务，跨应用工作流仍是开放挑战。

智能体 arXiv 数据/训练论文/研究

12:13

HuggingFace Daily Papers（社区热门论文）

causal-learn+：智能体应辅助因果发现而非提供因果结论

当前将大语言模型（LLM）与因果发现结合的做法，常让模型推断边方向、提出图结构或注入先验与约束，但这混淆了数据与假设支撑的证据与文本关联、提示词产物及幻觉机制。本文主张智能体应扮演辅助角色：检查数据、检索上下文、解释方法假设并澄清图输出，而不应提供边、方向、先验、约束或因果结论。因果主张必须基于数据、显式假设、正式算法、诊断及用户/领域专家决策。该原则在causal-learn+在线平台中实现，协调数据分析、预处理、方法推荐等。Big Five人格数据案例展示了无需LLM不可靠性的智能体辅助因果发现流程。平台地址causallearn.com。

智能体 arXiv 论文/研究

11:13

HuggingFace Daily Papers（社区热门论文）

KaLM-Reranker-V1：快速但非延迟交互的压缩文档重排序器

KaLM-Reranker-V1 是一种快速但非延迟交互（FBNL）重排序器，采用编码器-解码器架构。编码器使用 Matryoshka 嵌入池化预编码段落，解码器建模系统指令、用户指令和查询意图，再通过交叉注意力捕获查询与段落间的相关性，实现解耦计算并保持高效。模型提供 Nano（0.27B）、Small（1B）和 Large（4B）三种激活参数尺寸。在 BEIR 上达到 SOTA，与 Qwen3-Reranker 系列持平；在 MIRACL 上未经大量多语言训练仍表现优异；在 LMEB 上，0.27B Nano 模型可与 7-12B 嵌入模型竞争。

arXiv 检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于检索增强搜索的LLM程序优化方法

提出检索增强搜索（RAS）方法，通过束搜索优化候选程序，每一步从慢-快程序对训练数据中检索上下文示例引导LLM。基于LLM生成的自然语言描述进行上下文检索效果优于基于源代码的检索。同时提出AEGIS方法，将训练示例分解为原子编辑以提高可解释性。在C++程序优化上，RAS比先前最先进黑盒适应策略性能提升2.06倍，AEGIS提升1.37倍且编辑量更小。对于Python程序，RAS使平均运行时间百分位提升10.27。

arXiv 搜索编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选75

推理模型的思考Token真的有助于提升安全性吗？--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现，所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令，在第一个token的

arXiv 安全/对齐推理论文/研究

推荐理由：这篇论文直接挑战了「思考令牌提升安全性」的业界直觉，证据表明拒绝行为在思考的极早期就已锁定，现有安全干预反导致过度谨慎。安全团队必读，需要重新审视推理模型的对齐方式。

01:41

Hacker News 热门（buzzing.cc 中文翻译）

Moebius：0.22B参数轻量级图像修复框架，性能媲美百亿级模型

Moebius是一个仅0.22B参数的轻量级图像修复框架。其核心是Local-λ Mix Interaction（LλMI）模块，将空间上下文与全局语义先验压缩为固定大小线性矩阵，大幅减少参数。结合自适应多粒度蒸馏策略，在隐空间中从教师模型迁移表征能力，动态平衡多层级梯度损失。在Places2、CelebA-HQ、FFHQ等6个自然场景和人像基准上，Moebius的生成质量与11.9B参数的FLUX.1-Fill-Dev持平甚至超越，参数量不足其2%，总推理速度提升超过15倍。

arXiv 图像生成论文/研究

6月22日

22:37

elvis@omarsar0

多智能体通信协议五维分类法报告发布

该报告针对LLM多智能体系统的通信瓶颈，构建了五维分类法（对方、有效载荷、交互状态、发现机制、模式灵活性），系统梳理了9个积极维护的开源智能体协议，覆盖MCP和A2A的实际格局。报告发现两个突出模式：每个智能体间协议都采用混合有效载荷与会话状态持久化组合，而去中心化发现机制仍极为罕见。领域正悄然标准化有状态会话，但发现与策略执行层仍留白。该报告为今年选择通信层时提供了九大协议的真实对比参考。

智能体 arXiv MCP/工具论文/研究

13:07

Rohan Paul@rohanpaul_ai

《LLM智能体能推断世界模型吗？来自智能体自动机学习的证据》

Rohan Paul引用新论文指出，尽管LLM智能体有时能通过交互发现隐藏结构，但其推断世界模型的能力存在根本局限：随着隐藏世界复杂度增加，AI智能体的表现迅速落后，难以将积累的反馈转化为稳定的内部模型，尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是，在复杂环境中，LLM智能体建立可靠心智模型的速度跟不上难度增长。

智能体 arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SingGuard：政策自适应多模态LLM护栏模型系列

SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列，可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式，并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准，含56,340个样本，覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族（35个数据集）上均取得平均F1 SOTA；动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。

arXiv GitHub 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

GUI vs. CLI：屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

该研究引入一项匹配执行层基准测试（440个桌面任务、18个应用、12个工作流类别），对屏幕仅限的GUI智能体与技能中介的CLI智能体进行控制对比，两者接受相同目标、状态和最终状态验证器，但仅限使用模态原生操作。最强GUI智能体全通过率59.1%，高于最强原始技能CLI智能体的48.2%；经验证器引导的技能增强后，CLI成功率升至69.3%，表明CLI缺陷主要来自技能覆盖不完整。结果揭示两类智能体不同的执行瓶颈：GUI受限于长时程工作流中的可靠接地交互，CLI受限于技能接口的覆盖率和可扩展性。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

ABACUS：适配统一基础模型以桥接图像计数理解与生成

ABACUS是一个统一的视觉语言模型，无需基准特定训练即可处理对象计数、人群计数、指代表达式计数和计数忠实的图像生成。它基于3B参数基础模型，通过三项创新适配目标定位：基于目标图的密度感知自适应缩放实现空间定位；GRPO边界感知计数策略消除裁剪边界错误；循环一致GRPO策略让理解分支自我批判生成输出，无需外部标注缩小理解-生成差距。在七个基准上取得SOTA，超越任务专用专家和更大通用模型。

arXiv 多模态论文/研究

01:34

elvis@omarsar0

《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法

论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法：将人类判断前置到可复用评估资产中，专家在上游策划评估智慧，而非在测试循环中逐一审查输出。现有方法各有局限：Benchmark测量固定能力，人工审核不具可扩展性，LLM-as-Judge存在评估器设计问题，红队测试偶发，trace审计需明确证据规则。AI智能体需作为行为系统评估，因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。

智能体 arXiv 论文/研究评测/基准

6月21日

04:08

HuggingFace Daily Papers（社区热门论文）

Lexical Consensus：人工智能体基于具身经验的词汇习得与共享意义

Lexical Consensus 是一个研究AI智能体通过具身经验习得、稳定并运用词汇意义的框架。使用冻结DINOv2视觉嵌入、Carroll式假词和可解释词汇学习器，实验发现感知连贯性梯度主导学习效果：原生类别最易习得，远析取概念接近随机。CIFAR-100解离实验证实，感知距离显著预测习得准确率（partial R²=0.245, p<1e-7），语义距离无显著解释力。双向评估显示，样例机制在标签到图像检索中优于质心原型，命名与检索是分离的能力。控制实验表明，冻结的感知几何同时支撑了词汇基础并限制了无需表征适应即可习得的范围。

arXiv 多模态论文/研究

6月20日

09:25

Rohan Paul@rohanpaul_ai

微软与约克大学论文：若LLM拥有人类属性，则《帝国时代II》亦然

微软与约克大学新论文指出，许多研究在未经严格测试的情况下就将理解、共情、焦虑等人类属性赋予LLM，往往一开始就把这些概念内嵌到测试设计中。作者论证，原则上老策略游戏《帝国时代II》也能实现逻辑门、训练小型感知机，作为计算基底。若同样的语言模型以山羊移动作为bit在游戏中重建，输出相似句子，人们将不再认为它“理解”或“有共情”。论文并非否定AI认知，而是揭示测量问题：许多关于LLM类人属性的声称依赖于界面和观察者的预设，而不是系统本身。

arXiv Microsoft 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EBench：通用移动操控策略的细粒度诊断基准

EBench是一个模拟基准，用于细粒度诊断通用移动操控策略的能力，而非仅评估单一成功率。它包含26个多样化任务，沿5个能力维度和4个泛化维度标注。评估了π₀、π₀.₅、XVLA和InternVLA-A1等当前最先进的通用操控模型，发现成功率相近的模型能力画像存在显著差异：π₀.₅测试成功率最高且训练-测试保留最佳；InternVLA-A1在移动操控任务上占优，但在灵巧任务上崩溃；XVLA在原子技能上与其他策略互补。EBench还从4个代表性角度分析泛化能力，揭示了不同分布偏移因素的影响。

arXiv 具身智能论文/研究

6月19日

23:22

elvis@omarsar0

自动化SKILL.md生成：三阶段流水线论文

关键要点：OpenAI昨日为Codex推出了从交互中打包技能的类似功能；论文提出三阶段流水线（GUI轨迹分割→聚类候选技能→训练技能感知策略）。聚类纯度优异（5/8簇达0.95以上），但可读性未迁移：GRPO仅将技能步骤准确率从18.5%提至20.5%，在BrowseComp+上无改善，甚至输给简单频率先验。作者指出三个缺陷：弱边界检测器、无序片段表示、离线奖励模型。

智能体 arXiv 数据/训练论文/研究

21:52

Rohan Paul@rohanpaul_ai

通用智能体必须记住什么？

该论文指出，通用智能体不能仅依赖当前观测，必须记住隐藏环境规则。当两个隐藏域在相同可见状态下要求相反动作时，仅凭观察无法区分当前场景。作者证明，要在两个域都表现良好的智能体，必须为不同域维持不同的内部记忆状态。核心结论：好的通用智能体不是对当前所见做出反应，而是必须携带来自先前经验的隐藏上下文。

智能体 arXiv 论文/研究