全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 757 条

全部一手资讯 X 论文

标签「arXiv」清除

6月24日周三

06:12HuggingFace Daily Papers（社区热门论文）69TROPT：统一与推进离散文本优化的开源框架

05:06HuggingFace Daily Papers（社区热门论文）49Lift4D：调和单视图三维估计以实现野外四维重建

03:06HuggingFace Daily Papers（社区热门论文）42ShotcreteDepth：用于喷射混凝土施工环境中鲁棒机器人深度感知的双模态数据集

6月23日周二

14:45Hacker News 热门（buzzing.cc 中文翻译）49VibeThinker-3B：探索小语言模型中可验证推理的前沿

13:13HuggingFace Daily Papers（社区热门论文）61Self-Compact：让语言模型智能体自行决定何时压缩轨迹

13:13HuggingFace Daily Papers（社区热门论文）52PhoneBuddy：训练开放模型实现智能体手机使用

12:13HuggingFace Daily Papers（社区热门论文）48causal-learn+：智能体应辅助因果发现而非提供因果结论

11:13HuggingFace Daily Papers（社区热门论文）48KaLM-Reranker-V1：快速但非延迟交互的压缩文档重排序器

08:00HuggingFace Daily Papers（社区热门论文）37基于检索增强搜索的LLM程序优化方法

08:00HuggingFace Daily Papers（社区热门论文）75精选推理模型的思考Token真的有助于提升安全性吗？--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

01:41Hacker News 热门（buzzing.cc 中文翻译）51Moebius：0.22B参数轻量级图像修复框架，性能媲美百亿级模型

6月22日周一

08:00HuggingFace Daily Papers（社区热门论文）35SingGuard：政策自适应多模态LLM护栏模型系列

08:00HuggingFace Daily Papers（社区热门论文）50GUI vs. CLI：屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

08:00HuggingFace Daily Papers（社区热门论文）43ABACUS：适配统一基础模型以桥接图像计数理解与生成

6月21日周日

04:08HuggingFace Daily Papers（社区热门论文）51Lexical Consensus：人工智能体基于具身经验的词汇习得与共享意义

6月20日周六

08:00HuggingFace Daily Papers（社区热门论文）45EBench：通用移动操控策略的细粒度诊断基准

6月19日周五

19:01HuggingFace Daily Papers（社区热门论文）45Multi-LCB：将LiveCodeBench扩展到多种编程语言

08:00HuggingFace Daily Papers（社区热门论文）47非语言发声中的说话人身份：条件蒸馏与混合专家方法

08:00HuggingFace Daily Papers（社区热门论文）36UnityShots：记忆驱动的多镜头音视频生成系统

08:00HuggingFace Daily Papers（社区热门论文）40数据受限语言模型预训练的训练时数据增强解析

07:47HuggingFace Daily Papers（社区热门论文）51REVES：基于修订与验证的测试时扩展训练框架

02:47Hugging Face：Blog（RSS）75精选MosaicLeaks：你的研究智能体能保守秘密吗？

6月18日周四

23:45HuggingFace Daily Papers（社区热门论文）55Discriminator-Guided RL：用数据自身奖励修正流匹配模型

21:44HuggingFace Daily Papers（社区热门论文）52Bag of Dims：通过维度级符号模式实现免训练的机制可解释性

11:43HuggingFace Daily Papers（社区热门论文）74精选Sumi：从头训练的7B开源均匀扩散语言模型

11:14Hacker News 热门（buzzing.cc 中文翻译）70精选cuTile Rust：安全无数据竞争的 GPU 内核系统

10:43HuggingFace Daily Papers（社区热门论文）47Turing-RL：利用图灵奖励学习用户模拟器

09:43HuggingFace Daily Papers（社区热门论文）57RNG-Bench：多模态大语言模型在可控非马尔可夫游戏中的评估基准

08:00HuggingFace Daily Papers（社区热门论文）47DO-ALL：基于数据集蒸馏的持续测试时间适应框架

08:00HuggingFace Daily Papers（社区热门论文）51MemGUI-Agent：具有主动上下文管理的端到端长时域移动GUI智能体

08:00HuggingFace Daily Papers（社区热门论文）48Grouped Query Experts：在 GQA 自注意力上的混合专家模型

08:00HuggingFace Daily Papers（社区热门论文）49何时、何地、如何：表格自监督学习的自适应分箱

08:00HuggingFace Daily Papers（社区热门论文）65StylisticBias：少数视觉线索主导MLLM社会偏见

6月17日周三

11:35HuggingFace Daily Papers（社区热门论文）40ChLogic：中文逻辑推理鲁棒性评估基准

10:33HuggingFace Daily Papers（社区热门论文）50UniAR：共享语境-视觉分词器是实现统一的关键

10:33HuggingFace Daily Papers（社区热门论文）49近侧发展区策略优化（ZPPO）：教师知识注入提示词而非梯度

10:33HuggingFace Daily Papers（社区热门论文）51LoopCoder-v2：仅循环一次实现高效测试时计算扩展

08:00HuggingFace Daily Papers（社区热门论文）43用马氏余弦相似度比较线性探针

08:00HuggingFace Daily Papers（社区热门论文）47网络规模LLM预训练语料库叙事特征研究--基于Dolma与NarraBERT

08:00HuggingFace Daily Papers（社区热门论文）52GateMem：多主体共享记忆智能体的记忆治理基准

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月24日

06:12

HuggingFace Daily Papers（社区热门论文）

69

TROPT：统一与推进离散文本优化的开源框架

TROPT 是首个开源框架，通过统一接口标准化离散优化器的执行与开发。它支持灵活替换模型、目标和优化器，定制端到端优化配方。框架内置30余个优化配方（覆盖LLM越狱、模型内部探测等），由15余个优化器（白盒到黑盒）和15余个损失函数组合而成。通过大规模对比实验验证了LLM越狱优化策略改进，并将优化器从越狱场景移植至语料投毒嵌入模型等领域，显著降低了离散文本优化的使用门槛。

arXiv 安全/对齐开源/仓库

05:06

HuggingFace Daily Papers（社区热门论文）

49

Lift4D：调和单视图三维估计以实现野外四维重建

Lift4D 是一种测试时优化框架，用于从单目视频重建动态非刚性物体。它首先通过因果潜在条件适配单视图3D重建模型，生成时间一致的逐帧预测，作为可变形3D高斯溅射表示的初始化；随后通过遮挡感知优化与视图条件扩散先验，在恢复可见表面细节的同时补全未观测区域。在包含严重遮挡和非刚性运动的野外序列上，Lift4D 明显优于此前方法。

arXiv 多模态论文/研究

03:06

HuggingFace Daily Papers（社区热门论文）

42

ShotcreteDepth：用于喷射混凝土施工环境中鲁棒机器人深度感知的双模态数据集

ShotcreteDepth是一个来自建筑领域的双模态数据集，包含立体RGB图像与LiDAR点云，采集于主动喷射混凝土施工过程及一般建筑环境。数据在真实恶劣条件（高浊度、低光照）下获取，导致传感器观测不完整且含噪。该数据集由11,252个时间同步样本组成，其中220个带有标注用于评估。同时发布一套轻量级LiDAR点云标注工具。数据集支持在贴近工业操作复杂度的场景中进行立体匹配、深度补全与深度估计研究。

arXiv 具身智能数据/训练论文/研究

6月23日

14:45

Hacker News 热门（buzzing.cc 中文翻译）

49

VibeThinker-3B：探索小语言模型中可验证推理的前沿

VibeThinker-3B是一款仅3B参数的紧凑密集模型，采用Spectrum-to-Signal后训练范式，结合课程式监督微调、多领域强化学习与离线自蒸馏。在AIME26上达到94.3分，采用claim级测试时缩放可提升至97.1；LiveCodeBench v6 Pass@1为80.2；最新LeetCode竞赛接受率达96.1%，性能与DeepSeek V3.2、GLM-5、Gemini 3 Pro等大模型相当或超越。IFEval得分93.4，表明极端推理增强未损害指令可控性。该工作支撑了参数压缩-覆盖假说，认为可验证推理可压缩为紧凑推理核，而开放知识需广泛参数覆盖。

arXiv 推理论文/研究

13:13

HuggingFace Daily Papers（社区热门论文）

61

Self-Compact：让语言模型智能体自行决定何时压缩轨迹

长期agent轨迹会积累陈旧内容，最终超出上下文窗口。现有固定token阈值压缩忽略轨迹结构，可能丢失中间结果。SelfCompact提供压缩工具供模型调用，并配套轻量级规则指明触发时机（子任务完成或轨迹收敛）与抑制时机（中途推导或卡住），实现自适应压缩，无需微调或外部监督。在六个基准及七种模型上，SelfCompact以远低于固定间隔压缩的token成本达到相近或更优效果：数学相比无压缩基线最高提升18.1分，智能体搜索提升5–9分，每题成本降低30–70%。

智能体 arXiv 推理论文/研究

13:13

HuggingFace Daily Papers（社区热门论文）

52

PhoneBuddy：训练开放模型实现智能体手机使用

训练开放模型实现可靠手机操控面临真实设备慢、难重置，模拟环境不逼真的问题。PhoneBuddy提出结合真实应用与模拟环境PhoneWorld的训练方案：先共享监督微调，再对比真实RL与混合RL。在150项真实手机评估中，成功率从SFT的36.67%提升至混合RL的45.33%；在AndroidWorld上从60.3%升至83.2%。结果表明，模拟训练是真实RL的互补来源，优势在应用/小程序任务，跨应用工作流仍是开放挑战。

智能体 arXiv 数据/训练论文/研究

12:13

HuggingFace Daily Papers（社区热门论文）

48

causal-learn+：智能体应辅助因果发现而非提供因果结论

当前将大语言模型（LLM）与因果发现结合的做法，常让模型推断边方向、提出图结构或注入先验与约束，但这混淆了数据与假设支撑的证据与文本关联、提示词产物及幻觉机制。本文主张智能体应扮演辅助角色：检查数据、检索上下文、解释方法假设并澄清图输出，而不应提供边、方向、先验、约束或因果结论。因果主张必须基于数据、显式假设、正式算法、诊断及用户/领域专家决策。该原则在causal-learn+在线平台中实现，协调数据分析、预处理、方法推荐等。Big Five人格数据案例展示了无需LLM不可靠性的智能体辅助因果发现流程。平台地址causallearn.com。

智能体 arXiv 论文/研究

11:13

HuggingFace Daily Papers（社区热门论文）

48

KaLM-Reranker-V1：快速但非延迟交互的压缩文档重排序器

KaLM-Reranker-V1 是一种快速但非延迟交互（FBNL）重排序器，采用编码器-解码器架构。编码器使用 Matryoshka 嵌入池化预编码段落，解码器建模系统指令、用户指令和查询意图，再通过交叉注意力捕获查询与段落间的相关性，实现解耦计算并保持高效。模型提供 Nano（0.27B）、Small（1B）和 Large（4B）三种激活参数尺寸。在 BEIR 上达到 SOTA，与 Qwen3-Reranker 系列持平；在 MIRACL 上未经大量多语言训练仍表现优异；在 LMEB 上，0.27B Nano 模型可与 7-12B 嵌入模型竞争。

arXiv 检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

37

基于检索增强搜索的LLM程序优化方法

提出检索增强搜索（RAS）方法，通过束搜索优化候选程序，每一步从慢-快程序对训练数据中检索上下文示例引导LLM。基于LLM生成的自然语言描述进行上下文检索效果优于基于源代码的检索。同时提出AEGIS方法，将训练示例分解为原子编辑以提高可解释性。在C++程序优化上，RAS比先前最先进黑盒适应策略性能提升2.06倍，AEGIS提升1.37倍且编辑量更小。对于Python程序，RAS使平均运行时间百分位提升10.27。

arXiv 搜索编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选75

推理模型的思考Token真的有助于提升安全性吗？--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现，所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令，在第一个token的

arXiv 安全/对齐推理论文/研究

推荐理由：这篇论文直接挑战了「思考令牌提升安全性」的业界直觉，证据表明拒绝行为在思考的极早期就已锁定，现有安全干预反导致过度谨慎。安全团队必读，需要重新审视推理模型的对齐方式。

01:41

Hacker News 热门（buzzing.cc 中文翻译）

51

Moebius：0.22B参数轻量级图像修复框架，性能媲美百亿级模型

Moebius是一个仅0.22B参数的轻量级图像修复框架。其核心是Local-λ Mix Interaction（LλMI）模块，将空间上下文与全局语义先验压缩为固定大小线性矩阵，大幅减少参数。结合自适应多粒度蒸馏策略，在隐空间中从教师模型迁移表征能力，动态平衡多层级梯度损失。在Places2、CelebA-HQ、FFHQ等6个自然场景和人像基准上，Moebius的生成质量与11.9B参数的FLUX.1-Fill-Dev持平甚至超越，参数量不足其2%，总推理速度提升超过15倍。

arXiv 图像生成论文/研究

6月22日

08:00

HuggingFace Daily Papers（社区热门论文）

35

SingGuard：政策自适应多模态LLM护栏模型系列

SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列，可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式，并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准，含56,340个样本，覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族（35个数据集）上均取得平均F1 SOTA；动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。

arXiv GitHub 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

50

GUI vs. CLI：屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

该研究引入一项匹配执行层基准测试（440个桌面任务、18个应用、12个工作流类别），对屏幕仅限的GUI智能体与技能中介的CLI智能体进行控制对比，两者接受相同目标、状态和最终状态验证器，但仅限使用模态原生操作。最强GUI智能体全通过率59.1%，高于最强原始技能CLI智能体的48.2%；经验证器引导的技能增强后，CLI成功率升至69.3%，表明CLI缺陷主要来自技能覆盖不完整。结果揭示两类智能体不同的执行瓶颈：GUI受限于长时程工作流中的可靠接地交互，CLI受限于技能接口的覆盖率和可扩展性。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

43

ABACUS：适配统一基础模型以桥接图像计数理解与生成

ABACUS是一个统一的视觉语言模型，无需基准特定训练即可处理对象计数、人群计数、指代表达式计数和计数忠实的图像生成。它基于3B参数基础模型，通过三项创新适配目标定位：基于目标图的密度感知自适应缩放实现空间定位；GRPO边界感知计数策略消除裁剪边界错误；循环一致GRPO策略让理解分支自我批判生成输出，无需外部标注缩小理解-生成差距。在七个基准上取得SOTA，超越任务专用专家和更大通用模型。

arXiv 多模态论文/研究

6月21日

04:08

HuggingFace Daily Papers（社区热门论文）

51

Lexical Consensus：人工智能体基于具身经验的词汇习得与共享意义

Lexical Consensus 是一个研究AI智能体通过具身经验习得、稳定并运用词汇意义的框架。使用冻结DINOv2视觉嵌入、Carroll式假词和可解释词汇学习器，实验发现感知连贯性梯度主导学习效果：原生类别最易习得，远析取概念接近随机。CIFAR-100解离实验证实，感知距离显著预测习得准确率（partial R²=0.245, p<1e-7），语义距离无显著解释力。双向评估显示，样例机制在标签到图像检索中优于质心原型，命名与检索是分离的能力。控制实验表明，冻结的感知几何同时支撑了词汇基础并限制了无需表征适应即可习得的范围。

arXiv 多模态论文/研究

6月20日

08:00

HuggingFace Daily Papers（社区热门论文）

45

EBench：通用移动操控策略的细粒度诊断基准

EBench是一个模拟基准，用于细粒度诊断通用移动操控策略的能力，而非仅评估单一成功率。它包含26个多样化任务，沿5个能力维度和4个泛化维度标注。评估了π₀、π₀.₅、XVLA和InternVLA-A1等当前最先进的通用操控模型，发现成功率相近的模型能力画像存在显著差异：π₀.₅测试成功率最高且训练-测试保留最佳；InternVLA-A1在移动操控任务上占优，但在灵巧任务上崩溃；XVLA在原子技能上与其他策略互补。EBench还从4个代表性角度分析泛化能力，揭示了不同分布偏移因素的影响。

arXiv 具身智能论文/研究

6月19日

19:01

HuggingFace Daily Papers（社区热门论文）

45

Multi-LCB：将LiveCodeBench扩展到多种编程语言

Multi-LCB 是一个新基准，将 LiveCodeBench（LCB）从 Python 扩展到 12 种编程语言，保持原有污染控制和评估协议，并自动跟踪 LCB 的未来更新。对 24 个 LLM 的指令遵循与推理能力评估揭示了 Python 过拟合、语言特定污染以及多语言性能的显著差异，直接暴露了当前 LLM 在多语言代码生成上的关键短板。

arXiv 编码论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

47

非语言发声中的说话人身份：条件蒸馏与混合专家方法

针对非语言发声（NVV）中说话人身份一致性评估，现有说话人验证（SV）系统泛化差且微调会导致灾难性遗忘。本文提出融合冻结Data2Vec自监督特征与ECAPA-TDNN的框架，并加入带领域感知路由的混合专家（MoE）模块。通过预训练教师模型在语音输入上施加条件蒸馏损失以保持语音验证精度，同时用对比损失弥合语音与NVV的域间差距。该方法将NVV的等错误率（EER）从38.93%降至22.66%，语音EER从13.17%降至9.24%。

arXiv 论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

36

UnityShots：记忆驱动的多镜头音视频生成系统

UnityShots基于LTX-2.3构建，通过记忆驱动实现多镜头音视频生成。视频流维护两个固定大小的记忆插槽：长期记忆（LTM）锚定开场镜头，短期记忆（STM）保存前一段尾部，由边界条件门控（融合视觉剪辑概率与节拍跟踪器信号）在每次剪辑时更新。音频流在每镜头注入参考说话者token以保持音色。离散剪辑类型先验通过AdaLN学习，推理时可调节过渡强度。团队发布包含200个多文化多镜头序列的基准，覆盖6个种族区域和10+语言，附有每镜头参考身份、参考音频和边界标签。在I2V、T2V和R2V条件下，UnityShots在所有跨镜头一致性指标上领先开源基线，并在多镜头维度匹配最强闭源系统。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

40

数据受限语言模型预训练的训练时数据增强解析

针对数据受限、算力充裕场景下标准自回归预训练多轮迭代后严重过拟合的问题，研究引入三类正交训练时数据增强：token级噪声（掩码、随机替换）、序列重排（从右至左预测、Fill-in-the-Middle）及目标偏移预测（预测x_{t+i}, i>1）。消融实验表明，单项增强均能延缓过拟合并降低验证损失，其中随机替换效果最优；组合多种增强可进一步降低最小验证损失。该方法有效缓解了自回归预训练在固定语料上重复训练时的数据效率低下问题。代码与数据已开源。

arXiv 数据/训练论文/研究

07:47

HuggingFace Daily Papers（社区热门论文）

51

REVES：基于修订与验证的测试时扩展训练框架

REVES是一种两阶段迭代训练框架，通过将成功恢复轨迹中的中间步骤转化为独立的修订与验证提示，聚焦于答案变换与错误识别，相比标准多轮强化学习降低了长程采样的计算开销。在LiveCodeBench上，使用公开测试用例作为反馈，较RL基线提升+6.5点，较标准多轮训练提升+4.0点。在circle packing任务上，仅用4B参数基础模型即匹配此前报告的SOTA结果。该方法还泛化到n_queens、mini_sudoku等分布外约束满足问题。代码已开源。

arXiv GitHub 推理数据/训练

02:47

Hugging Face：Blog（RSS）

精选75

MosaicLeaks：你的研究智能体能保守秘密吗？

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务，每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息，单纯优化任务性能反而加剧泄露。基于此，研究提出隐私感知深度研究（PA-DR）强化学习训练方法，将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体 arXiv 安全/对齐论文/研究

推荐理由：这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息，单纯提示减少泄露几乎没用，而隐私感知训练把泄露率从34%降到9.9%，且不损伤任务表现，做企业级agent产品的团队要重视。

6月18日

23:45

HuggingFace Daily Papers（社区热门论文）

55

Discriminator-Guided RL：用数据自身奖励修正流匹配模型

针对流匹配模型匹配损失与生成质量的结构不匹配，提出Discriminator-Guided RL（DRL）。在预训练表示空间中训练判别器区分真实数据与基模型样本，将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比，直接优化数据分布。在SiT、JiT、REPA、RAE上，DRL一致降低无引导FID（SiT从9.38降至2.62）和语义空间FD（SiT在DINOv3上从88.2降至19.3），且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中，DRL改善偏好奖励与图像保真度的帕累托前沿，减少过饱和等低层次伪影。

arXiv 图像生成数据/训练论文/研究

21:44

HuggingFace Daily Papers（社区热门论文）

52

Bag of Dims：通过维度级符号模式实现免训练的机制可解释性

本文提出Transformer隐藏状态的标准基已构成免训练的通用特征基础。每个维度以符号（+/-1）编码语义、幅度编码置信度，可作为独立二进制寄存器。在语言（Qwen 3.5-4B、Gemma 3-4B、Mistral 7B、Qwen3-32B）、视觉（DINOv2、ViT-Base）和音频（AST）共7个模型上验证：仅符号模式可保留60-93% top-5 next-token准确率；单token缓存（一次前向传播，无上下文无标签）通过符号一致性检测175个类别，AUC达0.97-0.99，训练探针仅提升0.018 AUC。特征可因果操作：实时前向传播中翻转符号可抑制对应概念。该结构同样适用于自监督视觉（9/12 ImageNet超类）、监督视觉（11/12）和音频（50/50 ESC-50类别），反映Transformer训练的普遍特性。

arXiv 论文/研究

11:43

HuggingFace Daily Papers（社区热门论文）

精选74

Sumi：从头训练的7B开源均匀扩散语言模型

Sumi（日语“墨”）是一个完全开源的7B参数均匀扩散语言模型，从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当，但在常识推理benchmark上略逊，教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方（含公开语料数据混合说明），为社区提供首个大规模均匀扩散模型的基准参考。

arXiv Hugging Face 开源生态数据/训练

推荐理由：Sumi 是第一个完全从零预训练的大规模均匀扩散语言模型，填补了社区在这方向的研究空白，做扩散语言模型的人终于有个可以摸的起点。

11:14

Hacker News 热门（buzzing.cc 中文翻译）

精选70

cuTile Rust：安全无数据竞争的 GPU 内核系统

cuTile Rust 是一个基于 tile 的 GPU 编程系统，允许用 Rust 编写内存安全、无数据竞争的内核。它通过 #[cutile::module] 宏将内核 AST 嵌入主机二进制，在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。可变张量在启动前分割，不可变张量共享，启动器在 GPU 工作期间保持所有权。在 NVIDIA B200 上，逐元素操作达 7 TB/s（约 91% 峰值带宽），GEMM 达 2 PFlop/s（约 92% 密集 f16 峰值）。基于 cuTile Rust 构建的 Grout 推理引擎在 RTX 5090 上解码 Qwen3-4B 达 171 tokens/s，在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目处于早期研究阶段。

arXiv Hugging Face 开源/仓库开源生态

推荐理由：用Rust的所有权模型保证GPU内核无数据竞争，性能还能达到峰值的92%，这个方向可能是安全GPU编程的未来，系统编程和推理引擎开发者值得一试。

10:43

HuggingFace Daily Papers（社区热门论文）

47

Turing-RL：利用图灵奖励学习用户模拟器

提出Turing-RL，一种基于图灵测试的强化学习方法，用于训练用户模拟器。该方法使用LLM评判器提供判别性图灵奖励，根据用户历史评估生成回复是否与真实用户不可区分，用户模拟器LLM在此奖励下学习产生类似真实用户的回复。在对话聊天和Reddit论坛讨论两个领域，Turing-RL在LLM和人类评估指标上均持续优于基线方法。研究表明，优化不可区分性而非匹配单一真实回复是学习用户模拟器的有效策略。

arXiv 数据/训练论文/研究

09:43

HuggingFace Daily Papers（社区热门论文）

57

RNG-Bench：多模态大语言模型在可控非马尔可夫游戏中的评估基准

RNG-Bench是一个评估多模态大语言模型在闭环交互中重建过去观测并据此行动能力的基准套件，包含Matching Pairs和3D Maze两个互补游戏。基准通过网格大小、视觉模式和观测模态三个难度轴控制复杂度，并引入对决赛制消除实例方差及Memory Gap指标分离遗忘与决策错误。最难配置需约128K tokens上下文和每轮350张图像，前沿模型尚未饱和。Memory Gap分析显示主要错误源于遗忘。微调Qwen3.5-9B可提升该基准性能并迁移至现有基准，不损失通用多模态能力。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

47

DO-ALL：基于数据集蒸馏的持续测试时间适应框架

DO-ALL是一个即插即用的持续测试时间适应（CTTA）框架。部署前通过数据集蒸馏生成少量合成蒸馏锚点，概括源数据分布；适应过程中，每个目标样本与最语义对齐的锚点匹配，借助源回放、表示对齐和流形平滑正则化提供稳定参考。该框架可无缝集成现有CTTA算法，在CIFAR100-C、ImageNet-C和CCC基准上持续提升长期鲁棒性，无需保留原始源数据。代码已开源。

arXiv 开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

MemGUI-Agent：具有主动上下文管理的端到端长时域移动GUI智能体

ReAct风格提示词在长时域移动GUI任务中因被动累积历史导致prompt膨胀和信息稀释。MemGUI-Agent引入ConAct机制，将上下文管理视为与UI动作同策略的一等动作，维护折叠动作历史、折叠UI状态和最近步骤记录三个结构化字段，保持上下文紧凑。基于2956条轨迹的MemGUI-3K数据集对8B模型进行监督训练，得到MemGUI-8B-SFT，在MemGUI-Bench上达到最优8B开放数据性能，并泛化到分布外MobileWorld基准。代码、数据和模型将开源。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Grouped Query Experts：在 GQA 自注意力上的混合专家模型

Grouped Query Experts（GQE）在分组查询注意力（GQA）的每个组内增加混合专家层，由路由器为每个 token 挑选 k 个 query-head 专家激活，而所有 key-value 头保持密集不变。在 250M 参数规模、30B token 预算下，GQE 在下游准确率上与全激活 GQA 基线持平，同时每 token 仅激活一半 query heads，减少了注意力计算量。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

何时、何地、如何：表格自监督学习的自适应分箱

针对医学表格数据标签获取成本高的问题，研究者提出训练自适应离散化预任务Adaptive Binning。该方法将离散化与学习过程耦合，通过特征级粗到细课程逐步细化分箱，并在检测到训练平台期时选择表征感知的分割点，同时优化值空间和表征空间一致性。异质性感知目标统一分类重建与有序监督。在公共医学表格数据集上，线性探测和微调均取得一致提升，无需数据集特定分箱调参。还引入标准化医学表格SSL基准。代码已开源。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

StylisticBias：少数视觉线索主导MLLM社会偏见

StylisticBias 是一个用于评估多模态大语言模型（MLLM）属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸，每张创建约50个单属性变体，共约25K图像，通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中，年龄和体型主导身份层面效应，时尚风格等视觉线索引发最大属性层面偏移；约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。

arXiv Hugging Face 安全/对齐论文/研究

6月17日

11:35

HuggingFace Daily Papers（社区热门论文）

40

ChLogic：中文逻辑推理鲁棒性评估基准

大语言模型在逻辑推理基准上表现良好，但中文环境下的鲁棒性未知。研究团队提出中英文对齐基准ChLogic，包含通用对齐集（60条命题）、困难对齐集（40道难题）及纯中文集（15类语言现象），每个对齐项含一条英文参考和五种中文实现。在Qwen3、Ministral和GLM上的实验显示中英文性能持续存在差距。将中文回译成英文可提升通用集表现，但在困难集上效果混杂，Qwen3-32B和GLM-5.1翻译后性能反而下降。这表明中文实现、翻译伪影和模型特定行为共同影响多语言逻辑推理。

arXiv 推理评测/基准

10:33

HuggingFace Daily Papers（社区热门论文）

50

UniAR：共享语境-视觉分词器是实现统一的关键

UniAR 提出统一多模态自回归框架，用单个离散视觉分词器作为理解与生成的共享桥梁，使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化，保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码，缩短视觉序列长度并加速生成；扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习，UniAR 在图像生成和编辑上达最优，在多模态理解基准上也有竞争力。

arXiv Hugging Face 图像生成多模态

10:33

HuggingFace Daily Papers（社区热门论文）

49

近侧发展区策略优化（ZPPO）：教师知识注入提示词而非梯度

ZPPO将教师模型的知识注入提示词而非策略梯度，避免小模型因全部探索失败而丢弃样本。对困难问题构造二元候选问题（BCQ）让学生区分正确与错误回答，及负候选问题（NCQ）聚合错误模式；提示回放缓冲区循环困难问题直至达标或淘汰。在Qwen3.5系列0.8B至9B学生搭配27B教师，经视觉语言模型后训练并在31项基准测试中评估，ZPPO全面优于离策略/在策略蒸馏和GRPO，最小规模提升最大。

arXiv 推理数据/训练论文/研究

10:33

HuggingFace Daily Papers（社区热门论文）

51

LoopCoder-v2：仅循环一次实现高效测试时计算扩展

LoopCoder-v2 是一族 7B 参数的并行循环 Transformer（PLT）代码模型，从零在 18T tokens 上预训练。与无循环基线相比，两循环变体在代码生成、推理、智能体软件工程和工具使用基准上广泛提升，SWE-bench Verified 从 43.0 到 64.4，Multi-SWE 从 14.0 到 31.0。三循环及以上变体性能下降，揭示循环计数的非单调效应：循环 2 提供主要改进，后续循环产生递减振荡更新，而 CLP 引入的位置偏移代价固定，导致两循环饱和。

arXiv 推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

用马氏余弦相似度比较线性探针

线性探针常通过余弦相似度比较，马氏余弦相似度（MCS）利用测试数据协方差重新加权内积，是一种任务感知改进。Ying等人（2026）发现探针的MCS与分布外（OOD）参考探针MCS近乎完美线性预测OOD AUROC（R²=0.98）。本文将这一发现扩展到不同模型、层和概念域，并证明在投影为高斯分布的平衡类中，OOD AUROC与参考探针MCS呈线性关系，两者均为探针在测试数据上信噪比的sigmoid函数。理论还预测并实验验证了线性失效的条件。MCS为比较线性探针提供了兼具理论和实证效果的替代方案。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

网络规模LLM预训练语料库叙事特征研究--基于Dolma与NarraBERT

首个针对网络规模LLM预训练语料库叙事特征的细粒度研究。以3万亿token的开放语料库Dolma为对象，基于叙事理论设计涵盖主体、场景、事件3个核心要素的11个可解释维度框架。通过采样并标注400段文本，微调并验证了基于RoBERTa的NarraBERT模型。将NarraBERT应用于300万段落，生成新数据集NarraDolma。研究发现：叙事结构可在海量异构数据中测量，网络文本呈现连续多维度叙事结构，且叙事质量在预训练数据源和主题间分布不均。NarraDolma和NarraBERT已公开。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

GateMem：多主体共享记忆智能体的记忆治理基准

GateMem 是一个针对多主体共享记忆智能体的基准，联合评估长期多步请求的效用、上下文访问控制与主动遗忘。测试覆盖医疗、办公、教育和家庭四个领域，包含长篇幅多方对话、增量记忆注入、隐藏检查点与结构化判分。对多种基线和骨干模型的实验表明，没有方法能同时实现强效用、鲁棒访问控制和可靠遗忘。长上下文提示词治理分数最高但 token 成本极高；检索与外部记忆方法成本较低，却仍会泄露未经授权或已删除的信息。当前记忆智能体远未达到在共享机构中可靠部署的要求。

智能体 arXiv 安全/对齐论文/研究

123 4…19