6月30日

11:26

HuggingFace Daily Papers（社区热门论文）

Nemotron-Labs-Diffusion-Image：掩蔽离散扩散模型的文本到图像合成

Nemotron-Labs-Diffusion-Image是一种用于高分辨率文本到图像合成的掩蔽离散扩散模型（MDM）。它引入token编辑机制，使推理时能动态修改已揭开的离散token，弥补标准MDM缺乏自纠正能力的缺陷；提出分组交叉熵（GCE）目标函数，为嵌入空间中邻近真实token的相邻token分配正学习信号，缓解大词汇量离散图像tokenizer带来的训练信号稀疏问题。同时实现针对GCE的自定义融合操作符，显著降低大词汇量场景下的显存占用。实验结果显示，该模型在GenEval上得分为0.90，DPG 86.9，HPSv3 10.76。

图像生成数据/训练论文/研究

11:26

HuggingFace Daily Papers（社区热门论文）

Orca：一个通用世界基础模型

Orca通过下一状态预测（Next-State-Prediction）统一建模多模态世界信号，学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注，包含无意识学习（连续视频中的密集自然状态转换）和有意识学习（语言描述事件和VQA监督下的稀疏状态转换）。冻结主干后，仅训练轻量级模态特定解码器，即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。

arXiv 具身智能多模态论文/研究

10:26

HuggingFace Daily Papers（社区热门论文）

GUICrafter：利用海量未标注截图的弱监督GUI智能体

GUICrafter是一个弱监督GUI智能体，通过两阶段课程学习框架降低对人工标注的依赖：阶段1利用大规模未标注截图和网页学习视觉定位，阶段2使用少量高质量数据通过强化学习校准。实验显示，GUICrafter仅使用UI-TARS 0.1%的数据即达到与之竞争甚至更优的性能；在相同标注数据量下，其表现超越所有先前方法（如GUI-R1）。代码、数据和模型已开源。

智能体数据/训练论文/研究

09:35

elvis@omarsar0

Qwen 新研究：编码智能体奖励设计的"地平线"问题

Qwen 发布关于强化学习编码智能体的新工作，指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹，发现每种信号都存在一个“地平线”：超出该界限后，信号不再跟踪真实正确性，而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题，指标的选择不如它能持续跟踪正确性的时长重要。

智能体 arXiv 推理论文/研究

08:06

小互@xiaohu

Meta发布无创脑机接口Brain2Qwerty v2，字词准确率达61%

Meta 发布 Brain2Qwerty v2，无需手术植入，仅佩戴 MEG（脑磁图）头盔即可将大脑磁信号实时解码为连贯句子。字词准确率达 61%，约为其他无创脑机接口方法（8%）的 7.6 倍；最佳参与者达 78%，超半数句子只差一个词。Meta 称这是目前性能最高的非侵入式脑机接口系统。

Meta 多模态论文/研究