4月19日

08:00

HuggingFace Daily Papers（社区热门论文）

Terminal Wrench：331个可奖励作弊环境与3632条攻击轨迹数据集

研究团队发布Terminal Wrench数据集，收录331个可奖励作弊的终端智能体基准环境及3632条攻击轨迹，覆盖Claude Opus 4.6等三款前沿模型。任务涵盖系统管理、机器学习等领域，攻击手段包括输出欺骗、栈帧内省及二进制劫持。可监控性研究显示，移除思维链后LLM裁判检测准确率下降（AUC从0.97降至0.92）。数据集已开源。

智能体 arXiv Hugging Face 数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

当背景关键时：利用可迁移攻击攻破医学视觉语言模型

研究人员提出名为 MedFocusLeak 的高可迁移性黑盒多模态攻击方法，通过在非诊断性背景区域注入协调扰动并运用注意力分散机制，使医学视觉语言模型生成错误但临床可信的诊断。该方法在六种医学影像模态的测试中达到最先进的攻击成功率，且保持扰动不可察觉。研究同时引入统一评估框架与新指标，揭示了现代临床视觉语言模型推理能力的关键缺陷。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

连续性层：智能为何需要架构来延续其理解

该立场文件提出"连续性层"是AI领域尚未构建的关键基础设施，旨在解决当前模型跨会话"健忘"的架构缺陷。作者指出智能的瓶颈不在于模型规模，而在于缺乏传承理解的机制。论文定义了连续性的七大系统特征，提出"分解轨迹收敛记忆"存储原语，通过写入时分解与读取时重建实现持续认知，并关联ATANT基准测试（基于250个故事语料库）。这项工作试图建立超越传统记忆API的持续性智能架构。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HSG：双曲场景图（Hyperbolic Scene Graph）

针对现有场景图方法在欧几里得空间难以显式建模层次化关系的问题，研究团队提出Hyperbolic Scene Graph（HSG），将嵌入学习映射至双曲空间，通过几何距离自然编码层次结构。实验显示，HSG在图级别指标上提升显著：Graph IoU达33.51，PP IoU达33.17，较最佳AoMSG变体（25.37）提高8.14，在保持检索性能的同时显著改善层次结构质量。代码已开源。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillFlow：面向自主智能体的终身技能发现与演化基准测试

SkillFlow 基准测试包含166个跨20个任务家族的任务，通过智能体终身学习协议评估自主智能体从零发现、修补和维持技能库的能力。实验显示，Claude Opus 4.6 通过终身技能演化将任务成功率从62.65%提升至71.08%，而 Kimi K2.5 尽管技能使用率高达66.87%却只提升0.60个百分点，Qwen-Coder-Next 完成率仅44.58%且相对基线出现退化，揭示技能使用率与实用性之间存在显著落差。

智能体 Anthropic arXiv 论文/研究

4月18日

08:00

HuggingFace Daily Papers（社区热门论文）

面向EEG基础模型的测试时自适应：真实分布偏移下的系统研究

研究团队发布NeuroAdapt-Bench基准，系统评估测试时自适应（TTA）在EEG基础模型上的实际表现。实验覆盖多种预训练模型、下游任务及异构数据集（含Ear-EEG等极端模态偏移）。结果显示，标准TTA方法性能提升不稳定且常导致模型退化，梯度方法退化尤为严重；而无优化方法表现出更强稳定性和可靠性。该研究揭示了现有TTA技术在脑电信号处理中的局限性，强调需开发领域特定的自适应策略。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

确定性幻觉：解耦在线策略蒸馏中的能力与校准

研究发现在线策略蒸馏（OPD）在提升任务准确率的同时，会系统性导致模型过度自信，形成"错误校准的缩放定律"。该问题源于训练时教师模型的特权上下文与部署时信息的不匹配。为此提出 CaOPD 框架，通过模型 rollout 估计经验置信度，并以学生基础目标替代自报告置信度进行蒸馏。实验表明，CaOPD 在保持模型竞争力的同时实现帕累托最优校准，且在分布外和持续学习场景下稳健泛化。

arXiv 数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

GenericAgent：基于上下文信息密度最大化的Token高效自我进化LLM智能体

GenericAgent（GA）提出上下文信息密度最大化原则，解决长程LLM Agent中冗余信息挤占决策空间的瓶颈。系统通过最小原子工具集、分层按需记忆、自我进化机制（将验证轨迹转化为可复用SOP与可执行代码）及上下文截断压缩层，在有限上下文预算内维持关键决策信息。实验表明，GA在任务完成、工具效率及网页浏览等维度持续优于主流Agent系统，显著降低Token与交互消耗，并具备随时间持续进化的能力。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

超越文本主导：理解全模态大语言模型的模态偏好

研究团队针对原生全模态大语言模型（OLLMs）的模态偏好现象，构建了冲突基准测试并提出模态选择率指标，对10个代表性模型进行系统评估。结果发现与传统视觉语言模型的"文本主导"不同，多数OLLMs呈现显著视觉偏好，且通过逐层探测证实该偏好是在中后层逐渐涌现而非静态存在。基于这一机制，团队利用内部信号诊断跨模态幻觉，在三个多模态基准测试中取得竞争性表现，无需任务特定数据。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MNAFT：面向图像翻译的多模态大语言模型模态神经元感知微调

针对多模态大语言模型在图像翻译中难以捕捉细粒度文本信息的问题，本文提出模态神经元感知微调方法MNAFT。该方法通过指令驱动的激活分析，识别视觉与语言模块中的语言无关及语言特定神经元，选择性更新与目标任务相关的神经元参数，同时保留其他预训练知识。实验表明，MNAFT在多个基准测试中显著优于级联模型、标准全量微调及现有参数高效微调方法，有效缩小了视觉文本与文本间的模态差距。

arXiv 多模态数据/训练论文/研究

05:44

Rohan Paul@rohanpaul_ai

AGI新定义：不仅是人类水平AI，更是人工科学家

一篇论文提出，智能的本质是在计算、内存和能源限制下的适应性。据此，AGI被定义为至少能像人类科学家一样普遍适应的系统，需具备规划实验、学习因果关系、平衡探索与行动及自主操作的能力。论文将这种AGI称为 artificial scientist，强调其评判标准在于跨任务发现与适应能力，而非通过类人测试。作者指出，AGI并非简单的"人类水平AI"，而是能够广泛、高效且科学地进行适应的完整系统。

arXiv 推理论文/研究

4月17日

23:55

HuggingFace Daily Papers（社区热门论文）

超越提示：面向分布外形状的无条件3D反演

当前最先进的文本到3D生成模型存在"潜在汇点陷阱"：模型在特定区域对文本提示修改不敏感，导致无法通过改变输入文本来调整输出几何。这并非几何表达能力不足，而是对分布外文本指导的敏感性缺失。研究提出利用模型无条件生成先验，将几何表示与语言敏感性解耦以绕过该陷阱，实现了对分布外3D形状的高保真语义编辑，突破了现有3D流水线的局限性。

arXiv 图像生成多模态论文/研究

21:55

HuggingFace Daily Papers（社区热门论文）

基于最优传输的在线增量学习潜在空间动态构建方法

针对在线增量学习中数据分布持续偏移、旧样本重放价值有限的挑战，研究者提出基于最优传输理论的在线混合模型学习框架（MMOT）。该方法摒弃传统单一或多固定类质心表示，使质心随新数据流增量演化，从而更精确刻画多模态复杂数据分布，并提升对未见样本的类相似度估计精度。同时，动态保持策略通过调节潜在空间维持类间可分离性，有效缓解灾难性遗忘。实验验证表明，该方法在基准数据集上具有显著优势。

arXiv 数据/训练论文/研究

21:02

HuggingFace Daily Papers（社区热门论文）

基于LLM的密集检索器鲁棒性研究：泛化性与稳定性系统分析

本文首次系统研究开源LLM密集检索器的鲁棒性，从泛化性与稳定性双维度，在覆盖30个数据集的4项基准上评估。发现指令微调模型虽整体优异，但针对复杂推理优化的模型存在"专业化税"，泛化能力受限。稳定性测试表明，LLM检索器对拼写错误和语料库投毒攻击比仅编码器基线更鲁棒，但对同义词替换等语义扰动仍敏感。嵌入几何结构（如角度均匀性）可预测词汇稳定性，且扩大模型规模通常能提升鲁棒性。

arXiv Hugging Face 检索增强论文/研究

18:53

HuggingFace Daily Papers（社区热门论文）

RadAgent：用于逐步解读胸部CT的工具使用型AI智能体

研究团队推出RadAgent，一款用于胸部CT解读的工具使用型AI智能体。该系统通过逐步推理生成报告，提供可审查的决策轨迹与工具交互记录。相比3D VLM基线CT-Chat，其临床准确性macro-F1提升6.0分（36.4%）、micro-F1提升5.4分（19.6%），对抗鲁棒性提升24.7分（41.9%），并首次实现37.0%的忠实度指标，显著提升了放射学AI的透明度与可靠性。

智能体 arXiv 多模态论文/研究

17:53

HuggingFace Daily Papers（社区热门论文）

无需检索，只需导航：将企业知识蒸馏为可导航的 Agent 技能用于 QA 和 RAG

Corpus2Skill 通过迭代聚类与分层摘要生成，将企业文档语料库离线蒸馏为树状可导航技能目录，使 LLM 智能体在 serving 时能够全局浏览语料结构、主动深入主题分支并回溯优化检索路径，实现从被动消费证据到主动导航探索的范式转变。在 WixQA 企业客服基准测试中，该系统在所有质量指标上均超越密集检索、RAPTOR 及 agentic RAG 基线。

智能体 arXiv 检索增强论文/研究

10:53

HuggingFace Daily Papers（社区热门论文）

RAD-2：基于生成器-判别器框架的强化学习规模化方法

RAD-2 提出了一种面向自动驾驶闭环规划的生成器-判别器框架，通过扩散模型生成多样化轨迹候选，并利用强化学习优化的判别器进行重排序。该方法引入时序一致性组相对策略优化与在线生成器优化技术，结合 BEV-Warp 高吞吐量仿真环境实现大规模训练。相比现有扩散规划器，RAD-2 将碰撞率降低 56%，并在真实场景部署中显著提升了驾驶安全性与平稳性。

arXiv 具身智能论文/研究

10:53

HuggingFace Daily Papers（社区热门论文）

LeapAlign：通过构建两步轨迹实现流匹配模型在任意生成步骤的后训练

研究人员提出LeapAlign微调方法，通过将长生成轨迹压缩为两步连续跳跃（leap）解决流匹配模型后训练中反向传播的梯度爆炸与内存瓶颈问题。该方法随机化跳跃起止时间步以支持任意生成步骤的直接梯度更新，并对高一致性轨迹分配更高权重、对大幅梯度项降权处理以增强稳定性。在Flux模型上的实验表明，该方法在图像质量和图文对齐等指标上持续优于GRPO及直接梯度等现有方法。

arXiv 图像生成数据/训练论文/研究

10:53

HuggingFace Daily Papers（社区热门论文）

UniDoc-RL：基于层次化动作与密集奖励的由粗到细视觉RAG

针对现有视觉RAG系统忽略细粒度视觉语义的问题，本文提出UniDoc-RL统一强化学习框架。该方法将视觉信息获取建模为层次化顺序决策过程，通过从粗粒度文档检索到细粒度图像选择再到主动区域裁剪的渐进式策略，使大型视觉语言模型智能体联合执行检索、重排序与推理。引入密集多奖励方案为每个动作提供任务感知监督，并基于GRPO算法实现端到端训练而无需价值网络。在三个基准测试中，该方法相比现有基于RL的方法性能提升最高达17.7%。

智能体 arXiv 检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

良性微调打破音频大语言模型的安全对齐

首次系统研究表明，对音频大语言模型进行良性微调会严重破坏安全对齐，使越狱成功率（JSR）从个位数飙升至87.12%。通过分解嵌入空间接近性的语义与声学维度，发现脆弱性取决于模型架构如何处理音频输入。研究提出两种防御措施：基于嵌入距离的数据过滤和推理时文本系统提示，均无需修改架构即可将JSR降至接近零。机制分析揭示，微调选择性抑制了晚期拒绝电路，而冻结编码器保留了原始表示。

arXiv 论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

MTR-DuplexBench：面向全双工语音语言模型多轮对话的综合评估基准

研究团队发布 MTR-DuplexBench 基准，首次系统评估全双工语音语言模型（FD-SLMs）的多轮对话能力。该基准将连续对话切分为离散回合，涵盖对话特征、对话质量、指令遵循和安全性四个维度。实验表明，当前 FD-SLMs 在多轮交互中性能波动明显，难以保持上下文一致性。相关代码和数据已开源。

arXiv 论文/研究评测/基准语音

08:00

HuggingFace Daily Papers（社区热门论文）

后训练中输出多样性在何处崩溃？

研究团队通过Olmo 3的三个后训练谱系（Think、Instruct、RL-Zero）追踪输出多样性变化。发现多样性崩溃与数据组成密切相关：Think在监督微调阶段损失大部分语义多样性，DPO对Instruct影响更大。抑制Think模型的思维链推理虽降低准确率但不改变多样性，证明崩溃由训练数据嵌入权重导致。在可验证任务中，Think虽总体崩溃更多但保留更多正确答案多样性。研究表明多样性崩溃由训练数据组成决定，无法仅靠推理时间解决。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TwinTrack：面向医学图像分割的后验多标注者校准

胰腺导管腺癌CT分割存在专家标注分歧，标准深度学习假设单一真值导致概率校准失真。TwinTrack框架通过将集成分割概率校准至经验平均人类响应(MHR)，使输出概率可直接解释为标注肿瘤的专家比例，显式量化标注不确定性。该方法仅需少量多标注者校准集，在MICCAI 2025 CURVAS-PDACVI基准上持续改进校准指标，为医学影像分割提供可解释的不确定性建模方案。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重新利用3D生成模型进行自回归布局生成

研究团队推出LaviGen框架，将3D生成模型重新用于3D布局生成。该方法突破传统文本推断模式，直接在原生3D空间通过自回归过程显式建模物体几何关系与物理约束，生成连贯且符合物理规律的3D场景。团队还提出融合场景、物体与指令信息的改进版3D扩散模型，并采用双引导自推出蒸馏机制提升效率与空间精度。在LayoutVLM基准测试中，LaviGen的物理合理性较现有最优方法提升19%，计算速度加快65%。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ArtifactNet：基于物理伪影提取的AI音乐检测方法

研究团队提出轻量级框架ArtifactNet，通过提取神经音频编解码器遗留的物理伪影识别AI音乐。该框架采用3.6M参数UNet提取残差并分解为7通道特征，经0.4M参数CNN分类，总参数量仅4.0M。配套发布含6,183首曲目的ArtifactBench基准（涵盖22个AI生成器）。在2,263首测试集上，该方法取得F1=0.9829、FPR=1.49%，远超CLAM等方法，参数量仅为其1/49。多格式增强训练使跨编解码器概率漂移降低83%。

arXiv 安全/对齐论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

VEFX-Bench：通用视频编辑与视觉效果的综合基准

研究团队发布VEFX-Dataset、VEFX-Reward和VEFX-Bench三项成果，构建视频编辑标准化评估体系。数据集包含5,049个人工标注示例，覆盖9类32子类，从指令遵循、渲染质量、编辑排他性三维度标注。奖励模型通过序数回归预测各维度质量分数，比通用视觉语言模型更符合人类判断。基准测试含300个样本，评估显示当前编辑系统在视觉合理性与指令遵循方面仍存在明显差距。

arXiv 数据/训练视频论文/研究

03:44

Rohan Paul@rohanpaul_ai

研究显示AI辅助提升表现却削弱独立思考

MIT、牛津及卡内基梅隆等机构联合研究发现，AI辅助虽能短期提升任务表现，却会损害用户独立解决问题的能力。针对GPT-5的实验涉及约1,200名参与者，结果显示获取直接答案的用户在停用AI后表现出更低的坚持性，更容易放弃难题。研究指出，技能培养依赖于与困难的反复接触而非仅获得正确答案，将AI用作提示系统而非答案生成器，可有效避免这一问题。

arXiv 论文/研究

4月16日

21:49

HuggingFace Daily Papers（社区热门论文）

面向流式3D重建的几何上下文Transformer

研究团队发布LingBot-Map，一款基于几何上下文Transformer（GCT）的流式3D重建基础模型。其创新注意力机制整合锚点上下文、姿态参考窗口与轨迹记忆，分别实现坐标定位、密集几何线索提取和长程漂移校正。该系统在518×378分辨率输入下保持约20 FPS的推理速度，可稳定处理超10,000帧的长序列，且流式状态紧凑。多项基准测试表明，其性能优于现有流式及迭代优化方法。

arXiv 具身智能多模态论文/研究

13:47

HuggingFace Daily Papers（社区热门论文）

记忆迁移学习：编程智能体中的跨域记忆迁移机制

研究人员提出记忆迁移学习方法，利用跨异构域的统一记忆池突破编程智能体的单域限制。在6个代码基准测试中，跨域记忆平均提升性能3.7%，主要转移元知识（如验证例程）而非任务特定代码。研究表明抽象程度决定可迁移性：高层洞察泛化良好，低层轨迹因过度具体常引发负迁移。迁移效果随记忆池规模扩大而提升，且记忆可在不同模型间转移。该研究为跨域记忆利用确立了经验设计原则。

智能体 arXiv 编码论文/研究

11:47

HuggingFace Daily Papers（社区热门论文）

MERRIN：嘈杂网络环境中的多模态证据检索与推理基准

研究团队发布MERRIN基准，评估搜索增强智能体在嘈杂网络环境中的多模态证据检索与推理能力。该基准涵盖视频、音频等未充分探索模态，要求智能体在无明确模态提示的查询下检索复杂且常含噪声或冲突的证据。测试显示，10个模型（包括GPT-5.4-mini、Gemini 3/3.1及Qwen3系列）平均准确率仅22.3%，最佳达40.1%。研究发现，强智能体虽表现更优，但因过度探索导致资源消耗高而准确率提升有限，且相比人类存在信源选择低效和过度依赖文本模态的问题。

智能体 arXiv 检索增强多模态

10:47

HuggingFace Daily Papers（社区热门论文）

ROSE：面向检索的分割增强

研究团队提出即插即用框架ROSE，通过引入互联网检索增强生成、文本与视觉提示增强及WebSense智能调度四大模块，解决多模态大语言模型在分割训练数据外新颖实体与需实时信息新兴实体时的知识滞后问题。同步构建的NEST基准测试用于评估此类场景。实验显示，ROSE在NEST基准上较Gemini-2.0 Flash检索基线提升19.2 gIoU，显著增强模型对实时网络信息的利用能力。

arXiv Hugging Face 检索增强多模态

10:47

HuggingFace Daily Papers（社区热门论文）

UI-Zoomer：面向 GUI Grounding 的不确定性驱动自适应放大方法

UI-Zoomer是一种无需训练的自适应放大框架，通过不确定性量化优化GUI定位任务。该方法利用置信度感知门控机制仅在定位不确定时触发放大，并基于方差分解动态计算每实例的裁剪半径，替代传统的固定尺寸统一裁剪。在ScreenSpot-Pro、UI-Vision和ScreenSpot-v2基准测试中，该方法分别实现最高13.4%、10.3%和4.2%的精度提升，显著改善小图标与密集布局的定位效果。

智能体 arXiv 多模态论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

SpatialEvo：基于确定性几何环境的自进化空间智能

针对3D空间推理标注成本高及自进化方法因模型共识导致几何错误累积的问题，本文提出SpatialEvo框架。该框架利用3D几何确定性特质，通过确定性几何环境（DGE）将无标注点云转化为零噪声训练信号，以客观物理反馈替代模型共识。单一共享参数策略在提问者与求解者角色间协同进化，结合任务自适应调度器动态聚焦薄弱类别。实验表明，3B和7B参数模型在9个基准测试中均获最高平均分，显著提升空间推理能力且不损害通用视觉理解。

arXiv 具身智能推理论文/研究

09:47

HuggingFace Daily Papers（社区热门论文）

前馈式 3D 场景建模：一种问题驱动的研究视角

针对前馈 3D 重建领域，该研究提出了一种独立于输出表示形式的模型设计分类体系。通过剥离隐式场与显式基元等几何表示的差异，现有方法被重新组织为五个核心问题：特征增强、几何感知、模型效率、增强策略与时序感知建模。研究系统梳理了领域基准数据集与评估标准，分类探讨了实际应用场景，并指出可扩展性、统一评估规范及世界建模等未来挑战。

arXiv 具身智能论文/研究

09:43

Rohan Paul@rohanpaul_ai

GitHub六百万（疑似）伪造星标：popularity contests、spam与malware的恶性循环

研究识别出GitHub上600万个疑似伪造星标，涉及18,617个仓库。2024年此类活动激增，大量被用于钓鱼、垃圾信息及恶意软件传播，重灾区集中在AI、区块链等领域。检测通过分析一次性账户和"同步"爆发等行为特征实现。假星标虽能在短期内带来真实关注，但长期效应为负，无法弥补内容匮乏。当星标这类易见的社交信号被当作信任基础设施，攻击者只需制造瞬间可信性即可实施攻击，这对开源生态构成系统性威胁。

arXiv GitHub 开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RE-Edit：面向推理感知图像编辑的多维度基准测试

RE-Edit 是一个评估图像编辑系统隐式推理能力的多维度基准，包含五个推理维度（物理、环境、文化、因果、指代）和 1,000 个精心设计的样本。研究测试了十种开源和两种商用图像编辑模型，发现即使先进系统在满足隐含逻辑约束时也经常失败，尽管能生成高质量视觉内容。论文还提出了一种轻量级推理引导后编辑基线，初步探索了显式推理在模型无关方式下缓解此类错误的可能性。

arXiv 图像生成多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

WavAlign：通过自适应混合后训练增强语音对话模型的智能与表现力

研究团队提出WavAlign方法，针对端到端语音对话模型智能与表现力不足的问题，设计了模态感知自适应后训练方案。该方法将偏好更新约束至语义通道，通过显式锚定改善声学行为，并基于rollout统计动态调节混合比例以避免不可靠梯度。在多个语音对话基准测试及代表性架构上的评估显示，模型在语义质量和语音表现力方面均获得一致提升。

arXiv 多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

QuantCode-Bench：评估大语言模型生成可执行算法交易策略能力的基准测试

研究团队发布QuantCode-Bench基准测试，用于评估大语言模型基于英文描述为Backtrader框架生成可执行算法交易策略的能力。该基准包含400个来自Reddit、TradingView等平台的真实任务，通过多阶段流水线评估语法正确性、回测执行、交易生成及语义对齐。测试显示，当前模型在单轮和多轮智能体设置下的主要失败模式并非语法错误，而是交易逻辑操作化、专用API使用及任务语义遵循方面的缺陷。

智能体 arXiv 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EdgeDetect：面向联邦入侵检测的重要性感知梯度压缩与同态聚合

EdgeDetect面向6G-IoT带宽受限环境，提出一种通信高效且隐私感知的联邦入侵检测方案。其核心创新"梯度智能化"通过基于中位数的统计二值化将梯度压缩为{+1,-1}表示，使上行负载降低32倍，并集成Paillier同态加密抵御梯度推断攻击。在CIC-IDS2017数据集（280万流，7类攻击）上，系统实现98.0%准确率和97.9%宏F1分数，通信开销从450MB/轮降至14MB（减少96.9%）。树莓派4实测显示单次推理仅需4.2MB内存、0.8ms延迟及12mJ能耗，准确率损失不足0.5%；即便面临5%投毒攻击，仍保持87%准确率与0.95少数类F1值。

arXiv 数据/训练端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

一维有序token实现高效测试时搜索

本文探讨token结构对自回归模型测试时搜索能力的影响。研究表明，采用粗到细结构的一维有序token其中间状态具备可验证的语义意义，使验证器能有效引导生成，显著优于传统二维网格结构。实验显示，基于此类token训练的模型在测试时扩展行为上表现更佳。此外，研究实现了无需训练AR模型的纯测试时搜索文本到图像生成，并系统分析了best-of-N、束搜索等经典算法与不同token结构的交互机制，为自回归模型的推理时扩展提供了实践指导。

arXiv 图像生成推理论文/研究