AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1191 条
全部一手资讯X论文
标签「推理」清除
5月13日周三
08:00HuggingFace Daily Papers(社区热门论文)62CurveBench:一个用于嵌套Jordan曲线精确拓扑推理的基准测试集
08:00HuggingFace Daily Papers(社区热门论文)70精选通过简单统一的扩展实现奥赛金牌级推理
07:53Simon Willison 博客66LLM 命令行工具发布 0.32a2 alpha 版本
07:39IT之家(RSS)55SiFive 推出 Performance P570 Gen 3 内核:RVA23 完整合规,性能显著改进
05:44HuggingFace Daily Papers(社区热门论文)66GridProbe:面向长视频视觉语言模型的自适应测试时计算后验探测
05:44HuggingFace Daily Papers(社区热门论文)62揭示策略蒸馏:何处有益、何处有害及原因
02:44HuggingFace Daily Papers(社区热门论文)51PlantMarkerBench:一个用于评估基于文献的植物标记基因推理能力的多物种基准
5月12日周二
19:36IT之家(RSS)38国产 AI 游戏《历史模拟器:崇祯》"本体买断、词元收费"引争议,官方回应称将开放自行接入模型
17:36IT之家(RSS)58"全球最强算力":李想官宣公司自研马赫 M100 芯片,理想 L9 Livis 首发
16:44HuggingFace Daily Papers(社区热门论文)65SlimSpec:用于加速推测解码的低秩草稿模型LM-Head
16:44HuggingFace Daily Papers(社区热门论文)62TMAS:通过多智能体协同扩展测试时计算
15:44HuggingFace Daily Papers(社区热门论文)59DECO:面向终端设备的稀疏混合专家模型,实现媲美稠密模型的性能
11:44HuggingFace Daily Papers(社区热门论文)67叛逆学生:通过反转教师信号实现自蒸馏推理探索
11:36IT之家(RSS)65AMD 推出 vLLM-ATOM 插件,加速 DeepSeek、Kimi 等 AI 推理性能
09:36IT之家(RSS)62苹果连发 3 项 AI 研究,推进空间计算与 Vision Pro 头显方向
08:25Hacker News 热门(buzzing.cc 中文翻译)59Interfaze:一种专为大规模高精度而构建的新型架构模型
08:00HuggingFace Daily Papers(社区热门论文)32代码引导推理协议评估小语言模型的可执行推理脚手架
08:00HuggingFace Daily Papers(社区热门论文)50基于点互信息的推理强化学习反自蒸馏方法
08:00HuggingFace Daily Papers(社区热门论文)48HölderPO:一种基于Hölder均值的政策优化框架
08:00HuggingFace Daily Papers(社区热门论文)51PreScam:基于早期对话预测诈骗进展的基准测试
08:00HuggingFace Daily Papers(社区热门论文)55大语言模型推理中的自适应教师暴露自我蒸馏方法
08:00HuggingFace Daily Papers(社区热门论文)63AI CFD科学家:利用物理感知AI智能体实现开放式计算流体动力学发现
08:00HuggingFace Daily Papers(社区热门论文)70精选Learning to Explore: 通过探索感知策略优化扩展智能体推理能力
08:00HuggingFace Daily Papers(社区热门论文)73精选Learning Agentic Policy from Action Guidance
08:00HuggingFace Daily Papers(社区热门论文)56基于文本-表格建模的陌生AI智能体决策预测方法
08:00HuggingFace Daily Papers(社区热门论文)69ShapeCodeBench: 一个用于合成形状场景感知到程序重建的可再生基准
08:00HuggingFace Daily Papers(社区热门论文)64Orthrus:基于双视图扩散的内存高效并行令牌生成
08:00HuggingFace Daily Papers(社区热门论文)62观点:应将大语言模型推理评估为"能量到Token的生产过程"
03:18Tomer Tunguz 博客(VC 分析)67精选本地模型处理半数日常任务,响应速度优于云端
00:35IT之家(RSS)72精选菲尔兹奖得主亲测 ChatGPT 5.5 Pro:17 分钟出论文级成果,替学生拉响红色警报
5月11日周一
09:34IT之家(RSS)78精选消息称 AI 芯片企业 Cerebras IPO 获 20+ 倍超额认购,拟调升发行价近三成
08:34IT之家(RSS)57慧荣科技总经理苟嘉章预警:NAND 闪存缺货潮或延续至 2028 年
08:00HuggingFace Daily Papers(社区热门论文)55无监督过程奖励模型
08:00HuggingFace Daily Papers(社区热门论文)54MemReread:通过记忆引导重读增强智能体长上下文推理能力
08:00HuggingFace Daily Papers(社区热门论文)61EVOCHAMBER:多智能体测试时协同进化框架
08:00HuggingFace Daily Papers(社区热门论文)71精选IndustryBench:探究大语言模型的工业知识边界
08:00HuggingFace Daily Papers(社区热门论文)57策略蒸馏的多重困境:失效机制与修复方案
08:00HuggingFace Daily Papers(社区热门论文)68教语言模型用代码思考
5月10日周日
08:00HuggingFace Daily Papers(社区热门论文)55LEAD:面向大语言模型的长度高效自适应动态推理
08:00HuggingFace Daily Papers(社区热门论文)52SeePhys Pro:诊断物理推理多模态RLVR中的模态迁移与盲训练效应
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月13日
08:00
HuggingFace Daily Papers(社区热门论文)
62
CurveBench:一个用于嵌套Jordan曲线精确拓扑推理的基准测试集

CurveBench是一个视觉层次拓扑推理基准,包含756张互不相交的Jordan曲线图像,涵盖五种配置。每张图像标注了编码区域包含关系的根树,任务要求模型根据图像恢复完整的根包含树。尽管任务看似简单,但最强模型Gemini 3.1 Pro在简易集上树生成准确率仅71.1%,在困难集上仅为19.1%。通过对Qwen3-VL-8B模型进行RLVR风格微调,其在简易集上的准确率从2.8%提升至33.3%,超过了GPT-4o和Claude Opus。现有模型尤其在困难集上的巨大差距表明,精确的拓扑感知视觉推理问题尚未解决。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
通过简单统一的扩展实现奥赛金牌级推理

本文提出一种将预训练推理模型转化为严格奥赛求解器的统一方法。该方法首先采用反向困惑度课程进行监督微调,以灌输严谨的证明搜索与自我检查行为;随后通过两阶段强化学习流程扩展这些能力,最终结合测试时扩展提升性能。基于此方案训练的30B参数模型SU-01,在仅使用约34万条短轨迹微调和200步强化学习后,能稳定处理超过10万token的长轨迹难题,并在IMO、USAMO、IPhO等数学与物理奥赛中达到金牌级表现,同时展现出向数学物理之外科学领域的强推理泛化能力。

arXiv推理数据/训练论文/研究

推荐理由:IMO 金牌级推理模型又多了一个,SU-01 的方法干净统一,特别在超长推理链上的稳定性是真正突破,做推理模型训练和竞赛级 AI 的可以认真读一下。
07:53
Simon Willison 博客
66
LLM 命令行工具发布 0.32a2 alpha 版本

LLM 命令行工具发布了 0.32a2 alpha 版本。本次更新的核心是,大多数具备推理能力的 OpenAI 模型将改用新的 /v1/responses API 端点,替代原有的 /v1/chat/completions 端点。这一变更为 GPT-5 级别的模型启用了跨工具调用的交错推理能力。现在,用户在使用 OpenAI 模型运行提示词时,可以看到以不同颜色高亮显示的、经过汇总的推理令牌。如果不想显示这些推理信息,可以使用 -R 或 --hide-reasoning 标志来隐藏。

OpenAI产品更新开源/仓库推理
07:39
IT之家(RSS)
55
SiFive 推出 Performance P570 Gen 3 内核:RVA23 完整合规,性能显著改进

SiFive发布Performance P570 Gen 3 CPU IP内核,这是目前功能最强、效率最高的乱序执行RISC-V处理器内核,面向边缘AI、高端消费电子和商用物联网。该内核完全符合RISC-V RVA23配置文件,采用3发射、13级全乱序流水线,集成128位向量单元,已在台积电12nm和3nm节点验证。相比前代P550 Gen 1,其在SPECint 2017测试中IPC提升13%,动态功耗降低13%;在Geekbench AI工作负载中IPC实现翻倍;借助专用点积指令,特定物体检测任务性能较Gen 1提升21倍。同时,SiFive为无需向量单元的客户提供了Performance P550 Gen 3版本。

产品更新推理端侧
05:44
HuggingFace Daily Papers(社区热门论文)
66
GridProbe:面向长视频视觉语言模型的自适应测试时计算后验探测

GridProbe提出一种无需训练的后验探测推理范式,以解决长视频理解中二次注意力计算成本高的问题。该方法将视频帧排列在网格上,通过轻量级行列表探测,利用冻结视觉语言模型在答案空间中评估证据,并自适应选择问题相关帧。其核心Shape-Adaptive Selection规则根据问题难度动态确定有效帧预算,实现测试时计算量自适应调整。实验表明,在Video-MME-v2基准上,计算量降低3.36倍,平均准确率损失控制在1.6个百分点内;在LongVideoBench上帕累托占优于基线。该方法支持轻量级选择器与更强QA模型解耦组合,无需重新训练即可提升性能。

多模态推理论文/研究
05:44
HuggingFace Daily Papers(社区热门论文)
62
揭示策略蒸馏:何处有益、何处有害及原因

本研究针对策略蒸馏中监督信号的有效性不明确问题,引入一种免训练诊断框架,以逐词元、逐问题、逐教师的高分辨率评估蒸馏效果。该框架通过定义理想逐节点梯度,并开发可扩展的定向展开算法高效估算梯度,进而计算梯度对齐分数,量化特定蒸馏配置接近理想信号的程度。研究发现,蒸馏指导在模型错误展开时比正确展开时表现出更高的梯度对齐性;在正确展开时,学生模型已表现良好,教师信号往往变得嘈杂。此外,最优蒸馏上下文共同取决于学生模型的能力和目标任务,不存在普遍有效的单一配置。这些发现强调了针对蒸馏进行逐任务、逐词元诊断分析的必要性。

推理数据/训练论文/研究
02:44
HuggingFace Daily Papers(社区热门论文)
51
PlantMarkerBench:一个用于评估基于文献的植物标记基因推理能力的多物种基准

研究团队发布了PlantMarkerBench,这是一个用于评估从生物学全文文献中获取证据支撑的植物标记基因解释能力的多物种基准。该基准涵盖拟南芥、玉米、水稻和番茄四个物种,包含5,550个标注了证据有效性、类型和支持强度的句子实例,并定义了两项评估任务。测试显示,前沿模型在处理直接表达证据时表现尚可,但在功能、间接和弱支持证据上性能显著下降,且开放权重模型在模糊生物背景下假阳性率较高。该基准为基于文献的生物证据归因提供了可复现的评估框架。

推理数据/训练论文/研究
5月12日
19:36
IT之家(RSS)
38
国产 AI 游戏《历史模拟器:崇祯》"本体买断、词元收费"引争议,官方回应称将开放自行接入模型

国产AI游戏《历史模拟器:崇祯》因采用“本体买断、词元收费”模式引发争议。玩家需支付48元购买游戏,后续推进剧情则需额外付费购买词元(Token)。针对争议,官方宣布将开放“自定义API”功能,允许玩家自行接入支持范围内的大模型服务以控制成本。同时,游戏将上线创意工坊,支持玩家基于核心框架创作剧本、规则及玩法。具体上线时间、支持模型范围及审核规则将通过后续公告公布。

推理行业动态
17:36
IT之家(RSS)
58
"全球最强算力":李想官宣公司自研马赫 M100 芯片,理想 L9 Livis 首发

理想汽车创始人李想正式发布自研马赫 M100 芯片。该芯片采用动态数据流架构和5nm车规级工艺,单芯算力达1280TOPs,号称全球最强。其架构突破传统GPU效率瓶颈,使端到端延迟下降40%,车辆反应速度比人类快一倍。全新理想L9 Livis车型将首发搭载此芯片,并配备3D ViT感知模型,可视距离提升50%,多模态计算量增加10倍,实现自动驾驶、智能交互等功能。李想表示,自研芯片旨在解决供应商技术难题,推动AI在物理世界的实际应用。

产品更新具身智能推理端侧
16:44
HuggingFace Daily Papers(社区热门论文)
65
SlimSpec:用于加速推测解码的低秩草稿模型LM-Head

推测解码通过轻量草稿模型生成候选令牌来加速大语言模型推理,但其LM-Head对大规模词汇的投影计算成本高昂。现有方法多采用词汇截断,但增加了复杂性。本文提出SlimSpec,采用低秩参数化压缩草稿模型LM-Head的内部表示而非输出,从而保留完整词汇支持。在EAGLE-3草稿模型和多个目标模型及基准测试中评估,SlimSpec在延迟和吞吐量场景下,相比标准LM-Head实现了4-5倍加速,同时保持有竞争力的接受长度,端到端加速效果超越现有方法8-9%,且对训练和推理流程改动最小。

arXiv推理论文/研究
16:44
HuggingFace Daily Papers(社区热门论文)
62
TMAS:通过多智能体协同扩展测试时计算

研究提出TMAS框架,通过组织多个专用智能体在推理过程中进行协作,实现跨智能体、轨迹与迭代的结构化信息流动。该框架引入分层记忆系统:经验库存储可靠的低层中间结论与局部反馈以供复用,指导库则记录已探索的高层策略以引导后续推理避开冗余模式。同时,团队设计了适配TMAS的混合奖励强化学习方案,在保持基础推理能力的同时,提升经验利用率并鼓励对新策略的探索。在多个高难度推理基准测试中,TMAS展现出优于现有基线的迭代扩展能力与稳定性。

智能体推理论文/研究
15:44
HuggingFace Daily Papers(社区热门论文)
59
DECO:面向终端设备的稀疏混合专家模型,实现媲美稠密模型的性能

为克服混合专家模型参数量大导致的存储与访存瓶颈,研究团队提出稀疏MoE架构DECO,以适配终端设备对高性能、低计算成本和小存储开销的需求。DECO采用基于可学习专家级缩放的ReLU可微分灵活路由,自适应平衡路由专家与共享专家的贡献,并引入NormSiLU激活函数提升路由稳定性与稀疏度。实验表明,在总参数量和训练数据量相同的情况下,DECO仅激活20%的专家即可匹配稠密Transformer性能,且超越现有MoE基线;其专用加速内核在真实硬件上实现了相比稠密推理3.00倍的加速。代码与模型将开源。

开源/仓库推理端侧论文/研究
11:44
HuggingFace Daily Papers(社区热门论文)
67
叛逆学生:通过反转教师信号实现自蒸馏推理探索

传统自蒸馏方法在指导学生模型时,会覆盖其成功推理的路径,抑制其自主推理能力。本研究提出一种反向解读自蒸馏信号的新视角:当学生模型在教师模型未预测的路径上成功推理时,这些标记被视为其自主推理的体现。基于此,团队推出了RLRT方法,该方法在GRPO基础上强化正确生成轨迹中的此类标记,将其定义为一种基于学生自身成功的有价值探索,而非均匀多样性探索。在多个版本的Qwen3模型上,RLRT均显著超越了传统自蒸馏和基于探索的基线方法,确立了信息不对称作为强化学习与价值回归框架中一个新的原则性设计维度。

推理数据/训练论文/研究
11:36
IT之家(RSS)
65
AMD 推出 vLLM-ATOM 插件,加速 DeepSeek、Kimi 等 AI 推理性能

AMD 发布 vLLM-ATOM 插件,旨在提升大语言模型在 AMD Instinct GPU 上的推理性能。该插件无需改动现有 vLLM 的命令、API 及工作流,即可为 DeepSeek-R1、Kimi-K2、Qwen3 等模型提供加速,覆盖 MoE、稠密模型及视觉语言模型场景。其三层架构在后台接管优化,重点面向 MI350、MI400 等系列 GPU,通过融合内核与注意力后端路由等技术,降低部署门槛,实现“零学习成本”的平滑迁移。

产品更新推理部署/工程
09:36
IT之家(RSS)
62
苹果连发 3 项 AI 研究,推进空间计算与 Vision Pro 头显方向

苹果近期发布三项人工智能研究,直接回应了其搁置Vision Pro研发的传闻。研究包括:提出SFI-Bench基准,通过134段视频和1555道问题测试多模态大模型的空间功能智能;利用AI自动生成美国手语标注,将人工成本降低数百小时;以及提出HeadsUp方法,基于超万人数据集进行高质量3D头部重建,可能用于优化Vision Pro的Persona等功能。这些进展印证了苹果对空间计算方向的持续投入。

多模态推理论文/研究
08:25
Hacker News 热门(buzzing.cc 中文翻译)
59
Interfaze:一种专为大规模高精度而构建的新型架构模型

Interfaze发布了一种专为大规模高精度任务设计的新型架构模型。该架构旨在显著提升模型在扩展规模时的准确性表现,其核心目标是解决传统模型在参数量增大时精度难以同步提升的挑战。新架构通过创新的设计,优化了计算效率与精度之间的平衡,以适应数据量和模型复杂度不断增长的需求。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
32
代码引导推理协议评估小语言模型的可执行推理脚手架

本研究提出了“代码引导推理”评估协议,用于系统衡量可执行推理脚手架对小语言模型在多选题任务中的性能提升。该协议标准化了从任务接口到结果记录的六个组件。基于20,498条实验数据分析表明,在具有非零基线的样本中,脚手架辅助的平均准确率为66.21%,较直接回答的38.11%提升了28.10个百分点。研究同时也指出,该方法面临计算开销增大、答案提取过程脆弱以及生成程序可能违规等局限性。

推理论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
基于点互信息的推理强化学习反自蒸馏方法

研究发现现有自蒸馏方法在数学推理中效果不稳定,其根源在于“特权上下文”会过度强化解中已确定的结构化信息,同时削弱驱动多步推理的“思考性词元”权重。为此,本文提出反自蒸馏方法(AntiSD),通过反转优化方向,使学生模型主动远离教师分布,并结合熵触发门控机制,形成即插即用的改进方案。实验表明,在4B至30B参数模型上,AntiSD仅需更少训练步骤即可达到GRPO基线准确度,最终性能提升最高达11.5个百分点,为语言模型利用自身训练信号实现推理能力规模化提升提供了可行路径。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
HölderPO:一种基于Hölder均值的政策优化框架

针对Group Relative Policy Optimisation (GRPO)中固定聚合机制导致的训练崩溃问题,本文提出HölderPO框架。该框架利用Hölder均值统一token级概率聚合,通过参数p连续控制梯度集中与方差界限。理论分析表明,较大的p集中梯度以增强稀疏信号,较小的p则限制方差。为克服静态配置的局限,我们设计了动态退火算法,在训练中自适应调整p。实验显示,HölderPO在多个数学基准测试中平均准确率达54.9%,相对GRPO提升7.2%,并在ALFWorld任务中实现93.8%的成功率,显著提高了稳定性和收敛性。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
PreScam:基于早期对话预测诈骗进展的基准测试

研究团队推出PreScam基准,用于评估语言模型从早期对话预测真实诈骗进展的能力。该基准基于用户报告,将17.8万份原始数据筛选并结构化,构建了涵盖20个类别的1.1万余个对话实例,并依据“诈骗杀伤链”和细粒度行为进行标注。研究设置了实时终止预测和诈骗者行为预测两项任务。结果显示,监督学习模型在终止预测上显著优于零样本大语言模型,而即使强大模型在预测诈骗者下一步行为时也仅获中等成功率,表明当前模型仍难以有效追踪多轮对话中风险的动态升级与操纵展开过程。

安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
大语言模型推理中的自适应教师暴露自我蒸馏方法

研究发现,在LLM推理的自我蒸馏中,教师模型始终看到完整参考答案会导致师生能力不匹配,使学习目标过强。固定教师暴露程度并非最优,且不匹配性随教师所见信息增加而增长。为此,研究者提出自适应教师暴露方法(ATESD),通过一个轻量级Beta策略控制器,基于训练状态动态采样教师暴露比例,并使用基于未来改进的延迟学习进度奖励来优化控制器。在AIME 24/25和HMMT 25基准测试中,ATESD在Qwen3系列模型上均优于现有自我蒸馏和强化学习方法,取得了显著提升。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
AI CFD科学家:利用物理感知AI智能体实现开放式计算流体动力学发现

本文提出AI CFD Scientist,一个开源的计算流体动力学AI科学家框架。它首次在单一可检视工作流中整合了文献驱动的构思、验证执行、基于视觉的物理验证及图文写作。其核心是一个视觉-语言物理验证门,能在接受结果前检查流场渲染图。实验表明,该框架自主发现了能降低壁面摩擦系数误差的湍流模型修正;在同等成本下,其性能优于通用AI科学家基线,因其具备关键的领域专用验证能力;对照实验证实,视觉验证门能有效检测出求解器日志遗漏的多数静默故障。

智能体arXiv多模态推理
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
Learning to Explore: 通过探索感知策略优化扩展智能体推理能力

研究提出了一种探索感知的强化学习框架,使LLM智能体能够在不确定性高时才进行自适应探索。该方法通过变分推理设计了细粒度奖励函数,评估探索性行动对改善未来决策的潜力,并引入探索感知分组机制,在优化过程中将探索行动与任务完成行动分离。实验表明,该方法在一系列基于文本和GUI的智能体基准测试中取得了持续的性能提升。相关代码与模型已在GitHub和HuggingFace平台开源。

智能体arXiv推理论文/研究

推荐理由:让 Agent 拥有了「感知自己不知道什么」的能力,只在信息不足时才探索,而不是盲目试错,是 Agent 训练方法的一个重要转向,做强化学习或 Agent 的值得认真看下。
08:00
HuggingFace Daily Papers(社区热门论文)
精选73
Learning Agentic Policy from Action Guidance

针对大型语言模型的智能体强化学习提出新方法ActGuide-RL,通过引入日常人类交互产生的海量动作数据作为规划式参考指引,帮助策略克服难以抵达奖励状态的探索障碍。该方法采用最小干预原则,仅在必要时自适应启用指引以匹配任务难度,同时通过混合策略训练将探索收益内化回无指引策略。在搜索智能体基准测试中,ActGuide-RL相比零强化学习基线在GAIA和XBench上分别提升10.7和19个百分点,性能与需要大量监督微调数据的流程相当,为智能体强化学习提供了减少对繁重监督微调依赖的新范式。

智能体arXiv推理论文/研究

推荐理由:Agent RL长期被基础策略的探索能力卡脖子,这篇论文用人类日常交互的动作数据做引导,不用重型SFT就追平现有pipeline,是训练范式层面一次务实创新。
08:00
HuggingFace Daily Papers(社区热门论文)
56
基于文本-表格建模的陌生AI智能体决策预测方法

研究提出一种目标自适应的文本-表格预测方法,用于预测陌生AI智能体在谈判与交易中的决策。该方法将每个决策点构建为表格行,整合游戏状态、报价历史和对话文本,并在提示中提供目标智能体先前的K轮游戏作为适应示例。模型基于表格基础模型,结合了结构化特征、文本表示以及创新的“LLM作为观察者”隐藏状态特征。在13个前沿LLM智能体上训练,并在91个保留的支架智能体上测试,完整模型性能优于直接提示法和基线模型。当K=16时,观察者特征将响应预测AUC提升约4个百分点,并将议价报价预测误差降低14%,证明隐藏的LLM表征能捕捉直接提示无法获取的决策信号。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
ShapeCodeBench: 一个用于合成形状场景感知到程序重建的可再生基准

ShapeCodeBench是一个用于感知到程序重建的合成基准测试。给定一张渲染的光栅图像,模型必须输出一个可执行的绘图程序,由确定性评估器重新渲染并与目标图像比对。其v1版本在512x512黑白画布上定义了四种基本图形,每个实例均由随机数生成器生成,可创建全新的测试集以减少数据污染。基准发布了一个包含150个样本的固定评估集,涵盖简单、中等和困难三个级别,评估指标包括精确匹配、像素精度、前景IoU等。测试结果显示,传统计算机视觉启发式方法在简单场景中表现尚可,但在图形重叠时失效;最强的多模态配置能保留大部分前景结构,但因细微参数误差仍无法达到精确匹配。目前最佳精确匹配率仍然很低,表明该基准远未饱和。相关代码、数据集及论文资源均已开源。

多模态开源/仓库推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
Orthrus:基于双视图扩散的内存高效并行令牌生成

Orthrus 提出一种双架构框架,将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块,构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存:自回归头负责上下文预填充以构建准确表示,扩散头则执行并行令牌生成。通过严格的共识机制,Orthrus 在保证无损推理的前提下,仅增加 O(1) 内存开销与极少参数量,即实现了最高 7.8 倍的生成加速。

arXivHugging Face推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
观点:应将大语言模型推理评估为"能量到Token的生产过程"

当前大模型推理评估过于侧重准确性、延迟等软件指标,忽视了部署规模下的核心约束:在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程,并建立了统一的Token生产函数模型,其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下,KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此,呼吁未来研究与基准测试在报告传统指标时,应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。

arXiv推理论文/研究部署/工程
03:18
Tomer Tunguz 博客(VC 分析)
精选67
本地模型处理半数日常任务,响应速度优于云端

一项为期五周的实验发现,在总计约1400项日常工作任务中,约50%可由本地35B参数模型(如Qwen 3.6 35B)成功处理,涵盖邮件、日程、总结和行政事务等类别。性能对比显示,本地模型在常规代理任务上的平均响应时间为2.8秒,比云端Claude Opus 4.5快2.1倍,尽管后者在复杂推理上仍领先约20%。本地模型输出更简洁,云端模型则在结构和代码规范性上更优。随着本地模型性能提升,将计算负载转向本地以应对云端成本已成为必然趋势。

大佬观点推理端侧

推荐理由:Tunguz用数据告诉你,本地35B模型延迟只有Opus的一半且能完成半数任务,对极致追求响应速度的产品思路冲击很大,本地优先可能会从边缘变成主流。
00:35
IT之家(RSS)
精选72
菲尔兹奖得主亲测 ChatGPT 5.5 Pro:17 分钟出论文级成果,替学生拉响红色警报

菲尔兹奖得主 Timothy Gowers 测试 ChatGPT 5.5 Pro,AI 在 17 分钟内独立解决了一个加法数论公开难题,产出了博士论文级别的成果。整个过程无需数学指导,仅通过简单提示完成。Gowers 警告,若 AI 数学能力按此速度发展,将很快对数学研究领域构成危机,尤其冲击博士生培养。他呼吁数学系紧急应对,帮助学生寻找新出路。另一位菲尔兹奖得主陶哲轩则指出,人类数学家在 AI 时代的核心价值在于“消化”和深入理解证明。

OpenAI大佬观点推理

推荐理由:Gowers用GPT-5.5 Pro独立完成了够博士论文的数学成果,这不是AI辅助而是AI主导。两位菲尔兹奖得主同时拉响警报,对正在读博的你来说,这比任何论文都更有冲击力。
5月11日
09:34
IT之家(RSS)
精选78
消息称 AI 芯片企业 Cerebras IPO 获 20+ 倍超额认购,拟调升发行价近三成

AI芯片企业Cerebras的IPO获得超过20倍超额认购,有望成为2026年以来全球最大IPO。公司计划将发行股票数量从2800万股增至3000万股,发行价区间从115-125美元上调至150-160美元,以中间价计涨幅达29.17%,最高可筹资48亿美元。Cerebras的“晶圆级芯片”因集成大量高带宽SRAM缓存,特别适合AI推理的解码步骤,已获得亚马逊和OpenAI的大额订单。

OpenAI推理行业动态

推荐理由:Cerebras的晶圆级芯片在推理端有独特优势,这次IPO若以近50亿美元上限募资,意味着AI芯片竞赛又多了一个重量级玩家,对英伟达的格局是一记有趣的搅动。
08:34
IT之家(RSS)
57
慧荣科技总经理苟嘉章预警:NAND 闪存缺货潮或延续至 2028 年

慧荣科技总经理苟嘉章预警,由于AI投资重心从训练转向推理,带动内存与存储需求激增,NAND闪存缺货状况可能持续至2028年。下半年内存价格预计继续上涨,但涨幅将小于上半年。产能扩张面临瓶颈,从建厂到良率调适需时2-3年,设备交付周期也长达1-1.5年,供需缺口难以迅速缓解。部分手机和电脑厂商已难以承受成本压力,而苹果等具备采购优势的大型品牌有望获得市场增长机会。

推理行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
55
无监督过程奖励模型

本研究提出一种无需人类标注的无监督过程奖励模型(uPRM)训练方法。该方法基于大语言模型下一个token的概率设计评分函数,能够联合评估一批推理轨迹中首个错误步骤的可能位置,实现完全无监督训练。实验表明,uPRM在ProcessBench数据集上识别首个错误步骤的准确率比“LLM作为裁判”方法最高提升15%;作为测试时验证器,其性能与监督PRM相当,比多数投票基线高出最多6.9%;在强化学习中作为奖励信号,训练过程比使用真实标签的监督PRM更稳定。该工作为复杂推理任务的可扩展奖励建模提供了新途径。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
MemReread:通过记忆引导重读增强智能体长上下文推理能力

研究提出MemReread方法,以解决基于记忆的智能体在长文档推理中可能丢失潜在证据的问题。该方法在线性流式阅读基础上,当最终记忆不足时触发问题分解与重读,从而恢复被过早丢弃的间接事实,支持非线性推理同时保持文档理解逻辑。通过强化学习框架动态决定重读轮数以适配任务复杂度,灵活控制计算开销。实验表明,MemReread在长上下文推理任务中持续优于基线框架,且保持相对于上下文长度的线性时间复杂度。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
EVOCHAMBER:多智能体测试时协同进化框架

EVOCHAMBER 是一个无需训练的多智能体测试时进化框架,在智能体池中实现个体、团队和群体三层协同进化。其核心 CODREAM 协议在团队失败或分歧时触发,让智能体协作反思并非对称传递知识,以保持专业化。团队级和群体级算子分别管理协作结构和智能体生命周期。基于 Qwen3-8B 在三个异构任务流测试中,该框架在数学、代码和多领域推理任务上表现优异,数学准确率相对最佳基线提升 32%。消融实验证实非对称知识传递是性能提升关键。系统从相同初始化智能体涌现出稳定专家,体现了多智能体进化的独特结构特征。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
IndustryBench:探究大语言模型的工业知识边界

研究团队发布IndustryBench,这是一个基于中国国家标准(GB/T)和工业产品记录构建的2049项中文工业采购问答基准,并提供了多语言对齐版本。构建中,基于外部搜索的验证环节拒绝了70.3%的大语言模型生成问题,凸显了仅靠模型过滤的不可靠性。对多语言模型的评估发现:最佳系统得分(0-3分制)仅为2.083分,提升空间巨大;“标准与术语”是普遍能力短板;扩展推理会因引入无依据的安全关键细节而降低多数模型的安全调整分数;安全违规检查会显著改变模型排名。研究表明,工业领域的大语言模型评估需基于源文本、具备安全意识,而非依赖简单的聚合准确率。

arXivHugging Face推理数据/训练

推荐理由:工业采购场景下,LLM的准确率远不够用,而且推理模型越想越多反而越不安全,这个基准把幻觉和安全风险摆上了台面。
08:00
HuggingFace Daily Papers(社区热门论文)
57
策略蒸馏的多重困境:失效机制与修复方案

研究发现,大型语言模型的后训练方法——策略蒸馏(OPD)与策略自蒸馏(OPSD)效果不稳定。OPD在数学推理任务中对教师模型和损失函数极为敏感;OPSD则在测试时缺乏实例特定特权信息时容易失效,但在系统提示等共享规则场景下有效。失效机制主要包括:师生分布不匹配、TopK反向KL梯度导致的优化不稳定,以及OPSD聚合教师策略时丢失实例信息。采用停止梯度的TopK目标、经RLVR适配的教师模型和SFT稳定的学生模型可有效缓解这些问题。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
教语言模型用代码思考

针对现有工具集成推理范式存在代码仅用于事后验证、自然语言中间计算易错等问题,研究团队提出ThinC框架,将代码本身作为核心推理器。该框架仅以简短自然语言规划开始,后续所有推理均通过代码块及其执行输出串联完成。团队从教师模型中提取了12.2万条代码轨迹,并训练出ThinC-1.7B和ThinC-4B模型。在五项竞赛级数学基准测试中,ThinC-4B全面超越了所有工具集成推理基线,甚至优于规模大得多的Qwen3-235B-A22B-Thinking模型。分析表明,其99.2%的最终答案基于解释器输出,且能在代码执行失败时可靠恢复。

推理论文/研究
5月10日
08:00
HuggingFace Daily Papers(社区热门论文)
55
LEAD:面向大语言模型的长度高效自适应动态推理

针对OpenAI o1等大型推理模型因能力提升而日益冗长、浪费算力与上下文资源的问题,现有基于静态奖励的方法难以平衡正确性与效率。研究者提出LEAD方法,通过在线自适应机制动态校准每一步的正确性与效率权衡,并依据模型自身正确推演为每个问题在线估计自适应目标长度,对称惩罚过度推理与过度压缩。在五个数学推理基准测试中,LEAD在基于强化学习的高效推理方法中取得了最高的准确率和准确率-效率分数,同时生成的输出比基础模型显著缩短。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
SeePhys Pro:诊断物理推理多模态RLVR中的模态迁移与盲训练效应

研究团队推出细粒度模态迁移基准SeePhys Pro,通过为每个问题提供四种视觉元素递增的变体,评估模型在关键信息从文本转向图像时推理能力的保持情况。评估发现,前沿模型的性能随视觉化程度增加而下降,视觉变量定位是主要瓶颈。基于此,研究构建多模态RLVR训练语料库并采用盲训练诊断,发现即使掩码所有训练图像,强化学习仍能提升验证集性能。控制实验表明,此类提升可能源于残留的文本与分布线索,而非有效的视觉证据。研究强调,评估多模态推理需关注模态迁移下的鲁棒性,并诊断改进是否依赖于关键视觉证据。

多模态推理论文/研究
‹ 上一页
1…1819202122…30
下一页 ›