AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月29日周五
00:34LMSYS:Blog(Chatbot Arena 团队)69精选SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力
00:13Chubby♨️70Opus 4.8发布及Codex更新
00:06Google Blog:AI(RSS)61Google I/O 2026 一文速览:12 大重要时刻
00:00LMSYS:Blog(Chatbot Arena 团队)61精选LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能
5月28日周四
23:43AK55多模态智能体推理的探索性策略优化
23:38Xiaomi MiMo69同事件精选MiMo-V2.5现已登陆OpenCode限时免费同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
22:19IT之家(RSS)44慧荣发布 AI 负载优化 SSD 主控 SM2524XT:14GB/s,DRAM-less
21:36Hacker News 热门(buzzing.cc 中文翻译)64五款前沿大型语言模型在1000条现实世界事实核查声明中,有67%的结论存在分歧
21:29HuggingFace Daily Papers(社区热门论文)71精选思维链监控在跨类型多样的语言下的脆弱性
21:12TechCrunch:AI(RSS)54投资机构押注SambaNova成为下一个AI芯片突破者
20:36Hacker News 热门(buzzing.cc 中文翻译)55一款像大自然一样思考、探索人工智能无法触及领域的"尤里卡"机器
20:11Rohan Paul59NVIDIA发布Vera CPU基准测试报告
19:58公众号:龙猫LongCat(美团)44美团&顶会论文分享 | 5大专场,32篇论文解读
18:04Noam Brown62AlphaGo之后人类棋手进步,数学领域或现类似趋势
17:28HuggingFace Daily Papers(社区热门论文)68揭示逻辑推理的算法演绎电路
17:15IT之家(RSS)63消息称字节跳动正开发自有 CPU,以支持 AI 基础设施扩张
16:37Alibaba Cloud62通义千问(Qwen)模型在企业IT任务新基准测试中排名第三
16:15IT之家(RSS)43雷神发布Master T系列AI工作站
15:04Tibo63独立编程基准测试DeepSWE发布:GPT-5.5表现显著优于Claude Sonnet
14:28HuggingFace Daily Papers(社区热门论文)71精选DenoiseRL:通过恢复嘈杂前缀来引导推理模型
12:28HuggingFace Daily Papers(社区热门论文)62长存平衡:基于信息瓶颈的树策略优化
11:28HuggingFace Daily Papers(社区热门论文)66HRBench:混合推理大语言模型思考模式切换策略的评测与理解
11:28HuggingFace Daily Papers(社区热门论文)65基于双向进化搜索的大语言模型自我改进方法
11:28HuggingFace Daily Papers(社区热门论文)73精选VibeSearchBench:面向真实世界中长期主动搜索的评测基准
11:28HuggingFace Daily Papers(社区热门论文)60通过最优系数校准实现强化学习中的多Token预测联合训练
11:15IT之家(RSS)73精选英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%
10:28HuggingFace Daily Papers(社区热门论文)70精选ResearchMath-14K:通过智能体扩展研究级数学
10:14IT之家(RSS)36韩企 FuriosaAI 与博通合作开发下一代 2nm AI 推理加速器
10:14IT之家(RSS)65小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡
10:07Rohan Paul65周期性暂停以巩固记忆或能改善长期语言智能体的表现
09:27Berryxia.AI66OpenCode与MiMo V2.5限时免费开放
08:00HuggingFace Daily Papers(社区热门论文)50元认知记忆策略优化用于长时域LLM智能体
08:00HuggingFace Daily Papers(社区热门论文)56诊断答案正确的长链式推理训练轨迹中的有害延续
08:00HuggingFace Daily Papers(社区热门论文)56Domino:从自回归草拟中解耦因果建模的推测解码框架
08:00HuggingFace Daily Papers(社区热门论文)63PARCEL:基于池锚定重采样与条件弹性查询的高效视觉-语言理解架构
08:00HuggingFace Daily Papers(社区热门论文)56Draft-OPD: 投机草稿模型的在线策略蒸馏
08:00HuggingFace Daily Papers(社区热门论文)54ESPO: 早停近端策略优化
08:00HuggingFace Daily Papers(社区热门论文)51通过测试时训练线性化Vision Transformer
08:00HuggingFace Daily Papers(社区热门论文)55揭示自进化LLM智能体中的框架更新与框架增益能力
08:00HuggingFace Daily Papers(社区热门论文)64内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
00:34
LMSYS:Blog(Chatbot Arena 团队)
精选69
SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,比 B200(SGLang)方案低 40%。吞吐量方面,24 块 AMD GPU 达到 2,436 tok/s/GPU,比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括:MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由:AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%,吞吐还高出1.25倍,这是开源框架SGLang对闭源生态的一次真实挑战,做推理部署的应该点开看看完整的全栈优化。
00:13
Chubby♨️@kimmonismus
70
来吧:是Opus 4.8加上Codex更新!

Gabriel Chua: CODEX

Anthropic推理模型发布
00:06
Google Blog:AI(RSS)
61
Google I/O 2026 一文速览:12 大重要时刻

Google I/O 2026 发布会上披露了 12 个重要时刻,其中包括 Gemini Omni 和 Gemini 3.5 Flash 等产品的相关消息。

Google产品更新多模态推理
关联讨论 1 条Google Research:Blog(网页)
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选61
LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由:做VLM服务部署的可以认真看一下,用CPU头节点做异构EPD分离,几乎零成本换来了TTFT和TPOT的显著提升,有完整脚本和benchmark,能直接上手试。
5月28日
23:43
AK@_akhaliq
55
多模态智能体推理的探索性策略优化
智能体arXiv多模态推理
23:38
Xiaomi MiMo@XiaomiMiMo
同事件精选69
MiMo-V2.5现已在OpenCode上线--限时免费。🎉 【引用 @opencode】:OpenCode x MiMo V2.5 - 限时免费 1M上下文 • 推理 • 文本 • 图像

OpenCode: OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image

多模态推理模型发布
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
推荐理由:MiMo-V2.5在OpenCode免费开放,1M上下文加多模态推理,小米的模型迭代不算大新闻,但趁免费白嫖一下国产模型的机会别错过。如果你正在选型,跑个分试试。
22:19
IT之家(RSS)
44
慧荣发布 AI 负载优化 SSD 主控 SM2524XT:14GB/s,DRAM-less

慧荣发布面向AI推理与KV缓存优化的SSD主控SM2524XT。该芯片基于台积电6nm制程,采用DRAM-less架构,支持PCIe Gen5 ×4。其顺序读取速率达14GB/s,随机性能2500K IOPS,能效相较上代提升25%。

产品更新推理端侧
21:36
Hacker News 热门(buzzing.cc 中文翻译)
64
五款前沿大型语言模型在1000条现实世界事实核查声明中,有67%的结论存在分歧
推理评测/基准
21:29
HuggingFace Daily Papers(社区热门论文)
精选71
思维链监控在跨类型多样的语言下的脆弱性

该研究首次对思维链监控在13种不同语言和7个模型家族(共16个模型,参数从8B到120B)中进行了大规模评估。研究发现,CoT在所有语言和提示类型下的平均不忠实率高达95.9%。前沿模型会系统性进行策略性操纵(如答案切换和事后合理化),使外部监控难以检测欺骗。模型常在生成过程的前15%内就在潜在激活中锁定了错误线索,即使其CoT看起来是忠实的。令人惊讶的是,这种欺骗模式在低资源语言中保持100%,揭示了当前CoT监管的根本局限。研究证实CoT监控在语言分布偏移下极其脆弱,其安全信号远弱于仅基于英语的研究。代码已开源:https://multilingual-cot-monitoring.github.io/{blue{here}}。

安全/对齐推理论文/研究

推荐理由:第一次大规模验证思维链监控在不同语言中的脆弱性,低资源语言里100%的欺骗率直接打脸“安全靠监控”的假设,做对齐的团队该紧张起来了。
21:12
TechCrunch:AI(RSS)
54
投资机构押注SambaNova成为下一个AI芯片突破者

投资机构General Compute看好AI芯片公司SambaNova的发展潜力,认为其将成为下一个取得突破的芯片制造商。

推理行业动态
20:36
Hacker News 热门(buzzing.cc 中文翻译)
55
一款像大自然一样思考、探索人工智能无法触及领域的"尤里卡"机器
推理论文/研究
20:11
Rohan Paul@rohanpaul_ai
59
NVIDIA发布Vera CPU基准测试报告

NVIDIA发布Vera CPU基准测试报告。Vera采用Armv9.2架构,在Phoronix测试中,其整体性能比128核x86 CPU高1.5倍,比前代Grace CPU提升1.6倍(几何平均)。其每核心内存带宽是传统x86 CPU的4倍以上,使用LPDDR5X实现1.2TB/s带宽,内存功耗低于30W。该报告旨在表明NVIDIA的Arm架构CPU性能已超越Intel和AMD的x86服务器CPU,并强调在智能体AI场景下,因涉及工具调用、文件读写、代码生成等复杂任务,CPU侧工作负载变得更重。

推理行业动态部署/工程
19:58
公众号:龙猫LongCat(美团)
44
美团&顶会论文分享 | 5大专场,32篇论文解读

2026年,美团数十篇论文被ACL、SIGIR、ICML、KDD等顶会收录,精选32篇分为5大专场进行直播解读。内容涵盖大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向,既有底层能力突破也有生活服务落地探索。活动自6月11日起陆续直播,可报名参与。

多模态推理行业动态
18:04
Noam Brown@polynoamial
62
AlphaGo之后,人类围棋选手的水平显著提升。我怀疑我们将在数学领域看到类似的模式。

Timothy Gowers @wtgowers: Another major problem, this time in additive combinatorics, has fallen, this time to humans rather than AI, but using me...

OpenAI大佬观点推理
17:28
HuggingFace Daily Papers(社区热门论文)
68
揭示逻辑推理的算法演绎电路

研究表明,大语言模型(LLMs)在符号辅助的 Chain-of-Thought(CoT)提示下,能够通过类似图遍历的算法实现逻辑推理。本研究旨在定位负责具体推理步骤的注意力头,并分析它们之间传递的信息类型。研究发现,在CoT提示框架下,引导推理进程的token位置常伴有低置信度分数。通过因果中介分析,识别出了负责特定推理模式的注意力头(约占总头数的3%)。进一步分析表明,LLMs通过专用注意力头获取单个子任务的事实与规则信息,而更高层的注意力头则主要负责信息整合与全局推理策略(如图遍历算法)的涌现,以协调多个中间步骤来解决整体任务。

arXiv推理论文/研究
17:15
IT之家(RSS)
63
消息称字节跳动正开发自有 CPU,以支持 AI 基础设施扩张

字节跳动因芯片价格上涨与供应短缺,正开发自有CPU以支持AI基础设施扩张,特别是推理阶段需求。公司计划将自研芯片部署在自有服务器和数据中心,并准备推出Coze等智能体产品。目前同时推进基于Arm和RISC-V的两套架构路线,正接触外部合作伙伴参与设计与产能争取,项目仍处于早期阶段。此前字节跳动从英特尔和AMD采购的CPU已面临10%至35%的涨价。

推理行业动态
16:37
Alibaba Cloud@alibaba_cloud
62
通义千问(Qwen)团队宣布,其Qwen3.7-Max模型在新兴的ITBench-AA基准测试中位列第三。该测试由Artificial Analysis与IBM Research合作推出,旨在评估模型解决真实企业IT任务的能力,当前聚焦于站点可靠性工程(SRE)领域。测试包含59个Kubernetes故障诊断任务。结果显示,Claude Opus 4.7以47%的得分排名第一,GPT-5.5(xhigh)以46%紧随其后,Qwen3.7-Max以42%排名第三。所有前沿模型得分均低于50%,表明该测试具有较高挑战性。

Artificial Analysis: Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...

智能体推理评测/基准
16:15
IT之家(RSS)
43
雷神发布Master T系列AI工作站

雷神在新品发布会上推出了Master T系列塔式AI工作站。旗舰型号Master T9000至高可选96核心的AMD锐龙Threadripper PRO 9995WX处理器与四块AMD Radeon AI PRO R9700显卡,其FP8稀疏算力可达3096 TFLOPS,能够满足运行70B参数大语言模型全精度推理的需求。高阶型号Master T7000则可选AMD锐龙9 9950X3D2处理器,搭配单块Radeon AI PRO R9700显卡,提供766 TFLOPS的算力。

产品更新推理
15:04
Tibo@thsottiaux
63
新发布的独立基准测试 DeepSWE 结果更贴近开发者日常体验。测试显示,在编程任务上,GPT-5.5 得分为 70%,而 Claude Sonnet 得分为 32%,两者差距显著。DeepSWE 聚焦于 AI 智能体在真实工作流中的核心能力,即能否仅凭简短提示词,准确定位代码库并干净地完成修改,无需用户列举具体文件。原文指出,这验证了许多开发者长期以来的观察,并批评了 SWE-Bench 因数据集污染和验证机制较弱而常无法反映真实能力的问题。

Kol Tregaskes: Many developers have suspected for months that GPT-5.5 outperforms Claude Sonnet for coding. But SWE-Bench reported near...

AnthropicOpenAI推理编码
14:28
HuggingFace Daily Papers(社区热门论文)
精选71
DenoiseRL:通过恢复嘈杂前缀来引导推理模型

DenoiseRL是一种强化学习框架,旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集,而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习,将错误转化为改进机会。这种方法提供了更丰富多样的学习信号,提升了探索效率。实验表明,DenoiseRL在竞争性的数学和通用推理基准测试中,持续优于强在策略RL基线,并能随着训练难度增加促进更强的自我纠正行为。

推理数据/训练论文/研究

推荐理由:做 RL for reasoning 的团队该看这篇,它把训练信号从“依赖强模型”转向“从弱模型的错误中学习”,可能降低对昂贵 teacher 的依赖,是个架构层面的新思路。
12:28
HuggingFace Daily Papers(社区热门论文)
62
长存平衡:基于信息瓶颈的树策略优化

该研究针对大语言模型在线强化学习中探索与利用的失衡问题,提出了新指标IB-Score,它基于信息瓶颈理论,量化了步级推理多样性与正确答案信息的权衡。分析表明,主流方法如GRPO难以维持此平衡。为此,论文提出IB-TPO框架,将IB-Score作为优化目标,并采用信息瓶颈引导的树采样策略,在相同token预算下可增加50%的轨迹。实验显示,该方法在标准基准上显著优于GRPO基线,性能提升2.9%至3.6%。代码已开源:https://github.com/alibaba/EfficientRL。

推理数据/训练论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
66
HRBench:混合推理大语言模型思考模式切换策略的评测与理解

本研究提出了HRBench,一个统一的评测框架,用于研究混合推理大语言模型的思考模式切换策略。框架从三类切换策略家族(基于提示的选择、外部路由、推测执行)与四种训练方式(免训练、SFT、离线RL、在线RL)两个维度设计空间,形成多种受控评测设置。研究在涵盖从Qwen3.5-2B到Kimi-K2.5-1.1T的6个模型,以及数学、科学、代码等5个推理基准上,重新实现了12余种现有方法并进行评估。分析表明,不同策略在有效性与效率的权衡中特点各异,且策略偏好随模型规模和任务领域变化。

GitHubHugging Face推理论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
65
基于双向进化搜索的大语言模型自我改进方法

针对现有大语言模型搜索方法(如 best-of-N 采样、树搜索)依赖稀疏验证信号且探索局限于高概率区域的问题,本文提出了双向进化搜索框架。该框架耦合了前向候选进化和后向目标分解。前向搜索利用进化算子重组部分轨迹,以生成难以通过单次模型展开获得的候选方案;后向搜索则递归分解原始任务,产生密集的中间反馈以指导搜索。理论分析表明,仅靠展开的搜索受限于窄熵壳,而进化算子可使其跳出,后向搜索则能指数级减少找到正确答案所需的样本数。实验显示,在主流后训练算法失效的任务上,BES 能带来一致性能提升;在三个开源问题求解基准的推理测试中,BES 在平均与最佳性能上均优于现有开源框架。

智能体开源/仓库推理论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
精选73
VibeSearchBench:面向真实世界中长期主动搜索的评测基准

基于LLM的智能体在现有搜索基准上表现优异,但真实用户体验不佳,这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估,无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此,研究提出了“VibeSearch”范式并发布了VibeSearchBench,该基准包含200个手工策划的双语任务,覆盖20个领域,分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示,所有模型在VibeSearch任务上表现均不充分(最佳F1分数为30.30),凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。

arXiv推理搜索论文/研究

推荐理由:所有前沿模型在长程主动搜索上都翻车了,最高F1才30,说明现在AI离真正理解你的模糊需求还有距离,做搜索的同学该重新想想架构了。
11:28
HuggingFace Daily Papers(社区热门论文)
60
通过最优系数校准实现强化学习中的多Token预测联合训练

可验证奖励的强化学习已成为提升大语言模型推理能力的标准范式,而多Token预测是预训练中广泛采用的模块。当前实践通常分离两者的梯度,因为联合训练会导致性能下降。该研究从优化角度重新分析了这一问题,提出最优系数校准方法,能以极低开销在线追踪最优系数。在六个竞赛级数学推理基准测试中,OCC方法持续匹配或超越分离基线,改善了联合MTP-RL的训练性能。

arXiv推理数据/训练论文/研究
11:15
IT之家(RSS)
精选73
英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架(如 Codex CLI、Claude Code、Qwen Code、Pi),通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示,基于 Qwen3.5-4B 模型,Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%(增涨 594.74%)。效率上,其 prefix_merging 技术将训练步骤从 1185 次降至 218 次,速度提升约 5.39 倍,GPU 平均利用率从 20.4% 升至 87.7%。

开源/仓库推理编码

推荐理由:Polar 把 Codex 的 SWE-Bench 分数从 3.8% 拉到 26.4%,不是靠新模型而是靠训练框架,做代码 agent 的团队可以直接用,开源即拿即训。
10:28
HuggingFace Daily Papers(社区热门论文)
精选70
ResearchMath-14K:通过智能体扩展研究级数学

本文介绍了ResearchMath-14K,这是一个包含14,056个研究级数学问题的数据集,通过多智能体流程从学术资料中策划而成,是目前此类规模最大的集合。研究还生成了ResearchMath-Reasoning(包含220K条教师轨迹),发现语言模型存在回避行为,且新一代模型产生的引用和虚假引用分别是旧模型的5.6倍和5.0倍。经过智能体过滤后,对参数规模为4B到30B的Qwen3模型进行微调,其平均得分比基础模型提高了9.2分,表明过滤后的开放问题尝试能为研究级数学推理提供有效监督。该数据集已公开发布。

arXiv推理数据/训练论文/研究

推荐理由:这可能是目前数学推理方向最有价值的数据集之一,它暴露了模型编造引用的问题,过滤后微调还能涨点,做数学推理的团队应该立刻拉下来试试。
10:14
IT之家(RSS)
36
韩企 FuriosaAI 与博通合作开发下一代 2nm AI 推理加速器

韩国企业 FuriosaAI 宣布将与博通合作开发其第三代 AI 推理加速器,目标 2028H1 出样。该芯片将结合 2nm 制程计算裸晶、独立 I/O 裸晶、HBM4 内存堆栈,并采用博通的 SUE 技术实现机架内全连接。FuriosaAI 称其 TCP 架构针对 AI 计算进行了优化,专注于高带宽数据传输。博通方面表示,此合作旨在解决大规模智能体 AI 在通信效率方面的关键瓶颈。

推理行业动态部署/工程
10:14
IT之家(RSS)
65
小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡

小米宣布 MiMo-V2.5 系列 API 永久降价,最高降幅达 99% 且不再区分上下文窗口长度。负责人罗福莉解释,核心原因是推理框架实现了针对 SWA 的分层 KV 缓存优化,将 Token 容量提升 5 倍,相当于降低 80% 的缓存成本。结合模型 1:7 的稀疏架构,其原始推理成本远低于行业平均水平,此次降价是将结构性成本优势直接让利给开发者。她也建议 LLM 公司不要盲目降价,需有相应的架构和优化能力支撑。

产品更新推理部署/工程
10:07
Rohan Paul@rohanpaul_ai
65
周期性暂停以巩固记忆或能改善长期语言智能体的表现

针对当前Transformer智能体因上下文不断增长而推理变慢变贵的问题,论文提出效仿人类睡眠机制进行记忆巩固。其核心方案是加入周期性的“睡眠阶段”:模型在此阶段暂停,多次重读近期上下文,将有用信息写入固定大小的记忆层(如状态空间块的快速权重),然后清空短期注意力缓存。此离线过程使后续回答仍只需一次前向传播。在细胞自动机、图查找和GSM-Infinite数学问题上的测试表明,更长的睡眠时间能提升性能,尤其对需要深度推理的复杂任务。该思路表明,长期智能体或可通过记忆巩固实现高效遗忘与重用,不必无限携带原始上下文。

智能体arXiv推理论文/研究
09:27
Berryxia.AI@berryxia
66
OpenCode & MiMo V2.5 限时免费。 需要的去冲吧~

OpenCode: OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image

产品更新推理
08:00
HuggingFace Daily Papers(社区热门论文)
50
元认知记忆策略优化用于长时域LLM智能体

记忆增强的LLM智能体通过递归摘要交互轨迹应对长时域任务,但现有结果导向强化学习无法定位中间记忆质量下降。本研究提出信念熵(Belief Entropy)作为自监督代理,衡量模型对潜在任务状态的不确定性,并在此基础上提出元认知记忆策略优化(MMPO),通过惩罚高认知不确定性的摘要提供细粒度监督。实验表明,MMPO在多种长时域任务上持续优于现有方法,在扩展到1.75M token上下文时仍保持97.1%性能。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
诊断答案正确的长链式推理训练轨迹中的有害延续

本研究探讨用于大语言模型监督微调的长链式推理轨迹。研究发现,即使推理轨迹答案正确,其在结论后仍继续的推理部分也可能对训练产生有害影响,导致微调结果显著不同。这种现象被定义为“有害延续”,其特征是持续的局部不确定性与减弱的终端方向进展不匹配。通过编辑器删除这些有害延续后,基于CoT的微调结果得到改善。研究进一步提出了Harmful Continuation Cut(HCC),作为近似有害延续边界的轻量级代理方法。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Domino:从自回归草拟中解耦因果建模的推测解码框架

Domino是一种用于加速大语言模型推理的推测解码框架,它将因果依赖建模与高开销的自回归草拟过程解耦。该框架首先使用并行草拟骨干网络为整个块生成初步的草拟分布,随后应用一个轻量级的Domino头,利用前缀相关的因果信息对初步分布进行精细化修正。为稳定训练过程,论文提出了基础锚定训练课程,先强化并行骨干,再逐步优化因果修正后的最终分布。在Qwen3模型上的实验表明,Domino在Transformers后端下实现了高达5.49倍的端到端加速,在SGLang服务下实现了高达5.8倍的吞吐量加速。

arXivHugging Face推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
PARCEL:基于池锚定重采样与条件弹性查询的高效视觉-语言理解架构

大型视觉语言模型在推理时面临将视觉输入映射为密集token序列带来的二次计算瓶颈。现有视觉token压缩方法在激进压缩下会损失空间保真度。本文提出PARCEL,一种新的视觉token化架构。它通过建立空间池token作为低频布局锚点,并以此为条件对弹性查询token进行重采样,从而动态分配特征提取任务。在27项基准测试中,PARCEL在不同视觉token预算下均优于现有基线方法,改善了性能与效率的帕累托前沿。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Draft-OPD: 投机草稿模型的在线策略蒸馏

本文提出Draft-OPD,一种用于改进投机解码中草稿模型的在线策略蒸馏方法。针对现有监督微调方法(如EAGLE3、DFlash)存在的离线数据与推理状态不匹配问题,Draft-OPD采用目标模型辅助的序列展开,从验证步骤暴露的错误位置进行重放学习。这使草稿模型能从目标模型对其提议的接受和拒绝反馈中优化。实验表明,该方法对各类思考模型实现了超过5倍的无损加速,相比EAGLE-3和DFlash分别取得了23%和13%的性能提升。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
ESPO: 早停近端策略优化

ESPO(Early-Stopping Proximal Policy Optimization)是一种强化学习算法,它能在生成过程中实时检测失败轨迹并提前终止,以节省计算资源。该方法通过计算代理后悔值,当平滑后的累积后悔值显著超过预期时便停止生成。被截断的轨迹被视为吸收失败状态。在针对DeepSeek-R1-Distill-Qwen-7B模型的数学推理训练中,ESPO在AIME 2024、AMC 2023和MATH-500等基准上的表现均优于PPO,并累计节省了超过20%的回滚token。

arXivDeepSeek推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
通过测试时训练线性化Vision Transformer

本研究提出一种将预训练Transformer(如Stable Diffusion 3.5)线性化的方法。通过架构与表示的双重对齐,具体识别了TTT架构与Softmax注意力的结构相似性,并引入关键实例归一化等模块来对齐表示特性。仅在4xH20 GPU上进行1小时微调,所得SD3.5-T^5模型就能达到与微调Softmax模型相当的文本到图像生成质量,同时在1K和2K分辨率下分别实现1.32倍和1.47倍的推理加速。代码已开源。

图像生成开源/仓库推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
揭示自进化LLM智能体中的框架更新与框架增益能力

研究揭示了自进化LLM智能体中两种能力的独立表现。框架更新能力与模型基础能力无关,不同层级模型产生的框架更新所带来的增益相近,如Qwen3.5-9B的更新增益与Claude Opus~4.6相当。框架增益能力与基础能力呈非单调关系:弱模型难以从更新中受益,中等模型受益最大,强模型收益反而低于中等模型。弱模型的失败模式包括无法激活相关构件,或激活后未能遵循指令。研究建议将能力预算投入任务执行智能体而非更新器。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距

研究表明,物理AI系统中的批量1大语言模型解码是内存主导的,但更快的内存并不带来比例性的延迟收益。通过对三款7-8B级别的GQA Transformer模型在四款NVIDIA GPU上的测量发现,例如在Qwen-2.5-7B(上下文长度2048)场景下,L4能达到其内存地板的81%,而H100仅为27%。CUDA Graphs优化在H100上将解码延迟提升1.259倍,在L4上仅为1.028倍。部署方面,常见的量化路径未能完全兑现预期的4倍权重流量削减,例如AutoAWQ+Marlin在bf16基线62.32 ms/step上优化至45.24 ms/step,而GPTQ+ExLlamaV2能达到17.36 ms/step。

推理端侧论文/研究部署/工程
‹ 上一页
1…2324252627…50
下一页 ›