AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1192 条
全部一手资讯X论文
标签「推理」清除
5月28日周四
21:12TechCrunch:AI(RSS)54投资机构押注SambaNova成为下一个AI芯片突破者
20:36Hacker News 热门(buzzing.cc 中文翻译)55一款像大自然一样思考、探索人工智能无法触及领域的"尤里卡"机器
19:58公众号:龙猫LongCat(美团)44美团&顶会论文分享 | 5大专场,32篇论文解读
17:28HuggingFace Daily Papers(社区热门论文)68揭示逻辑推理的算法演绎电路
17:15IT之家(RSS)63消息称字节跳动正开发自有 CPU,以支持 AI 基础设施扩张
16:15IT之家(RSS)43雷神发布Master T系列AI工作站
14:28HuggingFace Daily Papers(社区热门论文)71精选DenoiseRL:通过恢复嘈杂前缀来引导推理模型
12:28HuggingFace Daily Papers(社区热门论文)62长存平衡:基于信息瓶颈的树策略优化
11:28HuggingFace Daily Papers(社区热门论文)66HRBench:混合推理大语言模型思考模式切换策略的评测与理解
11:28HuggingFace Daily Papers(社区热门论文)65基于双向进化搜索的大语言模型自我改进方法
11:28HuggingFace Daily Papers(社区热门论文)73精选VibeSearchBench:面向真实世界中长期主动搜索的评测基准
11:28HuggingFace Daily Papers(社区热门论文)60通过最优系数校准实现强化学习中的多Token预测联合训练
11:15IT之家(RSS)73精选英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%
10:28HuggingFace Daily Papers(社区热门论文)70精选ResearchMath-14K:通过智能体扩展研究级数学
10:14IT之家(RSS)36韩企 FuriosaAI 与博通合作开发下一代 2nm AI 推理加速器
10:14IT之家(RSS)65小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡
08:00HuggingFace Daily Papers(社区热门论文)50元认知记忆策略优化用于长时域LLM智能体
08:00HuggingFace Daily Papers(社区热门论文)56诊断答案正确的长链式推理训练轨迹中的有害延续
08:00HuggingFace Daily Papers(社区热门论文)56Domino:从自回归草拟中解耦因果建模的推测解码框架
08:00HuggingFace Daily Papers(社区热门论文)63PARCEL:基于池锚定重采样与条件弹性查询的高效视觉-语言理解架构
08:00HuggingFace Daily Papers(社区热门论文)56Draft-OPD: 投机草稿模型的在线策略蒸馏
08:00HuggingFace Daily Papers(社区热门论文)54ESPO: 早停近端策略优化
08:00HuggingFace Daily Papers(社区热门论文)51通过测试时训练线性化Vision Transformer
08:00HuggingFace Daily Papers(社区热门论文)55揭示自进化LLM智能体中的框架更新与框架增益能力
08:00HuggingFace Daily Papers(社区热门论文)64内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距
08:00HuggingFace Daily Papers(社区热门论文)55VisualThink-VLA: 用于高效低延迟视觉-语言-动作策略的视觉中间推理框架
08:00HuggingFace Daily Papers(社区热门论文)61看到不等于知道:视觉语言模型 (VLMs) 是否知道何时不应回答空间问题(以及为什么)?
04:38TechCrunch:AI(RSS)53对亚马逊而言又一利好消息,Snowflake与AWS签署60亿美元AI CPU芯片协议
5月27日周三
15:37MarkTechPost(RSS)67认识 EAGLE 3.1:修复 LLM 推理中注意力偏移的投机解码算法
15:19HuggingFace Daily Papers(社区热门论文)59协作并行思考:面向高效测试时缩放的协作并行思考框架
15:14IT之家(RSS)59Anthropic 的 Claude Mythos 也解出 80 年数学难题
14:02Hacker News 热门(buzzing.cc 中文翻译)54下个词预测技术将带给我们什么?
12:19HuggingFace Daily Papers(社区热门论文)67MobileMoE:扩展设备端混合专家系统
12:13IT之家(RSS)66英伟达 Vera 数据中心处理器首批跑分曝光,综合成绩比前代 Grace 快 63%
12:02Hacker News 热门(buzzing.cc 中文翻译)73小米 MiMo-v2.5 系列 API 永久降价,最高优惠达 99%
11:19HuggingFace Daily Papers(社区热门论文)72同事件精选MiniMax-M2系列:微小激活释放最大真实世界智能同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
11:13IT之家(RSS)58安全可靠等级 I 级:华为昇腾 310 / 910 人工智能训练推理芯片通过中国信息安全测评中心认证
10:19HuggingFace Daily Papers(社区热门论文)68递归流匹配
10:19HuggingFace Daily Papers(社区热门论文)58RT-Lynx:以正确方式利用 GEMM 稀疏性提升扩散模型性能
08:13IT之家(RSS)50IT早报 0527:卢伟冰称小米不能简单地把内存涨价成本转移给消费者;美光科技总市值突破 1 万亿美元;小米 MiMo-V2.5 系列 API 永久降价;尊界 V800 实车上路…
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月28日
21:12
TechCrunch:AI(RSS)
54
投资机构押注SambaNova成为下一个AI芯片突破者

投资机构General Compute看好AI芯片公司SambaNova的发展潜力,认为其将成为下一个取得突破的芯片制造商。

推理行业动态
20:36
Hacker News 热门(buzzing.cc 中文翻译)
55
一款像大自然一样思考、探索人工智能无法触及领域的"尤里卡"机器
推理论文/研究
19:58
公众号:龙猫LongCat(美团)
44
美团&顶会论文分享 | 5大专场,32篇论文解读

2026年,美团数十篇论文被ACL、SIGIR、ICML、KDD等顶会收录,精选32篇分为5大专场进行直播解读。内容涵盖大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向,既有底层能力突破也有生活服务落地探索。活动自6月11日起陆续直播,可报名参与。

多模态推理行业动态
17:28
HuggingFace Daily Papers(社区热门论文)
68
揭示逻辑推理的算法演绎电路

研究表明,大语言模型(LLMs)在符号辅助的 Chain-of-Thought(CoT)提示下,能够通过类似图遍历的算法实现逻辑推理。本研究旨在定位负责具体推理步骤的注意力头,并分析它们之间传递的信息类型。研究发现,在CoT提示框架下,引导推理进程的token位置常伴有低置信度分数。通过因果中介分析,识别出了负责特定推理模式的注意力头(约占总头数的3%)。进一步分析表明,LLMs通过专用注意力头获取单个子任务的事实与规则信息,而更高层的注意力头则主要负责信息整合与全局推理策略(如图遍历算法)的涌现,以协调多个中间步骤来解决整体任务。

arXiv推理论文/研究
17:15
IT之家(RSS)
63
消息称字节跳动正开发自有 CPU,以支持 AI 基础设施扩张

字节跳动因芯片价格上涨与供应短缺,正开发自有CPU以支持AI基础设施扩张,特别是推理阶段需求。公司计划将自研芯片部署在自有服务器和数据中心,并准备推出Coze等智能体产品。目前同时推进基于Arm和RISC-V的两套架构路线,正接触外部合作伙伴参与设计与产能争取,项目仍处于早期阶段。此前字节跳动从英特尔和AMD采购的CPU已面临10%至35%的涨价。

推理行业动态
16:15
IT之家(RSS)
43
雷神发布Master T系列AI工作站

雷神在新品发布会上推出了Master T系列塔式AI工作站。旗舰型号Master T9000至高可选96核心的AMD锐龙Threadripper PRO 9995WX处理器与四块AMD Radeon AI PRO R9700显卡,其FP8稀疏算力可达3096 TFLOPS,能够满足运行70B参数大语言模型全精度推理的需求。高阶型号Master T7000则可选AMD锐龙9 9950X3D2处理器,搭配单块Radeon AI PRO R9700显卡,提供766 TFLOPS的算力。

产品更新推理
14:28
HuggingFace Daily Papers(社区热门论文)
精选71
DenoiseRL:通过恢复嘈杂前缀来引导推理模型

DenoiseRL是一种强化学习框架,旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集,而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习,将错误转化为改进机会。这种方法提供了更丰富多样的学习信号,提升了探索效率。实验表明,DenoiseRL在竞争性的数学和通用推理基准测试中,持续优于强在策略RL基线,并能随着训练难度增加促进更强的自我纠正行为。

推理数据/训练论文/研究

推荐理由:做 RL for reasoning 的团队该看这篇,它把训练信号从“依赖强模型”转向“从弱模型的错误中学习”,可能降低对昂贵 teacher 的依赖,是个架构层面的新思路。
12:28
HuggingFace Daily Papers(社区热门论文)
62
长存平衡:基于信息瓶颈的树策略优化

该研究针对大语言模型在线强化学习中探索与利用的失衡问题,提出了新指标IB-Score,它基于信息瓶颈理论,量化了步级推理多样性与正确答案信息的权衡。分析表明,主流方法如GRPO难以维持此平衡。为此,论文提出IB-TPO框架,将IB-Score作为优化目标,并采用信息瓶颈引导的树采样策略,在相同token预算下可增加50%的轨迹。实验显示,该方法在标准基准上显著优于GRPO基线,性能提升2.9%至3.6%。代码已开源:https://github.com/alibaba/EfficientRL。

推理数据/训练论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
66
HRBench:混合推理大语言模型思考模式切换策略的评测与理解

本研究提出了HRBench,一个统一的评测框架,用于研究混合推理大语言模型的思考模式切换策略。框架从三类切换策略家族(基于提示的选择、外部路由、推测执行)与四种训练方式(免训练、SFT、离线RL、在线RL)两个维度设计空间,形成多种受控评测设置。研究在涵盖从Qwen3.5-2B到Kimi-K2.5-1.1T的6个模型,以及数学、科学、代码等5个推理基准上,重新实现了12余种现有方法并进行评估。分析表明,不同策略在有效性与效率的权衡中特点各异,且策略偏好随模型规模和任务领域变化。

GitHubHugging Face推理论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
65
基于双向进化搜索的大语言模型自我改进方法

针对现有大语言模型搜索方法(如 best-of-N 采样、树搜索)依赖稀疏验证信号且探索局限于高概率区域的问题,本文提出了双向进化搜索框架。该框架耦合了前向候选进化和后向目标分解。前向搜索利用进化算子重组部分轨迹,以生成难以通过单次模型展开获得的候选方案;后向搜索则递归分解原始任务,产生密集的中间反馈以指导搜索。理论分析表明,仅靠展开的搜索受限于窄熵壳,而进化算子可使其跳出,后向搜索则能指数级减少找到正确答案所需的样本数。实验显示,在主流后训练算法失效的任务上,BES 能带来一致性能提升;在三个开源问题求解基准的推理测试中,BES 在平均与最佳性能上均优于现有开源框架。

智能体开源/仓库推理论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
精选73
VibeSearchBench:面向真实世界中长期主动搜索的评测基准

基于LLM的智能体在现有搜索基准上表现优异,但真实用户体验不佳,这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估,无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此,研究提出了“VibeSearch”范式并发布了VibeSearchBench,该基准包含200个手工策划的双语任务,覆盖20个领域,分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示,所有模型在VibeSearch任务上表现均不充分(最佳F1分数为30.30),凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。

arXiv推理搜索论文/研究

推荐理由:所有前沿模型在长程主动搜索上都翻车了,最高F1才30,说明现在AI离真正理解你的模糊需求还有距离,做搜索的同学该重新想想架构了。
11:28
HuggingFace Daily Papers(社区热门论文)
60
通过最优系数校准实现强化学习中的多Token预测联合训练

可验证奖励的强化学习已成为提升大语言模型推理能力的标准范式,而多Token预测是预训练中广泛采用的模块。当前实践通常分离两者的梯度,因为联合训练会导致性能下降。该研究从优化角度重新分析了这一问题,提出最优系数校准方法,能以极低开销在线追踪最优系数。在六个竞赛级数学推理基准测试中,OCC方法持续匹配或超越分离基线,改善了联合MTP-RL的训练性能。

arXiv推理数据/训练论文/研究
11:15
IT之家(RSS)
精选73
英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架(如 Codex CLI、Claude Code、Qwen Code、Pi),通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示,基于 Qwen3.5-4B 模型,Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%(增涨 594.74%)。效率上,其 prefix_merging 技术将训练步骤从 1185 次降至 218 次,速度提升约 5.39 倍,GPU 平均利用率从 20.4% 升至 87.7%。

开源/仓库推理编码

推荐理由:Polar 把 Codex 的 SWE-Bench 分数从 3.8% 拉到 26.4%,不是靠新模型而是靠训练框架,做代码 agent 的团队可以直接用,开源即拿即训。
10:28
HuggingFace Daily Papers(社区热门论文)
精选70
ResearchMath-14K:通过智能体扩展研究级数学

本文介绍了ResearchMath-14K,这是一个包含14,056个研究级数学问题的数据集,通过多智能体流程从学术资料中策划而成,是目前此类规模最大的集合。研究还生成了ResearchMath-Reasoning(包含220K条教师轨迹),发现语言模型存在回避行为,且新一代模型产生的引用和虚假引用分别是旧模型的5.6倍和5.0倍。经过智能体过滤后,对参数规模为4B到30B的Qwen3模型进行微调,其平均得分比基础模型提高了9.2分,表明过滤后的开放问题尝试能为研究级数学推理提供有效监督。该数据集已公开发布。

arXiv推理数据/训练论文/研究

推荐理由:这可能是目前数学推理方向最有价值的数据集之一,它暴露了模型编造引用的问题,过滤后微调还能涨点,做数学推理的团队应该立刻拉下来试试。
10:14
IT之家(RSS)
36
韩企 FuriosaAI 与博通合作开发下一代 2nm AI 推理加速器

韩国企业 FuriosaAI 宣布将与博通合作开发其第三代 AI 推理加速器,目标 2028H1 出样。该芯片将结合 2nm 制程计算裸晶、独立 I/O 裸晶、HBM4 内存堆栈,并采用博通的 SUE 技术实现机架内全连接。FuriosaAI 称其 TCP 架构针对 AI 计算进行了优化,专注于高带宽数据传输。博通方面表示,此合作旨在解决大规模智能体 AI 在通信效率方面的关键瓶颈。

推理行业动态部署/工程
10:14
IT之家(RSS)
65
小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡

小米宣布 MiMo-V2.5 系列 API 永久降价,最高降幅达 99% 且不再区分上下文窗口长度。负责人罗福莉解释,核心原因是推理框架实现了针对 SWA 的分层 KV 缓存优化,将 Token 容量提升 5 倍,相当于降低 80% 的缓存成本。结合模型 1:7 的稀疏架构,其原始推理成本远低于行业平均水平,此次降价是将结构性成本优势直接让利给开发者。她也建议 LLM 公司不要盲目降价,需有相应的架构和优化能力支撑。

产品更新推理部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
50
元认知记忆策略优化用于长时域LLM智能体

记忆增强的LLM智能体通过递归摘要交互轨迹应对长时域任务,但现有结果导向强化学习无法定位中间记忆质量下降。本研究提出信念熵(Belief Entropy)作为自监督代理,衡量模型对潜在任务状态的不确定性,并在此基础上提出元认知记忆策略优化(MMPO),通过惩罚高认知不确定性的摘要提供细粒度监督。实验表明,MMPO在多种长时域任务上持续优于现有方法,在扩展到1.75M token上下文时仍保持97.1%性能。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
诊断答案正确的长链式推理训练轨迹中的有害延续

本研究探讨用于大语言模型监督微调的长链式推理轨迹。研究发现,即使推理轨迹答案正确,其在结论后仍继续的推理部分也可能对训练产生有害影响,导致微调结果显著不同。这种现象被定义为“有害延续”,其特征是持续的局部不确定性与减弱的终端方向进展不匹配。通过编辑器删除这些有害延续后,基于CoT的微调结果得到改善。研究进一步提出了Harmful Continuation Cut(HCC),作为近似有害延续边界的轻量级代理方法。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Domino:从自回归草拟中解耦因果建模的推测解码框架

Domino是一种用于加速大语言模型推理的推测解码框架,它将因果依赖建模与高开销的自回归草拟过程解耦。该框架首先使用并行草拟骨干网络为整个块生成初步的草拟分布,随后应用一个轻量级的Domino头,利用前缀相关的因果信息对初步分布进行精细化修正。为稳定训练过程,论文提出了基础锚定训练课程,先强化并行骨干,再逐步优化因果修正后的最终分布。在Qwen3模型上的实验表明,Domino在Transformers后端下实现了高达5.49倍的端到端加速,在SGLang服务下实现了高达5.8倍的吞吐量加速。

arXivHugging Face推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
PARCEL:基于池锚定重采样与条件弹性查询的高效视觉-语言理解架构

大型视觉语言模型在推理时面临将视觉输入映射为密集token序列带来的二次计算瓶颈。现有视觉token压缩方法在激进压缩下会损失空间保真度。本文提出PARCEL,一种新的视觉token化架构。它通过建立空间池token作为低频布局锚点,并以此为条件对弹性查询token进行重采样,从而动态分配特征提取任务。在27项基准测试中,PARCEL在不同视觉token预算下均优于现有基线方法,改善了性能与效率的帕累托前沿。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Draft-OPD: 投机草稿模型的在线策略蒸馏

本文提出Draft-OPD,一种用于改进投机解码中草稿模型的在线策略蒸馏方法。针对现有监督微调方法(如EAGLE3、DFlash)存在的离线数据与推理状态不匹配问题,Draft-OPD采用目标模型辅助的序列展开,从验证步骤暴露的错误位置进行重放学习。这使草稿模型能从目标模型对其提议的接受和拒绝反馈中优化。实验表明,该方法对各类思考模型实现了超过5倍的无损加速,相比EAGLE-3和DFlash分别取得了23%和13%的性能提升。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
ESPO: 早停近端策略优化

ESPO(Early-Stopping Proximal Policy Optimization)是一种强化学习算法,它能在生成过程中实时检测失败轨迹并提前终止,以节省计算资源。该方法通过计算代理后悔值,当平滑后的累积后悔值显著超过预期时便停止生成。被截断的轨迹被视为吸收失败状态。在针对DeepSeek-R1-Distill-Qwen-7B模型的数学推理训练中,ESPO在AIME 2024、AMC 2023和MATH-500等基准上的表现均优于PPO,并累计节省了超过20%的回滚token。

arXivDeepSeek推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
通过测试时训练线性化Vision Transformer

本研究提出一种将预训练Transformer(如Stable Diffusion 3.5)线性化的方法。通过架构与表示的双重对齐,具体识别了TTT架构与Softmax注意力的结构相似性,并引入关键实例归一化等模块来对齐表示特性。仅在4xH20 GPU上进行1小时微调,所得SD3.5-T^5模型就能达到与微调Softmax模型相当的文本到图像生成质量,同时在1K和2K分辨率下分别实现1.32倍和1.47倍的推理加速。代码已开源。

图像生成开源/仓库推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
揭示自进化LLM智能体中的框架更新与框架增益能力

研究揭示了自进化LLM智能体中两种能力的独立表现。框架更新能力与模型基础能力无关,不同层级模型产生的框架更新所带来的增益相近,如Qwen3.5-9B的更新增益与Claude Opus~4.6相当。框架增益能力与基础能力呈非单调关系:弱模型难以从更新中受益,中等模型受益最大,强模型收益反而低于中等模型。弱模型的失败模式包括无法激活相关构件,或激活后未能遵循指令。研究建议将能力预算投入任务执行智能体而非更新器。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距

研究表明,物理AI系统中的批量1大语言模型解码是内存主导的,但更快的内存并不带来比例性的延迟收益。通过对三款7-8B级别的GQA Transformer模型在四款NVIDIA GPU上的测量发现,例如在Qwen-2.5-7B(上下文长度2048)场景下,L4能达到其内存地板的81%,而H100仅为27%。CUDA Graphs优化在H100上将解码延迟提升1.259倍,在L4上仅为1.028倍。部署方面,常见的量化路径未能完全兑现预期的4倍权重流量削减,例如AutoAWQ+Marlin在bf16基线62.32 ms/step上优化至45.24 ms/step,而GPTQ+ExLlamaV2能达到17.36 ms/step。

推理端侧论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
VisualThink-VLA: 用于高效低延迟视觉-语言-动作策略的视觉中间推理框架

本文提出 VisualThink-VLA,一个用于 VLA 策略的视觉中间推理框架,旨在解决文本思维链在具身控制中因信息干扰和解码延迟高导致的实时执行难题。该框架通过一个紧凑的视觉证据接口引导动作预测,在保留空间精度的同时避免了解码开销。其采用选择性路由机制学习视觉证据 token,以实现低延迟推理。研究引入了 VisualEvidence-Kit,其中包含一个构建了 754.7k VLA 指令集的视觉证据智能体。在多项基准和真实机器人评估中,该框架在大多数任务上成功率最高,并将推理增强基线的多秒级延迟降至亚秒级。例如,在 BridgeData V2 上,其将步骤延迟从 ECoT 的 8.377 秒降至 0.367 秒,实现了 22.8 倍的加速。

智能体具身智能推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
看到不等于知道:视觉语言模型 (VLMs) 是否知道何时不应回答空间问题(以及为什么)?

研究构建了 SpatialUncertain 评估框架,测试多种前沿视觉语言模型 (VLMs)。在遮挡和视角歧义两种空间观察挑战下,模型平均准确率分别约为 30% 和低于 10%,并常无法识别应转向的额外视角。研究主张评估重点需从回答正确性转向模型对何时放弃作答及如何寻求可靠证据的认知。

多模态推理论文/研究评测/基准
04:38
TechCrunch:AI(RSS)
53
对亚马逊而言又一利好消息,Snowflake与AWS签署60亿美元AI CPU芯片协议

Snowflake与AWS签署了一项为期五年、价值60亿美元的协议,以确保其AI工作负载所需的CPU芯片供应。此举为Amazon带来了显著利好,并可能对Nvidia在AI芯片领域的市场地位构成压力。

推理行业动态部署/工程
5月27日
15:37
MarkTechPost(RSS)
67
认识 EAGLE 3.1:修复 LLM 推理中注意力偏移的投机解码算法

EAGLE团队与vLLM、TorchSpec联合发布EAGLE 3.1,旨在修复大语言模型推理过程中的投机解码算法不稳定性问题。

开源/仓库推理部署/工程
15:19
HuggingFace Daily Papers(社区热门论文)
59
协作并行思考:面向高效测试时缩放的协作并行思考框架

为解决大语言模型并行测试时缩放(TTS)中各分支信息隔离导致的重复探索问题,研究提出了协作并行思考(CPT)框架。该框架无需训练,可在推理时跨并行分支共享中间发现:它从各分支提取紧凑信息,维护一个去重的查询级信息池,并通过输入上下文广播信息,使后续分支能复用已有发现。在 HMMT 和 AIME 基准上的实验表明,CPT 在不同预算和模型规模下,均比强基线方法建立了更好的准确率-延迟帕累托前沿,验证了搜索时协作是实现高效并行 TTS 的有效方向。

arXiv推理搜索论文/研究
15:14
IT之家(RSS)
59
Anthropic 的 Claude Mythos 也解出 80 年数学难题

继 OpenAI 宣布利用 GPT-5.5 模型攻克保罗·埃尔德什提出的“平面单位距离猜想”后,Anthropic 工程师 Sholto Douglas 在 X 平台表示,其模型 Claude Mythos 也独立解出了这道存在 80 年的数学难题。Douglas 称 Claude Mythos 给出了一份“巧妙而简洁”的证明,并通过一个由多个 Claude Code 实例组成的系统完成。数学家 Daniel Litt 评价该结果略逊于 OpenAI 的版本。

Anthropic推理行业动态
14:02
Hacker News 热门(buzzing.cc 中文翻译)
54
下个词预测技术将带给我们什么?

文章围绕“下个词预测”技术,探讨了其在当前与未来的可能影响及面临的局限性。它提出了一个核心问题:这一技术将把我们带向何处。

推理现象/趋势
12:19
HuggingFace Daily Papers(社区热门论文)
67
MobileMoE:扩展设备端混合专家系统

MobileMoE是一系列面向设备端部署的大语言模型,采用混合专家架构,其活动参数规模为0.3-0.9B,总参数量为1.3-5.3B。该研究在移动设备内存与算力约束下,确定了“中等稀疏度结合细粒度共享专家”的最优架构设计。通过涵盖预训练、中期训练、指令微调与量化感知训练的四阶段流程,MobileMoE在14个基准测试中,以2-4倍更少的推理FLOPs达到或超越了领先的设备端密集模型性能,并以最多60%更少的参数量匹配或超过了先进的OLMoE-1B-7B模型。在商用智能手机上,其预填充和解码速度分别比密集基线MobileLLM-Pro快1.8-3.8倍和2.2-3.4倍。

推理端侧论文/研究
12:13
IT之家(RSS)
66
英伟达 Vera 数据中心处理器首批跑分曝光,综合成绩比前代 Grace 快 63%

英伟达Vera数据中心处理器基准测试成绩显示,其基于Arm v9.2指令集和88个Olympium核心,综合平均性能比前代Grace快63%,同时领先AMD EPYC 9575F 10%及Intel Xeon 6980P 55%。该处理器专为Agentic AI设计,官方称性能比x86处理器高出1.5倍。

推理评测/基准
12:02
Hacker News 热门(buzzing.cc 中文翻译)
73
小米 MiMo-v2.5 系列 API 永久降价,最高优惠达 99%

小米 MiMo-v2.5 系列 API 宣布进行永久性价格下调,其中部分模型的最高优惠幅度可达 99%。

产品更新推理
关联讨论 1 条X:Kim (@kimmonismus)
11:19
HuggingFace Daily Papers(社区热门论文)
同事件精选72
MiniMax-M2系列:微小激活释放最大真实世界智能

MiniMax推出M2系列大语言模型。其旗舰模型M2采用混合专家(MoE)架构,总参数229.9B,每个token仅激活9.8B参数。该系列专为智能体部署设计,基于三大组件构建:智能体驱动的数据管道、可扩展的智能体原生强化学习系统Forge,以及展示早期自我进化能力的M2.7检查点。这种设计使其在智能体编码、深度搜索、办公任务及推理基准测试中达到了前沿性能水平。

智能体推理模型发布
同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》
推荐理由:MiniMax 把激活参数压到 9.8B 却敢喊前沿,整套 design 都是为 agent 场景重做的,搞 agent 的开发者该认真看一眼这个信号。
11:13
IT之家(RSS)
58
安全可靠等级 I 级:华为昇腾 310 / 910 人工智能训练推理芯片通过中国信息安全测评中心认证
推理行业动态
10:19
HuggingFace Daily Papers(社区热门论文)
68
递归流匹配

递归流匹配(RecFM)是一种用于预测复杂时空动态的生成式框架。该模型通过强制自一致性来对齐跨离散化尺度的轨迹,从而减少离散化误差并提升物理任务的各项性能。据称,这是首个能够为科学系统实现高保真度一步与少步(2-4步)动态生成的方法,其性能可与最先进的多步求解器相媲美。在多个科学基准测试中,RecFM 实现了最高 20 倍于领先扩散模型的速度提升,同时提高了预测精度。与基础流匹配相比,其均方误差降低了超过 15%。

arXiv推理数据/训练论文/研究
10:19
HuggingFace Daily Papers(社区热门论文)
58
RT-Lynx:以正确方式利用 GEMM 稀疏性提升扩散模型性能

RT-Lynx 提出了一种新范式,将扩散模型(Diffusion Transformers)的加速方法从权重稀疏化转向激活稀疏化。研究发现,DiT 模型的激活值具有内在稀疏性,且比权重更耐受 N:M 半结构化稀疏剪枝。通过在激活上应用 N:M 稀疏化并引入误差补偿技术,RT-Lynx 在保持生成质量的同时,实现了线性层平均最高 1.55 倍的推理速度提升。该方法在多个扩散模型上通过了实验验证。

图像生成推理论文/研究
08:13
IT之家(RSS)
50
IT早报 0527:卢伟冰称小米不能简单地把内存涨价成本转移给消费者;美光科技总市值突破 1 万亿美元;小米 MiMo-V2.5 系列 API 永久降价;尊界 V800 实车上路…
推理编码行业动态
‹ 上一页
1…1213141516…30
下一页 ›