AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1187 条
全部一手资讯X论文
标签「推理」清除
6月18日周四
19:44HuggingFace Daily Papers(社区热门论文)48EfficientRollout:面向RL推理生成的自推测解码框架
17:17MarkTechPost(RSS)41KV缓存压缩竞赛:TurboQuant vs OSCAR vs EpiCache
15:20The Decoder:AI News(RSS)75Gemini 联合负责人 Noam Shazeer 加入 OpenAI
14:45Hacker News 热门(buzzing.cc 中文翻译)68本地版 Qwen 并不是比 Opus 差,它只是另一种工具
11:14IT之家(RSS)47华为昇腾 0 Day 支持智谱 GLM-5.2 模型,提供全面推理优化
08:14IT之家(RSS)53SK海力士向主要客户供应12层HBM4E样品,面向AI的下一代超高性能DRAM
08:00HuggingFace Daily Papers(社区热门论文)46Vesta:通用具身推理模型
08:00HuggingFace Daily Papers(社区热门论文)50CogniRoute:全模态社交推理的模式引导MoE框架
08:00HuggingFace Daily Papers(社区热门论文)48Grouped Query Experts:在 GQA 自注意力上的混合专家模型
08:00HuggingFace Daily Papers(社区热门论文)46流形赌博机:基于大语言模型潜在几何结构的贝叶斯课程学习
03:48xAI:News(网页)61精选Grok 4.3 在 Amazon Bedrock 正式可用
01:53LMSYS:Blog(Chatbot Arena 团队)69精选用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中
01:47The Decoder:AI News(RSS)76同事件精选智谱AI发布GLM-5.2,百万token上下文下的开源编码模型逼近闭源标杆同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
00:32Hacker News 热门(buzzing.cc 中文翻译)61GLM-5.2 (max) 性能、价格与开源发布
6月17日周三
23:32Google Blog:AI(RSS)55精选Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理
22:01Hacker News 热门(buzzing.cc 中文翻译)57当人工智能接管一切之后
19:27Hacker News 热门(buzzing.cc 中文翻译)57GLM-5.2 成为 Artificial Analysis 智能指数领先开放权重模型
17:38Hugging Face:Blog(RSS)83GLM-5.2:为长周期任务而生
16:07IT之家(RSS)48算苗科技 3D TokenPU 芯片正式流片:3D 混合堆叠架构,全流程国产化
16:05MarkTechPost(RSS)70同事件精选MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
15:36HuggingFace Daily Papers(社区热门论文)47从自我未来学习:面向dLLMs的在线策略自蒸馏
12:05IT之家(RSS)47小艺 Claw 接入开源盘古 openPangu 2.0 Pro,提升鸿蒙系统级任务执行能力
11:35HuggingFace Daily Papers(社区热门论文)40ChLogic:中文逻辑推理鲁棒性评估基准
10:33HuggingFace Daily Papers(社区热门论文)49近侧发展区策略优化(ZPPO):教师知识注入提示词而非梯度
10:33HuggingFace Daily Papers(社区热门论文)51LoopCoder-v2:仅循环一次实现高效测试时计算扩展
08:00HuggingFace Daily Papers(社区热门论文)40数据配方显著提升大语言模型长上下文推理能力
08:00HuggingFace Daily Papers(社区热门论文)47TAPO:通过构建微反射修正轨迹改进自蒸馏的强化学习方法
08:00HuggingFace Daily Papers(社区热门论文)51DelveAgent与PhySciBench:物理科学深度研究的多智能体框架与综合基准
08:00HuggingFace Daily Papers(社区热门论文)50FAPO:多步LLM管道的全自主提示优化框架
07:02IT之家(RSS)55高通发布骁龙 Reality Elite 旗舰 XR 芯片,AI 算力提升 160%
06:56Hacker News 热门(buzzing.cc 中文翻译)69SubQ 1.1 Small
6月16日周二
23:30HuggingFace Daily Papers(社区热门论文)53ExpRL:探索性RL用于LLM中期训练
22:01Nathan Lambert:Interconnects(RSS)52前沿大模型后训练配方回顾:与 Finbarr Timbers 对谈
21:18TechCrunch:AI(RSS)58Probably 获 900 万美元种子轮,构建更可靠的 AI 错误检测系统
16:00IT之家(RSS)69OpenRouter 发布 Fusion API,多模型协同以一半成本接近 Claude Fable 5 性能
13:27HuggingFace Daily Papers(社区热门论文)49Tangram:解锁非均匀KV缓存压缩以高效服务多轮对话大语言模型
13:27HuggingFace Daily Papers(社区热门论文)42PauseRec:面向生成式推荐的轻量隐式推理范式
12:27HuggingFace Daily Papers(社区热门论文)61VibeThinker-3B:小模型可验证推理前沿探索技术报告
11:27HuggingFace Daily Papers(社区热门论文)44TIE:基于轨迹的掩码扩散语言模型集成框架
11:00IT之家(RSS)44Tensordyne Napier 流片:宣称平台 AI 推理吞吐 13 倍于 Blackwell 系统
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
19:44
HuggingFace Daily Papers(社区热门论文)
48
EfficientRollout:面向RL推理生成的自推测解码框架

强化学习成为大语言模型主流后训练范式,但推理生成中自回归解码的长尾延迟成为瓶颈。传统推测解码依赖固定草稿模型,无法适应RL中不断演化的策略分布。EfficientRollout提出系统感知的自推测解码框架:从目标模型量化出草稿模型,无需额外预训练或在线适应;同步采用系统感知的SD开关策略与接受感知的草稿长度自适应。相比加速的自回归基线,该框架将推理生成延迟降低最高19.6%,端到端延迟降低12.7%,且不损失最终模型质量。

推理数据/训练论文/研究
17:17
MarkTechPost(RSS)
41
KV缓存压缩竞赛:TurboQuant vs OSCAR vs EpiCache

长上下文大语言模型的KV缓存随序列和批次线性增长,成为内存和延迟瓶颈。Google与NYU的TurboQuant采用数据无关随机旋转与最优标量量化,在3–4 bit位宽实现近乎无损,4×压缩下Needle-in-a-Haystack全精度召回。Together AI的OSCAR使用注意感知旋转校准,INT2(2.28有效比特)下精度不崩溃,集成SGLang,Qwen3-32B上仅差0.02分,GLM-4.7-FP8匹配BF16,解码速度提升约3倍,KV缓存内存减少约8倍。Apple的EpiCache则针对两者均未解决的多轮对话场景。两者在各自目标位宽上各有优劣,具有理论互补潜力。

Google推理评测/基准部署/工程
15:20
The Decoder:AI News(RSS)
75
Gemini 联合负责人 Noam Shazeer 加入 OpenAI

"Attention Is All You Need"论文合著者 Noam Shazeer 离开 Google 加入 OpenAI。他此前担任 Google 工程副总裁,与 Jeff Dean、Oriol Vinyals 共同领导 Gemini 模型。Shazeer 于 2000 年加入 Google,2021 年离职创办 AI 聊天机器人初创公司 Character.AI,2024 年作为价值 27 亿美元交易的一部分返回 Google,负责改进公司至今未追上 OpenAI 和 Anthropic 的推理模型。此次跳槽是今年最重大的 AI 人才变动之一。

GoogleOpenAI推理行业动态
关联讨论 8 条IT之家(RSS)X:Kim (@kimmonismus)X:Jason Liu (@jxnlco)X:Yuchen Jin (@Yuchenj_UW)Hacker News 热门(buzzing.cc 中文翻译)X:歸藏 (@op7418)X:Sam Altman (@sama)TechCrunch:AI(RSS)
14:45
Hacker News 热门(buzzing.cc 中文翻译)
68
本地版 Qwen 并不是比 Opus 差,它只是另一种工具

一位小型软件公司创始人基于自身业务和开源项目分享,本地 Qwen 27B/35-A3B 模型在特定场景下有实际价值,使用 RTX 6000 Pro 显卡运行,显卡成本已在头两三个月内收回。但本地模型量化后容易出现无限循环和模型幻觉,无法无人监督使用,作者认为不应过度吹捧替代云端 Opus,而是把它看作另一种工具。

开源生态推理现象/趋势部署/工程
11:14
IT之家(RSS)
47
华为昇腾 0 Day 支持智谱 GLM-5.2 模型,提供全面推理优化

昇腾 A3 系列已全面支持 GLM-5.2 单双机及大 EP 推理部署,围绕 MOE 大融合算子、通信计算融合、注意力前处理与多 Token 预测、高并发调度与预填充延迟、智能缓存与索引优化、PD 分离与 Prefix Cache 等关键技术进行高效推理优化。GLM-5.2 在 Code Arena 全球盲测中获可用模型第一;专为长程任务设计,支持 1M 上下文,表现介于 Claude Opus 4.7 与 4.8 之间,为排名最高的开源模型。该模型已在 Day 0 完成与华为昇腾、平头哥、摩尔线程等国产算力平台的推理适配,单位 token FLOPs 降至 2.9 倍。

推理行业动态部署/工程
08:14
IT之家(RSS)
53
SK海力士向主要客户供应12层HBM4E样品,面向AI的下一代超高性能DRAM

SK海力士今日宣布,已向主要客户供应12层HBM4E样品。该产品是面向AI的下一代超高性能DRAM,较HBM4引脚速率最高达16Gbps,能效提高20%以上,热阻降低约17%。采用先进MR-MUF工艺,12层堆叠实现48GB容量,并降低数据传输延迟,旨在提升下一代AI数据中心和大规模计算系统的处理效率。

产品更新推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
46
Vesta:通用具身推理模型

Vesta是一个统一的具身通用基础模型,将定位、空间推理、导航和长期规划能力整合于单一模型。通过大规模空间感知数据集和简单的多模态记忆机制,Vesta在多种基准测试中平均超过单个SOTA基线20%以上,并优于按类别最佳基线集成的结果10%以上。在需要记忆与推理的真实机器人任务中,Vesta将任务成功率提升35%以上,表明单一通用模型在可行性和可扩展性上优于多模型组合方案。

具身智能推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
CogniRoute:全模态社交推理的模式引导MoE框架

CogniRoute 是一个基于模式引导的混合专家(MoE)框架,专用于全模态社交推理。它在训练时通过认知模式分解跨模态关系、推理需求和时序范围,并在监督微调中对齐全局路由签名;还引入路由感知强化学习,联合优化 token 生成与专家分配。在 OmniSocialBench(含118K结构化训练示例的诊断性社交视频问答数据集)上,CogniRoute 平均准确率达59.38%,比最强专有基线高15.33个百分点,比最强开源全模态基线高26.77个百分点,在视听协调、冲突解决和时序社交推理上提升最大。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Grouped Query Experts:在 GQA 自注意力上的混合专家模型

Grouped Query Experts(GQE)在分组查询注意力(GQA)的每个组内增加混合专家层,由路由器为每个 token 挑选 k 个 query-head 专家激活,而所有 key-value 头保持密集不变。在 250M 参数规模、30B token 预算下,GQE 在下游准确率上与全激活 GQA 基线持平,同时每 token 仅激活一半 query heads,减少了注意力计算量。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
流形赌博机:基于大语言模型潜在几何结构的贝叶斯课程学习

强化学习中,问题采样策略对提升大语言模型(LLM)推理能力至关重要。现有自适应课程学习方法将问题选择视为独立臂的赌博机问题,忽略了任务空间的结构化异质性。本文提出贝叶斯流形课程(BMC),将问题采样建模为流形结构的非平稳赌博机,利用层次任务树和贝叶斯学习引导采样。实验表明,不同采样策略在生产率、多样性和效用间存在权衡,仅优先难度不足以实现强下游性能。

推理数据/训练论文/研究
03:48
xAI:News(网页)
精选61
Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日,xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 Artificial Analysis Omniscience 基准排名第一,在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一,在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。

xAI推理模型发布

推荐理由:Grok 4.3 登陆 Bedrock,把极低幻觉率和可配置推理带给了 AWS 用户,价格也摆在了 Pareto 前沿,不过本质上是一次渠道扩展而非模型突破,企业开发者可以尝鲜。
01:53
LMSYS:Blog(Chatbot Arena 团队)
精选69
用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1.77倍(mc=512)。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

推理论文/研究部署/工程

推荐理由:这是针对TPU上MoE推理的硬核优化复盘,用成本模型定位瓶颈,通过单内核融合把延迟砍半,对做大规模推理工程的团队是高质量参考。
01:47
The Decoder:AI News(RSS)
同事件精选76
智谱AI发布GLM-5.2,百万token上下文下的开源编码模型逼近闭源标杆

智谱AI发布GLM-5.2,在MIT许可下提供稳定百万token上下文。编码方面,FrontierSWE得分74.4%,仅落后Claude Opus 4.8一个百分点,领先GPT-5.5;PostTrainBench超越GPT-5.5和Opus 4.7,仅次于Opus 4.8;SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分(GLM-5.1为63.5),SWE-bench Pro得62.1。推理HLE落后约十个百分点,AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器,百万token计算量降低2.9倍;投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊,智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。

开源生态推理模型发布编码
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:智谱的GLM-5.2把编码马拉松的分数拉到只差Opus一分,加上1M稳定上下文,是当前最强的开源编码模型,做agentic coding的可以上手试试。
00:32
Hacker News 热门(buzzing.cc 中文翻译)
61
GLM-5.2 (max) 性能、价格与开源发布

智谱AI于2026年6月发布开源推理模型GLM-5.2 (max),总参数753B,活跃参数40B,支持文本输入输出,上下文窗口1M tokens。在Artificial Analysis Intelligence Index上以51分位居同类92款模型第一。输出速度111 tokens/s(第15/92)。价格输入$1.40/百万tokens、输出$4.40/百万tokens,属较贵一档;缓存命中$0.26/百万tokens(便宜81%)。模型权重以MIT协议开源发布于HuggingFace。

开源/仓库推理评测/基准
6月17日
23:32
Google Blog:AI(RSS)
精选55
Google 医学推理 AI 系统 AMIE 新研究:从诊断迈向长期疾病管理

今日发表在《自然》杂志上的研究展示了 Google 的医学推理 AI 系统 AMIE(Articulate Medical Intelligence Explorer)从单次诊断对话演进到长期疾病管理的能力。AMIE 利用 Gemini 模型的长上下文能力,整合共情对话智能体和深度思考管理推理智能体,可交叉引用数百页临床指南。在盲测中,AMIE 与 21 名初级保健医生相比,在整体管理推理上匹配临床医生,在计划精确性和指南一致性上得分显著更高。

Google推理论文/研究

推荐理由:Google 把医疗 AI 从一次诊断推到了长期疾病管理,Nature 上的对照实验显示它在计划精确性上甚至优于初级保健医生,做数字健康的人值得认真读一下。
22:01
Hacker News 热门(buzzing.cc 中文翻译)
57
当人工智能接管一切之后

三位软件工程师来信询问AI是否会全面接管编程。作者回答最早今年底、最迟后年。以珍妮纺织机为喻,学会用新工具只是缓刑;美团宣布30%–50%裁员印证趋势。作者提出“终端思维”:意图即实现(PRD is Code),中间步骤注定消失。最终问题:当执行被机器接管,人类站在哪里?

推理现象/趋势编码
19:27
Hacker News 热门(buzzing.cc 中文翻译)
57
GLM-5.2 成为 Artificial Analysis 智能指数领先开放权重模型

GLM-5.2 在 Artificial Analysis Intelligence Index v4.1 上得分 51,领先 MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和 Kimi K2.6(43)。模型总参数 744B,活跃参数 40B,上下文窗口 1M tokens,API 定价每百万输入/输出/缓存命中 token 分别为 $1.4/$4.4/$0.26。科学推理显著提升:HLE 得分 40%(+12)、CritPt 21%(+16)。GDPval-AA v2 得分 1524,与 GPT-5.5(xhigh)持平。每任务输出 43k tokens(其中 37k 推理),每任务成本约 $0.46,位于智能 vs 成本帕累托前沿。采用 MIT 许可证,可通过 DeepInfra、Novita 等第三方平台使用。

智能体推理评测/基准
17:38
Hugging Face:Blog(RSS)
83
GLM-5.2:为长周期任务而生

GLM-5.2 发布,支持 1M token 上下文,采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器,将 1M 上下文下每 token FLOPs 降低 2.9 倍;MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上,FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%;PostTrainBench 仅次于 Opus 4.8;SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分(GLM-5.1 为 63.5),接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可,无地域限制。

开源生态推理模型发布编码
关联讨论 8 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)
16:07
IT之家(RSS)
48
算苗科技 3D TokenPU 芯片正式流片:3D 混合堆叠架构,全流程国产化

算苗科技于6月15日宣布旗下全国产自研3D TokenPU芯片正式流片。该芯片采用3D混合堆叠架构,通过多层晶圆垂直堆叠缩短存储与计算单元的数据传输路径,搭载16TB/s带宽,面向大模型线上推理场景优化。芯片从架构设计到流片制造均依托国内产业链完成,适配通用大模型、多模态生成、实时对话等高负载推理任务,补强了国内高端AI算力硬件的自主供给能力。

产品更新推理部署/工程
16:05
MarkTechPost(RSS)
同事件精选70
MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型

MiniMax 发布 MSA(MiniMax Sparse Attention),一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支:索引分支以块粒度(默认 128 token)为每个 GQA 组选择 16 个 token 块(固定预算 2048 个键值 token),主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练,开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100(MIT 许可,支持 BF16/FP8/NVFP4/FP4),并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5,与全注意力基线持平。128K 上下文下,其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。

开源生态推理模型发布部署/工程
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax 把长上下文注意力从 O(N) 压到固定每查询 2048 token,还同时开源高效内核与生产模型,对做长上下文 agent 的团队是即时可用的方法,遗憾是只限 SM100 GPU。
15:36
HuggingFace Daily Papers(社区热门论文)
47
从自我未来学习:面向dLLMs的在线策略自蒸馏

d-OPSD是针对扩散大语言模型(dLLMs)提出的首个在线策略自蒸馏框架。其核心贡献包括:利用自生成答案作为后缀条件,使学生模型从自我未来经验学习;并将监督从token级转向step级,与dLLMs的迭代去噪过程对齐。在四个推理基准上,d-OPSD一致优于RLVR和SFT基线,且仅需RLVR约10%的优化步骤,展现出显著的样本效率。代码已开源。

推理数据/训练论文/研究
12:05
IT之家(RSS)
47
小艺 Claw 接入开源盘古 openPangu 2.0 Pro,提升鸿蒙系统级任务执行能力

小艺 Claw 接入开源盘古 openPangu 2.0 Pro 模型,重点提升鸿蒙系统级任务执行能力。该模型更亲和昇腾算力,单卡吞吐率达其他主流开源模型的 2 倍,Agent 任务更快更准更省。拥有 512K 上下文,含 Pro 与 Flash 两版本:2.0 Pro 总参数量 505B、激活参数量 18B;2.0 Flash 总参数量 92B、激活参数量 6B。openPangu 2.0 计划从 6 月 30 日起陆续开源 7 大组件,包括预训练代码、后训练代码、训练算子。

智能体产品更新推理
11:35
HuggingFace Daily Papers(社区热门论文)
40
ChLogic:中文逻辑推理鲁棒性评估基准

大语言模型在逻辑推理基准上表现良好,但中文环境下的鲁棒性未知。研究团队提出中英文对齐基准ChLogic,包含通用对齐集(60条命题)、困难对齐集(40道难题)及纯中文集(15类语言现象),每个对齐项含一条英文参考和五种中文实现。在Qwen3、Ministral和GLM上的实验显示中英文性能持续存在差距。将中文回译成英文可提升通用集表现,但在困难集上效果混杂,Qwen3-32B和GLM-5.1翻译后性能反而下降。这表明中文实现、翻译伪影和模型特定行为共同影响多语言逻辑推理。

arXiv推理评测/基准
10:33
HuggingFace Daily Papers(社区热门论文)
49
近侧发展区策略优化(ZPPO):教师知识注入提示词而非梯度

ZPPO将教师模型的知识注入提示词而非策略梯度,避免小模型因全部探索失败而丢弃样本。对困难问题构造二元候选问题(BCQ)让学生区分正确与错误回答,及负候选问题(NCQ)聚合错误模式;提示回放缓冲区循环困难问题直至达标或淘汰。在Qwen3.5系列0.8B至9B学生搭配27B教师,经视觉语言模型后训练并在31项基准测试中评估,ZPPO全面优于离策略/在策略蒸馏和GRPO,最小规模提升最大。

arXiv推理数据/训练论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
51
LoopCoder-v2:仅循环一次实现高效测试时计算扩展

LoopCoder-v2 是一族 7B 参数的并行循环 Transformer(PLT)代码模型,从零在 18T tokens 上预训练。与无循环基线相比,两循环变体在代码生成、推理、智能体软件工程和工具使用基准上广泛提升,SWE-bench Verified 从 43.0 到 64.4,Multi-SWE 从 14.0 到 31.0。三循环及以上变体性能下降,揭示循环计数的非单调效应:循环 2 提供主要改进,后续循环产生递减振荡更新,而 CLP 引入的位置偏移代价固定,导致两循环饱和。

arXiv推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
数据配方显著提升大语言模型长上下文推理能力

该研究提出一种仅需最小化结果导向GRPO设置的数据配方,即可显著提升大语言模型的长上下文推理能力。配方针对检索、多证据合成与推理三类互补任务,构建并筛选8个数据集共约14K样本。在Qwen3-4B、8B及30B-A3B三个模型上,该配方在7项长上下文基准测试中平均分别提升+7.2、+3.2、+6.4分,超越此前强化学习训练集。这些增益可迁移至智能体任务:在已微调的模型上继续训练,使GAIA提升+4.8分、BrowseComp提升+7.0分。数据集将开源。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
TAPO:通过构建微反射修正轨迹改进自蒸馏的强化学习方法

针对自蒸馏仅通过隐式 logit 对齐最小化 KL 散度、缺乏对模型具体错误诊断的问题,论文提出轨迹增强策略优化(TAPO)。TAPO 在 RL 训练中让模型对同一查询同时生成正确与错误的 rollout,利用对比结构构造微反射修正轨迹:保留错误推理至失败点,插入自然语言诊断与正确参考引导的修正推理。此外引入难度感知候选选择和解耦优势估计。在 AIME 2024、AIME 2025 和 HMMT 2025 上,TAPO 相同时训练步数下较 GRPO 获得持续改进。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
DelveAgent与PhySciBench:物理科学深度研究的多智能体框架与综合基准

PhySciBench是面向物理科学研究的基准,包含200道专家精选的物理和化学问题,覆盖六类真实科研任务。评测显示,最强基线Gemini Deep Research准确率仅33.5%。失败案例暴露长推理链脆弱、跨步骤知识迁移有限、缺乏物理接地自我验证等缺陷。为此提出的DelveAgent是一个模块化多智能体框架,配备自适应规划循环、双粒度记忆和层次化物理接地反思机制。在四个科学基准上,DelveAgent将准确率提升最多7.5个百分点,推理成本降至最强基线的约三分之一。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
FAPO:多步LLM管道的全自主提示优化框架

FAPO是一个让Claude Code在标准化代码库内自动优化多步LLM管道的框架。它评估管道、检查中间步骤、诊断失败、提出范围性更改并反复验证,优先尝试提示编辑,仅当提示优化不足且归因识别出结构瓶颈时才调整链结构。在6个基准和3个任务模型上,FAPO在18个模型-基准比较中15次击败基线GEPA,平均增益+14.1pp;其中11次比较中均值±标准差范围不重叠。在HoVer和IFBench上,提示优先搜索升级为结构变化的6次比较中FAPO全胜,平均增益+33.8pp。安全任务上,仅提示版FAPO在CTIBench-RCM上将GPT-5测试准确率提升+4.0pp,Foundation-Sec-8B-Instruct提升+7.1pp,Foundation-Sec-8B-Reasoning提升+2.0pp。

检索增强推理论文/研究部署/工程
07:02
IT之家(RSS)
55
高通发布骁龙 Reality Elite 旗舰 XR 芯片,AI 算力提升 160%

高通发布骁龙 Reality Elite 旗舰 XR 芯片(第三代骁龙 XR2 更名)。相比前代 XR2+ Gen2,GPU 性能提升 60%,CPU 提升 30%,NPU AI 算力提升 160% 达 48 TOPS。摄像头视频透视延迟降低 10%,功耗减少 33%。支持 UFS 4.0、4.2GHz 内存、蓝牙 6.0 及双 USB 3.1。续航延长 20%,满载温度最多降低 12°C。NPU 本地运行 30 亿参数大语言模型速度 45 tokens/s;512×512 视觉模型推理约 1.7 秒。首款搭载设备 Xreal Aura Android XR 眼镜今年秋季发售,玩出梦想也官宣下一代旗舰搭载该芯片。

产品更新推理端侧
06:56
Hacker News 热门(buzzing.cc 中文翻译)
69
SubQ 1.1 Small

SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA),在 needle-in-a-haystack 测试中接近完美检索 12M token,注意力计算减少近 1000 倍。1M token 时计算量仅密集注意力的 1/64.5,速度是 FlashAttention-2 的 56 倍。GPQA Diamond 85.4%,LiveCodeBench v6 pass@4 89.7%,AutomationBench Finance 13%。模型基于现有开源前沿模型改造,通过阶段上下文扩展(262K 至 2M)和约 1 万亿 token 继续预训练实现。已与设计合作伙伴部署,计划年内推出 2M–12M token 更大系列。

推理数据/训练模型发布
6月16日
23:30
HuggingFace Daily Papers(社区热门论文)
53
ExpRL:探索性RL用于LLM中期训练

稀疏奖励RL提升LLM推理能力依赖模型初始覆盖范围。现有通过人工梳理推理轨迹的中期训练需手动指定学习内容。ExpRL提出自动化方式:利用大规模问答数据作为奖励脚手架——参考答案仅用于构建评分标准,LLM裁判对比模型推理轨迹与参考答案,输出过程级或结果级密集奖励。该方法强化稀疏最终奖励难以捕捉的中间步骤。在数学推理任务上,ExpRL比SFT、稀疏奖励GRPO和自蒸馏更强,并为后续稀疏奖励RL提供更好起点。混合领域实验表明可扩展至数学以外场景。

推理数据/训练论文/研究
22:01
Nathan Lambert:Interconnects(RSS)
52
前沿大模型后训练配方回顾:与 Finbarr Timbers 对谈

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突,而专家模型易于并行训练,在线蒸馏技术日趋成熟。

DeepSeek大佬观点开源生态推理
21:18
TechCrunch:AI(RSS)
58
Probably 获 900 万美元种子轮,构建更可靠的 AI 错误检测系统

Probably 获得 Andreessen Horowitz 的 900 万美元种子轮融资,旨在构建严格错误检测系统,防止模型幻觉和事实错误,目标达到 99.99% 准确率。其首款产品是数据科学工具,能从复杂数据集快速生成答案,每个结果附带引用和审计追踪。工具通过确定性验证器系统(“数据科学机甲套装”)校验 LLM 初轮回答,仅返回与数据集匹配的结果。系统针对验证器进行了训练和优化;当前版本运行在比前沿模型弱四个等级的模型上,可在本地桌面硬件运行,大幅降低 token 成本。

推理数据/训练行业动态
16:00
IT之家(RSS)
69
OpenRouter 发布 Fusion API,多模型协同以一半成本接近 Claude Fable 5 性能

AI 模型 API 聚合平台 OpenRouter 于 6 月 14 日推出 Fusion API,将用户请求并行发送至多个模型,经审查模型分析后由调用模型生成统一回答。官方测试显示,Claude Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro 组合得分 68.3%,超过单独 Claude Fable 5 的 65.3%;双 Claude Opus 4.8 组合得 65.5% 同样高于 Fable 5。低成本组合 Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 得分 64.7%,以约 Claude Fable 5 一半的成本将分数差距控制在 1% 以内。

DeepSeekOpenAI产品更新推理
13:27
HuggingFace Daily Papers(社区热门论文)
49
Tangram:解锁非均匀KV缓存压缩以高效服务多轮对话大语言模型

多轮LLM服务中,对话历史KV缓存随轮次增长,内存成为吞吐瓶颈。非均匀KV压缩可在注意力头间分配不同预算以保留精度,但现有服务栈因头间异构性导致页面碎片和预填充延迟增加。Tangram发现头级保留遵循输入无关的两层结构规律,仅需50样本离线校准,并通过Budget Reservation、Ragged Paging和Ahead-of-Time Load Balancing三个静态方案替代动态处理。基于vLLM实现,Tangram匹配现有非均匀压缩方法的精度,端到端吞吐量相比全KV基线最高提升2.6倍。代码已开源。

推理论文/研究部署/工程
13:27
HuggingFace Daily Papers(社区热门论文)
42
PauseRec:面向生成式推荐的轻量隐式推理范式

基于大语言模型(LLM)的生成式推荐(GR)使用语义ID(SID)表示物品,破坏了LLM的预训练自然语言推理接口。现有显式推理方法存在削弱世界知识表述、SID与自然语言token嵌入空间错位、依赖推理质量三个局限。PauseRec是一种轻量隐式推理范式,无需推理轨迹获取与对齐训练。相比标准显式CoT方法,PauseRec性能提升最高6.22%,训练GPU耗时减少65%,推理速度加快71.3%,成为更高效且有效的替代方案。

推理数据/训练论文/研究
12:27
HuggingFace Daily Papers(社区热门论文)
61
VibeThinker-3B:小模型可验证推理前沿探索技术报告

HuggingFace社区热门论文发布VibeThinker-3B技术报告。该3B参数模型基于Spectrum-to-Signal后训练范式,经课程监督微调、多域强化学习和离线知识蒸馏优化。在AIME26上得分94.3(借助claim-level test-time scaling提升至97.1),LiveCodeBench v6 Pass@1达80.2,最近LeetCode未见题接受率96.1%,性能匹敌DeepSeek V3.2、GLM-5、Gemini 3 Pro等更大旗舰模型。IFEval得分93.4,表明极端推理增强未损害指令可控性。论文提出参数压缩-覆盖假说。

推理编码论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
44
TIE:基于轨迹的掩码扩散语言模型集成框架

研究发现掩码扩散语言模型(MDLM)中,成功的生成在答案相关位置呈现稳定置信度动态,不可靠轨迹可通过注入其他模型的中间状态纠正。基于此,提出TIE(Trajectory-based Iterative Ensembling)框架,通过追踪置信度动态识别可靠解码轨迹并在模型间传递部分去噪序列,使不同模型在不同生成阶段贡献互补优势。在多种推理任务上取得强性能,为MDLM集成提供了实用方案。

推理数据/训练论文/研究
11:00
IT之家(RSS)
44
Tensordyne Napier 流片:宣称平台 AI 推理吞吐 13 倍于 Blackwell 系统

Tensordyne 于当地时间6月15日发布 AI 推理系统 Napier (TDN),宣称按 token 计能效达 NVIDIA Blackwell 系统的 17 倍、吞吐量达 13 倍。Napier 处理器采用对数数学设计,以台积电 3nm 制程生产,集成大量 SRAM 缓存和 HBM 内存,处理器间通信延迟<1μs。Tensordyne 构建了集成 72 颗 Napier 芯片的 TDN72“推理舱”,一个机柜可容纳 4 个舱共 288 颗芯片。机架级 TDN 系统可支持以 1000 Token/s/user 速率进行 T 级 LLM 推理,每年额外创造 3300 万美元收入。

产品更新推理
‹ 上一页
1…34567…30
下一页 ›