AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1189 条
全部一手资讯X论文
标签「推理」清除
6月3日周三
08:00HuggingFace Daily Papers(社区热门论文)62Flash-WAM:面向世界动作模型的模态感知蒸馏
06:57Simon Willison 博客61微软发布新MAI模型
05:35Hacker News 热门(buzzing.cc 中文翻译)66微软推出 MAI-Thinking-1 模型
03:41HuggingFace Daily Papers(社区热门论文)66DOT-MoE:用于MoE化的可微最优传输
03:09IT之家(RSS)69微软发布其首款高级推理模型 MAI-Thinking-1:承诺未蒸馏第三方模型,自研 AI 模型阵容进一步扩充
02:45The Verge:AI(RSS)78精选微软首款高级推理AI模型MAI-Thinking-1发布
01:08IT之家(RSS)49微软推出 Surface RTX Spark Dev Box 开发机:100W TDP,今年晚些时候发售
6月2日周二
20:08IT之家(RSS)64CPU 需求与日俱增,英特尔陈立武自曝许多公司 CEO 来电"求供货"
19:34蚂蚁 inclusionAI:HuggingFace 新模型61同事件精选蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
18:40HuggingFace Daily Papers(社区热门论文)67几何潜推理使LLM生成更短
17:55蚂蚁 inclusionAI:HuggingFace 新模型54蚂蚁 inclusionAI 发布 Ling-2.6-flash-base 基础模型
13:40HuggingFace Daily Papers(社区热门论文)69Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning
13:40HuggingFace Daily Papers(社区热门论文)73精选OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架
12:07IT之家(RSS)52英伟达 CEO 黄仁勋力挺 SK 海力士高薪政策:公司"应尽可能多地奖励员工"
11:40HuggingFace Daily Papers(社区热门论文)69VLM作为视频推理教师:通过自适应测试时优化实现
11:07IT之家(RSS)45华硕公布全球首款高通骁龙 X2 Elite 迷你主机 Ascent QN10
10:40HuggingFace Daily Papers(社区热门论文)64X-Stream: 探索MLLM作为多路复用器的多流理解能力
10:07IT之家(RSS)57英特尔第 3 代酷睿 Ultra 处理器适配群联 aiDAPTIV:16GB 内存能跑 26B 模型
10:07IT之家(RSS)60图灵奖得主萨顿:普通生成式AI难当科学发现重任
09:07IT之家(RSS)59微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光
09:00公众号:蚂蚁百灵(Ling)50KPop:用对称二元KL散度解决MoE大模型RL训练推理不一致问题
08:00HuggingFace Daily Papers(社区热门论文)53Prompt-Level Distillation:无需微调的模型推理效率提升方法
08:00HuggingFace Daily Papers(社区热门论文)41小模型是GRPO中策略级多样性的天然探索者:S2L-PO框架
08:00HuggingFace Daily Papers(社区热门论文)51大语言模型对自己的回答过度自信
08:00HuggingFace Daily Papers(社区热门论文)49EvoTrainer:为自主智能体 RL 共同进化 LLM 策略与训练端工具
08:00HuggingFace Daily Papers(社区热门论文)38语法推理:合成语言学推理轨迹能否增强低资源机器翻译?
08:00HuggingFace Daily Papers(社区热门论文)65推理的影子价格:LLM最优预算分配的经济学视角
08:00HuggingFace Daily Papers(社区热门论文)70精选ACTS:面向高效可控LLM推理的智能体链式思维引导
08:00HuggingFace Daily Papers(社区热门论文)63Graph Tokens Sink:图语言模型的机制分析
08:00HuggingFace Daily Papers(社区热门论文)63多模态大语言模型广基线匹配空间推理:ReasonMatch-Bench与DCRL
08:00HuggingFace Daily Papers(社区热门论文)65AgentCL:面向语言智能体持续学习的严格评估框架
07:33Hacker News 热门(buzzing.cc 中文翻译)42微软推出搭载英伟达显卡的Surface Laptop Ultra,与MacBook Pro一较高下
02:15xAI:News(网页)78精选xAI发布Composer 2.5
00:38Hugging Face:Blog(RSS)71精选JetBrains 发布 Mellum2:12B 参数混合专家模型
6月1日周一
23:36The Verge:AI(RSS)64微软将在Build大会发布新AI模型及Windows改进
22:38Hugging Face:Blog(RSS)60精选超越LLM:为何可扩展的企业AI采用取决于智能体逻辑
21:41Ars Technica:AI(RSS)34英特尔:我们的下一代AI芯片将比英伟达、AMD的选项更便宜、更凉爽
21:35The Decoder:AI News(RSS)68Nvidia的Nemotron 3 Ultra成为最聪明的美国开源模型,但中国仍然领先
19:11Ars Technica:AI(RSS)54OpenAI 数学突破发挥 AI 优势
17:05IT之家(RSS)52高通发布数据中心品牌 Dragonfly
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
08:00
HuggingFace Daily Papers(社区热门论文)
62
Flash-WAM:面向世界动作模型的模态感知蒸馏

世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。

具身智能推理论文/研究部署/工程
06:57
Simon Willison 博客
61
微软发布新MAI模型

微软发布了MAI-Thinking-1与MAI-Code-1-Flash两款新大语言模型。MAI-Thinking-1为35B参数的推理模型,目前向部分早期合作伙伴开放,官方称其在盲测中优于Sonnet 4.6。MAI-Code-1-Flash为5B参数模型,专为GitHub Copilot和VS Code优化,将逐步向VS Code的Copilot个人用户推出。两款模型均强调使用清洁、商业授权的数据从零开始进行端到端训练,未使用第三方模型进行蒸馏。

Microsoft大佬观点推理编码
05:35
Hacker News 热门(buzzing.cc 中文翻译)
66
微软推出 MAI-Thinking-1 模型

微软通过其AI官方网站 microsoft.ai 发布了新模型 “MAI-Thinking-1”。该消息随链接一同发布,并出现在相关技术社区中。

Microsoft推理模型发布编码
03:41
HuggingFace Daily Papers(社区热门论文)
66
DOT-MoE:用于MoE化的可微最优传输

DOT-MoE提出了一种将预训练密集模型转换为Mixture of Experts架构的新框架。该方法将密集层的分解建模为一个可微最优传输问题,利用Sinkhorn-Knopp迭代来实施严格的专家容量约束。同时,通过Straight-Through Estimators端到端联合学习离散的神经元-专家分配与token-专家路由策略。实验表明,DOT-MoE在多个基准测试中显著优于结构化剪枝等基线方法,能够在减少50%活跃参数的同时,保留原始密集模型90%的性能。

arXiv推理数据/训练论文/研究
03:09
IT之家(RSS)
69
微软发布其首款高级推理模型 MAI-Thinking-1:承诺未蒸馏第三方模型,自研 AI 模型阵容进一步扩充

微软在 Build 2026 大会上发布了其首款高级推理模型 MAI-Thinking-1。该模型为中等规模,在软件工程基准测试中达到业界领先水平,且完全基于干净数据从零开始训练,未使用第三方模型的蒸馏数据。同时,微软还推出了 MAI-Image 2.5(文生图/图像编辑)、MAI-Transcribe-1.5(语音转写,速度达竞争对手五倍)、MAI-Voice-2(语音合成,新增15种语言支持)和 MAI-Code-1(编程辅助,已集成至 GitHub Copilot 和 VS Code)等多款新模型。

Microsoft推理模型发布编码
02:45
The Verge:AI(RSS)
精选78
微软首款高级推理AI模型MAI-Thinking-1发布

微软在Build 2026上发布了其首款高级推理AI模型MAI-Thinking-1。该模型被定位为“中等规模”,能在“关键”软件工程基准测试中达到领先模型的水平。微软称其完全从头使用干净数据进行训练,未涉及从第三方模型进行知识蒸馏。这标志着微软在自研AI模型上迈出重要一步,此前其主要依赖OpenAI。近期两家公司已重新协商合作协议,关系有所松绑。

Microsoft推理模型发布
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)X:Satya Nadella (@satyanadella)
推荐理由:微软自己从头训练的推理模型,不用任何第三方蒸馏数据,这可能是微软系 Agent 和 Copilot 底座更换的信号,值得盯着看。
01:08
IT之家(RSS)
49
微软推出 Surface RTX Spark Dev Box 开发机:100W TDP,今年晚些时候发售

微软在Build 2026大会上推出Surface RTX Spark Dev Box开发机。这是一款搭载英伟达RTX Spark芯片的迷你主机,采用铝制机身,热设计功耗为100W。它配备128GB统一内存,可本地运行最高1200亿参数的大语言模型,专为AI推理工作优化。该产品出厂预装VS Code等开发环境,计划于今年晚些时候在美国市场发售。

Microsoft产品更新推理端侧
6月2日
20:08
IT之家(RSS)
64
CPU 需求与日俱增,英特尔陈立武自曝许多公司 CEO 来电"求供货"

英特尔 CEO 陈立武在台北电脑展上表示,受 AI 智能体兴起带动,CPU 需求日增但供给受限。过去四周内,多位公司 CEO 致电要求更多 CPU 供应。他强调 CPU 在强化学习与编排中作用重要,并将台积电称为“重要合作伙伴”,英伟达称为“朋友”。

智能体推理行业动态
19:34
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选61
蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base

Ling-2.6-1T-base 是蚂蚁 inclusionAI 开源的万亿参数 MoE 基座模型(总参约 1T,激活 63B)。它由 Ling-2.0-1T-base 升级而来,采用 Lightning Attention 与 MLA 以 7:1 混合的线性注意力架构,经约 9.6T token 的迁移预训练、持续预训练和中训练,上下文窗口从 4K 分阶段扩展至 256K。在 MMLU(86.82)、SimpleQA、LongBenchv2(43.54)等基准上超越前代。该模型仅供研究(继续预训练、微调、蒸馏等),不直接提供对话功能。

Hugging Face开源生态推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:Ling-2.6 用混合线性注意力把万亿 MoE 基座模型的上下文能力推到了 256K,对于研究长上下文和 MoE 的团队是个有价值的基座,但它是未对齐的预训练模型,不能直接当对话助手用。
18:40
HuggingFace Daily Papers(社区热门论文)
67
几何潜推理使LLM生成更短

研究提出几何潜推理方法,将推理建模为模型预训练嵌入空间中的几何路径逼近问题,使用轻量级过渡头预测方向更新。在Qwen3模型上评估发现,该方法能诱导模型生成显著更短的输出,用连续潜步骤替代早期显式推理后,模型常以更少总步数得出正确答案。研究揭示了连续轨迹作为紧凑中间推理状态,暴露了潜计算预算、输出长度与准确率之间的新权衡。

推理论文/研究
17:55
蚂蚁 inclusionAI:HuggingFace 新模型
54
蚂蚁 inclusionAI 发布 Ling-2.6-flash-base 基础模型

Ling-2.6-flash-base 是蚂蚁 inclusionAI 发布的基础模型,采用闪速规模 MoE 与混合线性注意力架构(7:1 融合 Lightning Attention 与 MLA),总参数量约 104B、激活约 7.4B。模型从 Ling-2.0 检查点改造而来,经约 9.6T token 的迁移预训练、继续预训练和中段训练,上下文窗口从 4K 扩展至 256K。在知识、推理、数学、代码和长上下文基准上相比前代均有提升(如 MMLU 84.13,GSM8K 91.89)。该模型面向研究用途开放,支持继续预训练、微调和蒸馏,未经聊天对齐。

推理模型发布部署/工程
13:40
HuggingFace Daily Papers(社区热门论文)
69
Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

Chunk-Level Guided Generation 是一种无需训练的推理时方法,它利用现成的大语言模型(如 Qwen2.5-32B 或 Llama-3.1-70B)作为过程评分器,引导小模型进行数学推理。该方法在每个步骤让小模型生成多个固定长度候选块,由大模型通过似然度评分选择,从而提前引导推理方向,避免错误传播。它包含似然引导选择(LGS)和对比引导选择(CGS)两种规则,其中CGS通过减去小模型似然度来偏好与大模型偏好不同的块。在多个基准测试中,该方法在匹配计算预算下,性能匹配或优于需要奖励模型训练的PRM引导搜索,并且生成的推理轨迹显著更短。

推理论文/研究
13:40
HuggingFace Daily Papers(社区热门论文)
精选73
OpenWebRL:面向视觉网页智能体的在线多轮强化学习开源框架

OpenWebRL是一个用于在真实网站上通过在线多轮强化学习训练视觉网页智能体的开源框架,覆盖了完整的训练流程。基于该框架训练的OpenWebRL-4B模型,在仅使用0.4K条监督初始化轨迹和2.2K个开放式RL训练任务的情况下,在Online-Mind2Web基准上达到67.0%成功率,在DeepShop基准上达到64.0%,超越了同规模或更大规模的先前开源智能体,性能可与OpenAI CUA和Gemini CUA等闭源系统竞争。该工作为构建更强、可复现且高性价比的开源网页智能体提供了实践路径。

智能体开源生态推理论文/研究

推荐理由:做 Web Agent 的同行终于不用再羡慕闭源了。OpenWebRL 用 4B 模型和 2.2K RL 任务就逼近 OpenAI CUA,而且全开源,这路子值得认真读一读。
12:07
IT之家(RSS)
52
英伟达 CEO 黄仁勋力挺 SK 海力士高薪政策:公司"应尽可能多地奖励员工"

英伟达CEO黄仁勋在媒体招待会上表示,新推出的Vera CPU是为智能体而非人类设计的,开辟了新市场。同时推出的RTX Spark电脑芯片被定位为面向智能体AI时代的计算平台。黄仁勋认为智能体AI将是未来十年最重要的算力变革,并表示英伟达将尽可能使用现成的ARM技术。他坦言公司目前供应仍显紧张。此外,黄仁勋支持SK海力士与三星电子的高薪政策,认为公司“应该尽可能多地奖励员工”。

智能体推理行业动态
11:40
HuggingFace Daily Papers(社区热门论文)
69
VLM作为视频推理教师:通过自适应测试时优化实现

本研究提出一种新范式,将视觉语言模型的角色从问题“求解者”转变为指导视频生成模型的“教师”。现有VLM作为求解器效果不佳,但其感知能力强,可评估任务规则满足度。新方法利用VLM提取任务规则,构建可微分奖励,并通过测试时在线优化轻量级LoRA模块,引导视频生成模型推理。在VBVR-Bench和RULER-Bench两个视频推理基准上,该方法平均性能提升16.7分,显著优于其他基线方法。

多模态推理视频论文/研究
11:07
IT之家(RSS)
45
华硕公布全球首款高通骁龙 X2 Elite 迷你主机 Ascent QN10

华硕推出全球首款搭载高通骁龙 X2 Elite 平台的迷你主机 Ascent QN10,其内置算力达 80 TOPS 的神经处理单元(NPU)。该主机体积不足 0.7L,配备 18 核 4.7GHz CPU,提供最高 32GB LPDDR5X-9600 内存和 512GB PCIe Gen4 NVMe SSD。接口包括 3 个 USB-C 40Gbps、3 个 USB-A 10Gbps、HDMI 2.1 及 2.5GbE 网口,并支持 Wi-Fi 7 与蓝牙 5.4。

产品更新推理端侧
10:40
HuggingFace Daily Papers(社区热门论文)
64
X-Stream: 探索MLLM作为多路复用器的多流理解能力

专注于多流视频流理解的基准测试X-Stream被提出,包含4220个QA对、932个视频和11个子任务,覆盖多窗口、多视图和多设备场景。研究首次将多模态大语言模型(MLLM)的概念化为信号复用器,并基于信号复用理论进行评估。在线推理实验显示,当前最先进的MLLM在处理并发视频流时表现挣扎,得分仅约50%且主动能力较差。该基准揭示了现有复用方案的权衡,为多流智能体提供了评估协议和实证指导。

arXiv多模态推理论文/研究
10:07
IT之家(RSS)
57
英特尔第 3 代酷睿 Ultra 处理器适配群联 aiDAPTIV:16GB 内存能跑 26B 模型

群联电子宣布其Pascari aiDAPTIV内存延伸技术现已适配英特尔第3代酷睿Ultra处理器(Panther Lake)并支持OpenVINO工具套件。该技术通过将AI工作内存从系统DRAM拓展至高性能NAND,降低了本地AI负载对DRAM的需求。内部测试显示,搭载该技术的系统仅需16GB DRAM即可执行26B参数规模的AI模型,而未适配的系统则需32GB DRAM才能完成相同任务。这增强了AI PC本地运行更大模型、支持更长会话及代理式AI工作流的能力。

推理端侧行业动态
10:07
IT之家(RSS)
60
图灵奖得主萨顿:普通生成式AI难当科学发现重任

图灵奖得主理查德·萨顿认为,普通生成式AI(如大语言模型)缺乏完成真正科学发现的关键能力。他指出,这类模型生成的内容中,“好的部分不新,新颖的部分不好”,且自身缺少测试与评估机制来筛选有效方案。真正的科学发现需要包含变异、评估和选择性保留的闭环,而生成式AI恰恰缺少评估环节。相比之下,萨顿列举了AlphaGo、AlphaProof、Claude Code等系统,认为这类具备评估反馈机制的AI智能体更有潜力实现突破。

智能体大佬观点推理
09:07
IT之家(RSS)
59
微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光

微软将在 Build 2026 大会上发布首个自研推理模型 MAI-Thinking-1,该模型未使用其他模型输出进行知识蒸馏训练。同期还将发布 MAI-Image-2.5 和 MAI-Image-2.5-Flash 图像生成模型,以完善其自有模型矩阵。此外,微软可能展示整合了多个 AI 助手及 Scout AI agent 的 Copilot 超级应用新形态,但该功能测试版预计要到夏末才会推出。

Microsoft推理模型发布
09:00
公众号:蚂蚁百灵(Ling)
50
KPop:用对称二元KL散度解决MoE大模型RL训练推理不一致问题

KPop针对MoE大模型强化学习中的训练-推理不一致问题,提出用对称二元KL散度代替IcePop的固定ratio阈值。该方法只需一个超参数,根据token概率自适应调整屏蔽边界:稀有token更宽容,高频token更严格。在Ring-flash-2.0(100B总参,6.1B激活)的RLVR训练中,支撑800+步稳定训练,屏蔽比例从10%动态升至30%+(IcePop仅约0.2%);在AIME25、HMMT25-Nov、ARC-AGI-2、LiveCodeBench上全面优于IcePop。在长程智能体任务中,基于Ring-2.6-1T(1万亿总参,63B激活)的SWE-bench Verified得分从70.8%提升至76.28%,且仅需更新70%~80% token即可收敛。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Prompt-Level Distillation:无需微调的模型推理效率提升方法

提出 Prompt-Level Distillation (PLD),从 Teacher 模型提取显式推理模式并组织为结构化指令列表,注入 Student 模型的 System Prompt。在 Gemma-3 4B 上,PLD 将 StereoSet Macro F1 从 57% 提升至 90.0%,Contract-NLI 从 67% 提升至 83%,LogiQA 准确率达 70%;在 Mistral Small 3.1 上取得相似结果,验证跨架构泛化能力。PLD 无需微调,推理延迟极低,决策过程透明可人工验证,适合法律、金融、内容审核等监管行业及高吞吐边缘设备。

推理教程/实践论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
小模型是GRPO中策略级多样性的天然探索者:S2L-PO框架

针对GRPO训练中rollout多样性不足的问题,研究发现同一模型家族内的小模型天然具有更高的策略级多样性(pass@k优于大模型),且这种多样性具有时序相关性、逻辑一致性和结构化探索信号。提出S2L-PO框架,利用固定小模型作为探索者训练大模型,并设计渐进退火策略从小模型离线rollout过渡到大模型自身采样,避免性能下降、加速收敛。S2L-PO在多个数学推理基准上提升准确率,例如用1.7B探索者引导8B模型在AIME 24上提升8.8%,同时减少rollout计算量。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
大语言模型对自己的回答过度自信

指令微调使大语言模型校准性本就低于基座模型,而聊天模板通过“所有权偏见”进一步加剧偏差:模型对自己的回答比用户给出的相同答案显著更自信。在6个开源权重LLM、3个基准和3种置信度获取方法上,模型给自己回答分配的置信度最高高出26%。研究者提出简单推理时策略:获取置信度时将模型回答伪装成用户输入,无需重新训练即可将过度自信降低、校准性提升最高26%,缩小了基座与指令微调模型间的差距。

安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
EvoTrainer:为自主智能体 RL 共同进化 LLM 策略与训练端工具

EvoTrainer 是一个自主训练框架,通过经验反馈共同进化 LLM 策略与训练端工具。它诊断 rollout 级证据、修正诊断、回测干预并积累可复用技能。在数学推理、竞赛编程代码生成和仓库级软件工程评估中,EvoTrainer 在相同数据、代码库和协议下匹配或超越人工设计的 RL 参考,最大收益在长 horizon SWE 任务上。轨迹分析显示,保留的策略跨领域发散,进化的诊断阻止无效高分分支被提升,可复用技能塑造后续搜索。

智能体推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
38
语法推理:合成语言学推理轨迹能否增强低资源机器翻译?

大语言模型在低资源机器翻译中难以有效利用语法信息。受思维链推理启发,研究提出自动从Universal Dependencies树库、词典和语法规则库生成逐步语言学推理轨迹的管道,并在锡伯语和Chintang语上通过上下文学习、监督微调和强化微调三种设置评估。结果表明,作为推理时引导(ICL),可靠句子特定轨迹在多数模型、语言和指标上显著提升翻译性能;而作为训练数据使用时收益较小且不稳健。LLM能在可靠语言分析下利用语法信息,但自主生成分析仍是主要瓶颈。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
推理的影子价格:LLM最优预算分配的经济学视角

本文将推理预算分配建模为受经济学原理支配的全局约束优化问题。通过移位激增函数(shifted-surge function)量化每查询推理效用,推导出基于全局影子价格的最优分配策略,实现资源稀缺下边际效用均衡。据此提出的CLEAR方法,将资不抵债的查询理性放弃,资源重新分配给接近涌现阈值的可解查询。在多种推理任务与流量模式实验中,CLEAR显著改善总token成本与平均准确率的Pareto前沿,资源稀缺时全局准确率相比均匀分配最高提升3倍。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
ACTS:面向高效可控LLM推理的智能体链式思维引导

ACTS将推理引导建模为马尔可夫决策过程,控制器智能体在推理中自适应引导冻结的推理器。控制器每步观察推理轨迹与剩余预算,发出含推理策略和引导短语的动作,实现预算感知的推理控制。控制器通过合成轨迹初始化,并经强化学习优化。在多个基准上,ACTS以显著token节省匹配全思考性能,实现可控的精度-效率权衡。代码已开源。

智能体arXiv推理论文/研究

推荐理由:ACTS 把 LLM 推理过程变成可控制的 MDP,用预算感知的策略节省 token 同时保持精度,做推理加速的研究者应该试试他们开源的代码。
08:00
HuggingFace Daily Papers(社区热门论文)
63
Graph Tokens Sink:图语言模型的机制分析

图语言模型将图拓扑与节点信息转化为图token供大语言模型处理。研究发现图token的内部显著性不等于图信息利用:图沉没token表现为少数隐藏维度的激活异常值,且偏向早期图token位置,但并未吸引查询token的最大注意力权重。剪枝、重定位和交换实验表明,这类token并非关键语义或结构token。这表明当前GLM映射后的图token表示未形成可用的拓扑感知内部表示,存在激活显著性与图语义效用之间的解耦。

推理现象/趋势论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
多模态大语言模型广基线匹配空间推理:ReasonMatch-Bench与DCRL

针对多模态大语言模型在物理环境中的空间推理缺乏系统评估与训练的问题,提出ReasonMatch-Bench基准,按视点位移和匹配粒度分层覆盖室内、室外和物体中心场景。在90样本困难子集上,人类F1达84.0,最佳基线仅37.2。构建自动数据管线从RGB-D视频和SfM重建中提取广基线视图对,产出可验证监督信号。进一步提出动态对应强化学习(DCRL),结合图像级视点递进和点级对应课程,通过可验证奖励提升广基线匹配训练。实验表明DCRL显著提升ReasonMatch-Bench得分并泛化至相关基准,维持通用视觉性能。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
AgentCL:面向语言智能体持续学习的严格评估框架

AgentCL 是一个评估语言智能体持续学习的框架,核心是构造受控任务流和转移增益指标。受控流确保早期子解、证据或工作流可在后续任务中复用,而朴素流无法保证复用。框架还引入 MemProbe 探测方法,存储交互、洞察与技能,并在整合时过滤不可靠经验。在编码、深度研究和语言理解/推理任务上的实验表明,朴素流难以区分不同记忆设计,受控流能清晰区别其可塑性;朴素流与保留设置往往增益有限,甚至暴露记忆诱导的性能退化。研究揭示了平衡可塑性与稳定复用的更强记忆设计需求。

智能体推理论文/研究
07:33
Hacker News 热门(buzzing.cc 中文翻译)
42
微软推出搭载英伟达显卡的Surface Laptop Ultra,与MacBook Pro一较高下

微软发布了新款Surface Laptop Ultra,其核心卖点在于搭载了英伟达RTX系列独立显卡。这款产品的目标是打造一款足以与苹果MacBook Pro正面竞争的笔记本电脑。

Microsoft产品更新推理端侧
02:15
xAI:News(网页)
精选78
xAI发布Composer 2.5

xAI的最新编程模型Composer 2.5现已在Grok Build中可用,用户可通过/models菜单选择使用。这是一款快速、先进的模型,擅长处理长时间运行的任务和复杂指令。该模型面向SuperGrok和X Premium+用户开放。

xAI推理模型发布
关联讨论 1 条X:xAI (@xai)
推荐理由:xAI 的 Composer 2.5 主攻长任务和复杂指令,如果你在用 Grok 搭 Agent,这模型值得切过去试试,可能比之前的编码模型更稳。
00:38
Hugging Face:Blog(RSS)
精选71
JetBrains 发布 Mellum2:12B 参数混合专家模型

Mellum2 是 JetBrains 从头训练的 12B 参数混合专家(MoE)模型,专注于自然语言与代码。每个 token 仅激活 2.5B 参数,推理速度可达同类模型的 2 倍以上,适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署,以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中,Mellum2 与同等规模的开放模型竞争力相当。

推理模型发布编码

推荐理由:JetBrains 开源了 Mellum2,一个激活参数仅 2.5B 的 12B MoE 模型,专为代码和问答管道设计的快模型。做实时 RAG 或子代理时,终于不用硬扛大模型了。
6月1日
23:36
The Verge:AI(RSS)
64
微软将在Build大会发布新AI模型及Windows改进

微软本周在旧金山举办Build大会,旨在赢回开发者。会议将披露Windows中的新AI模型、微软AI推出的新推理模型,以及Copilot“超级应用”。大会背景是微软围绕AI全面重组业务,但Windows和GitHub的信任度处于低谷,微软希望借此机会与开发者重建联系,并勾勒未来蓝图。

Microsoft推理端侧行业动态
22:38
Hugging Face:Blog(RSS)
精选60
超越LLM:为何可扩展的企业AI采用取决于智能体逻辑

可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。

智能体推理现象/趋势部署/工程

推荐理由:不是又一篇炒作 agent 的文章,IBM 拿真实项目数据说清楚了‘agent logic’怎么让大模型在企业落地时既降本又增效。
21:41
Ars Technica:AI(RSS)
34
英特尔:我们的下一代AI芯片将比英伟达、AMD的选项更便宜、更凉爽

英特尔即将推出的AI芯片Crescent Island采用了风冷设计并配备LPDDR5内存。英特尔表示,该芯片的运行成本将低于英伟达和AMD的同类产品,并且运行时更为凉爽。

产品更新推理
21:35
The Decoder:AI News(RSS)
68
Nvidia的Nemotron 3 Ultra成为最聪明的美国开源模型,但中国仍然领先

根据Artificial Analysis基准评估,Nvidia发布的Nemotron 3 Ultra模型被评为目前最强大的美国开源大语言模型。但这一成就并未改变中国在开源大语言模型领域仍然保持领先的格局。

开源生态推理模型发布
19:11
Ars Technica:AI(RSS)
54
OpenAI 数学突破发挥 AI 优势

作者尝试对 OpenAI 的数学突破解决方案进行更清晰的解释,声称其解释比 OpenAI 自己的表述更为明晰。

OpenAI推理现象/趋势
17:05
IT之家(RSS)
52
高通发布数据中心品牌 Dragonfly

高通在COMPUTEX 2026上宣布推出数据中心品牌Dragonfly,预计包含数据中心CPU与AI ASIC产品,并与客户端的骁龙、AIoT的Dragonwing共同构成新品牌组合。CEO安蒙预测,到2030年AI Token(词元)需求将达到401.48×10^16。更多细节将于6月24日揭晓。

产品更新推理部署/工程
‹ 上一页
1…910111213…30
下一页 ›