AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1192 条
全部一手资讯X论文
标签「推理」清除
5月21日周四
08:00HuggingFace Daily Papers(社区热门论文)49感知的代价:在整体框架内实现可信的多模态推理
06:44智谱:研究(网页内嵌数据)69精选ZCube:超大规模大模型推理的网络优化
04:28TechCrunch:AI(RSS)79同事件精选OpenAI 声称其解决了一道存在了80年的数学问题--这次来真的同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
04:03Hacker News 热门(buzzing.cc 中文翻译)93同事件精选OpenAI的一个模型推翻了离散几何学中的一项核心猜想同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
03:07OpenAI:官网动态(RSS · 排除企业/客户案例)88精选OpenAI模型证伪了离散几何中的一个核心猜想
02:15Simon Willison 博客52每秒10个token到底有多快?
5月20日周三
22:08HuggingFace Daily Papers(社区热门论文)65用于高效全能模态大语言模型的阶段自适应Token选择
22:02Hacker News 热门(buzzing.cc 中文翻译)81同事件精选Qwen3.7-Max:智能代理的前沿同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
20:00OpenRouter:Announcements(RSS)50一个机器人正朝你奔来:你希望它运行在Claude还是Grok上?
18:41MarkTechPost(RSS)63英伟达AI发布Nemotron-Labs-Diffusion:单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型
15:12MarkTechPost(RSS)68Google发布Gemini 3.5 Flash:在2026年I/O大会上推出一款更快速、更经济的AI智能体与编码模型
15:07HuggingFace Daily Papers(社区热门论文)72精选CopT:基于连续空间对比验证的在策略推理
13:05HuggingFace Daily Papers(社区热门论文)69PEEK:面向长上下文LLM智能体的上下文映射缓存
12:05HuggingFace Daily Papers(社区热门论文)72精选GoLongRL:面向能力的长期上下文强化学习与多任务对齐
11:55IT之家(RSS)76阿里千问最强智能体模型 Qwen3.7-Max 发布
11:55IT之家(RSS)56国外红绿灯也能预测:高德红绿灯倒计时宣布出海,将逐步覆盖全球
11:05HuggingFace Daily Papers(社区热门论文)55精简草稿,多做检索:投机解码的混合树构造
11:05HuggingFace Daily Papers(社区热门论文)65CogOmniControl:基于创意意图认知的推理驱动可控视频生成
10:55IT之家(RSS)64阿里云发布"真武 M890"AI 芯片及 128 卡超节点服务器,可支持海量 Agent 并发推理
10:49Qwen:Blog Retrieval(API)79精选Qwen3.7-Max:面向智能体时代的最新专有模型
10:05HuggingFace Daily Papers(社区热门论文)65CEPO:基于对比证据的策略优化方法
08:55IT之家(RSS)50英特尔数据中心 AI 推理 GPU "Crescent Island" PCB 曝光
08:10Simon Willison 博客58llm-gemini 0.32a0发布
08:00HuggingFace Daily Papers(社区热门论文)42基于大语言模型函数调用的反思式提示词微调
08:00HuggingFace Daily Papers(社区热门论文)53RankJudge:一个用于多轮对话中大语言模型评判者的合成基准测试生成器
08:00HuggingFace Daily Papers(社区热门论文)54Equilibrium Reasoners:学习吸引子实现可扩展推理
08:00HuggingFace Daily Papers(社区热门论文)64DelTA:基于可验证奖励强化学习的判别性Token信用分配
07:33Anthropic:Newsroom(网页)65精选拓宽关于前沿AI的对话
04:04HuggingFace Daily Papers(社区热门论文)61SCICONVBENCH:面向计算科学任务构型的LLM多轮澄清能力基准
04:04HuggingFace Daily Papers(社区热门论文)68OSCAR:面向2比特KV缓存量化的离线频谱感知协方差旋转
02:59Hacker News 热门(buzzing.cc 中文翻译)84Gemini 3.5 Flash:前沿智能,即刻行动
02:18Google Blog:AI(RSS)83精选Gemini 3.5:前沿智能与行动能力相结合
01:55IT之家(RSS)73谷歌发布 Gemini 3.5 Flash 模型:AI 输出速度 4 倍于 GPT-5.5
5月19日周二
21:01HuggingFace Daily Papers(社区热门论文)53评估交互式AI代理的认知年龄对齐
18:51IT之家(RSS)58搜狐张朝阳:AI 时代科普应注重原理和推导,过度依赖 AI 易致"思维萎缩"
17:51IT之家(RSS)53AMD 苏姿丰谈 AI:在科技行业工作超 30 年,没有比今天更"兴奋"的时刻了
16:00HuggingFace Daily Papers(社区热门论文)65监控内部独白:探测轨迹揭示推理动态
15:51IT之家(RSS)48比利时 Imec 公布 3D CCD 内存架构,结合 DRAM 速度与 NAND 密度提升 AI 推理性能
11:51HuggingFace Daily Papers(社区热门论文)71精选训练后 MoE 可通过自蒸馏跳过一半专家
11:45IT之家(RSS)57消息称 Tenstorrent 吸引英特尔、高通收购意向,估值或超 50 亿美元
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月21日
08:00
HuggingFace Daily Papers(社区热门论文)
49
感知的代价:在整体框架内实现可信的多模态推理

当前视觉语言模型常出现“功能性失明”,即利用强大的语言先验绕过视觉表征瓶颈,而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法,提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标(Toll, Curse, Fallacy)与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”:随着语言模型推理能力增强,视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。

arXiv多模态推理论文/研究
06:44
智谱:研究(网页内嵌数据)
精选69
ZCube:超大规模大模型推理的网络优化

针对超大规模大模型推理,ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计,有效解决了推理网络的拥塞问题。该架构在集群实测中,实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%,同时将首token延迟的P99值大幅降低40.6%,在降低成本的同时显著提升了推理性能。

推理论文/研究部署/工程
关联讨论 1 条X:智谱 Z.ai (@Zai_org)
推荐理由:千卡以上推理集群的团队该看一眼,智谱这个网络设计砍掉三分之一交换机成本,吞吐还涨15%,尾时延降四成,有实测数据不是白皮书。
04:28
TechCrunch:AI(RSS)
同事件精选79
OpenAI 声称其解决了一道存在了80年的数学问题--这次来真的

OpenAI 宣布其推理模型成功证伪了一道自1946年起悬而未决的几何猜想。与以往不同,此次声称获得了此前曾指出OpenAI相关声明存在错误的数学家们的认可与支持,这为其结论的可靠性提供了关键背书。

OpenAI推理论文/研究
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
推荐理由:从上次的虚报到这次拿出数学家背书,OpenAI 真的让 AI 自主推翻了一个 80 年猜想,这不仅是数学突破,更证明推理模型能处理超长链条的复杂问题。
04:03
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选93
OpenAI的一个模型推翻了离散几何学中的一项核心猜想

OpenAI宣布其开发的人工智能模型成功证伪了离散几何学领域的一个核心猜想。该模型通过自动化推理与证明过程,推翻了这一长期存在的数学假设,标志着AI在抽象数学研究与定理证明方面取得了实质性突破。这项成果不仅展示了大型语言模型在科学发现中的潜力,也为利用AI解决复杂科学问题提供了新的范例。

OpenAI推理论文/研究
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
推荐理由:一个通用推理模型自主攻破了 80 年未解的厄尔多斯单位距离猜想,证明被顶级数学家背书。这不再是辅助证明,而是独立的数学发现,对 AI 推理能力的证明比任何基准都直接。
03:07
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选88
OpenAI模型证伪了离散几何中的一个核心猜想

OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”,并由此推翻了离散几何领域的一个核心猜想。这一突破被视作人工智能驱动数学研究的里程碑事件,标志着AI在基础科学理论探索中取得了实质性进展。该模型通过创新算法处理复杂的几何问题,展示了机器在自动化发现与验证数学猜想方面的巨大潜力。

OpenAI推理论文/研究
关联讨论 12 条The Decoder:AI News(RSS)X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:OpenAI (@OpenAI)X:阿易 AI Notes (@AYi_AInotes)X:AI Safety Memes (@AISafetyMemes)X:Rohan Paul (@rohanpaul_ai)X:Noam Brown (@polynoamial)IT之家(RSS)X:Oran Ge (@oran_ge)X:Emad Mostaque (@EMostaque)X:Sam Altman (@sama)
推荐理由:数学界等了80年的猜想被AI自己证伪了,而且用的是代数数论这种“跨界”手法,这个里程碑说明AI的创造性推理已经进入前沿研究。虽然实战还用不上,但作为能力信号,值得每个关心AI前沿的人看。
02:15
Simon Willison 博客
52
每秒10个token到底有多快?

开发者Mike Veerman创建了一个名为tokenspeed的HTML应用程序,可模拟从每秒5个到800个token的LLM文本输出速度。用户能够直观感知模型广告中常见速度指标(如30 tokens/秒)的实际生成效果。该工具源代码公开,信息来源于Hacker News,适用于需要理解生成式AI响应速度的开发者与普通用户。

开源/仓库推理
5月20日
22:08
HuggingFace Daily Papers(社区热门论文)
65
用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时,固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此,本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余,在模型内部逐层动态分配模态保留配额,并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证,仅保留10%的视觉和音频token,即可实现9.3倍FLOPs削减与4.8倍预填充加速,同时保持96.3%的原始性能。

arXivHugging Face多模态推理
22:02
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选81
Qwen3.7-Max:智能代理的前沿

智能代理领域迎来新突破,Qwen3.7-Max于2026年5月20日发布,标志着前沿技术的演进。该模型聚焦智能代理创新,具体细节可通过qwen.ai博客获取。发布消息在Hacker News上获得128个关注点,显示技术社区的广泛兴趣。尽管未披露详细性能指标,但Qwen3.7-Max的推出暗示了在自主代理架构或任务处理能力上的提升,推动AI向更高效、智能的方向发展。

智能体推理模型发布编码
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:Qwen3.7-Max 在多个 agent 基准上达到甚至超越 Opus 4.6 水平,长程自主优化 35 小时跑出 10 倍速度提升,证明 agent 长跑能力不是概念,做自动化工具的值得跟进。
20:00
OpenRouter:Announcements(RSS)
50
一个机器人正朝你奔来:你希望它运行在Claude还是Grok上?

一场涵盖11个大语言模型的30轮大逃杀式评测,花费482美元推理成本,得出了一个应改变读者阅读模型基准方式的关键发现。

推理评测/基准
18:41
MarkTechPost(RSS)
63
英伟达AI发布Nemotron-Labs-Diffusion:单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型

英伟达发布了Nemotron-Labs-Diffusion语言模型家族,其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模,并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B,其8B参数版本在单次前向传播中能够生成多达6倍的Token数量,显著提升了吞吐效率。

多模态推理模型发布
15:12
MarkTechPost(RSS)
68
Google发布Gemini 3.5 Flash:在2026年I/O大会上推出一款更快速、更经济的AI智能体与编码模型

Google在2026年I/O大会上发布了新一代模型Gemini 3.5 Flash。该模型在代码生成和AI智能体任务等基准测试中性能超越了此前的旗舰版本,同时运行速度提升四倍,推理成本降低一半。这一更新显著增强了模型在实际应用中的效率与经济性,特别面向需要快速响应和复杂任务处理的开发者场景。

智能体Google推理模型发布
15:07
HuggingFace Daily Papers(社区热门论文)
精选72
CopT:基于连续空间对比验证的在策略推理

CopT提出了一种反转传统链式思考(CoT)顺序的推理框架:先生成草稿答案,再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器,通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度,构建序列级反向KL估计器,以此评估答案的可靠性。当答案不可靠时,CopT会执行进一步思考,并利用第二个KL估计器动态控制草稿答案的可见性,在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下,该方法在数学、编程等任务上显著提升了准确率(最高达23%)并大幅减少了令牌消耗(高达57%)。

智能体GitHub推理论文/研究

推荐理由:CopT把推理流程反了过来,先草稿答案再自我反思,用连续嵌入对比验证可靠性,在数学/编码/Agent任务上提点23%省token57%,思路可能改写推理范式。
13:05
HuggingFace Daily Papers(社区热门论文)
69
PEEK:面向长上下文LLM智能体的上下文映射缓存

针对现有方法在处理重复长外部上下文时未能有效保存和重用定向知识的问题,本文提出PEEK系统。该系统将关于上下文内容、组织方式及历史有用实体的知识缓存为一个小型固定大小的上下文映射,并置于智能体提示中,以持续辅助处理外部上下文。PEEK通过蒸馏、制图和驱逐模块的可编程缓存策略维护映射。实验表明,在长上下文推理和信息聚合任务上,PEEK相比强基线提升6.3-34.0%,迭代次数减少93-145次,成本比ACE低1.7-5.8倍;在上下文学习任务中,解决率和标准准确率分别提升6.0-14.0%和7.8-12.1%,成本降低1.4倍。这些成果在多种模型和智能体架构(包括OpenAI Codex)上均有效,证明了上下文映射能帮助智能体更准确高效地处理重复外部上下文。

智能体推理数据/训练论文/研究
12:05
HuggingFace Daily Papers(社区热门论文)
精选72
GoLongRL:面向能力的长期上下文强化学习与多任务对齐

GoLongRL是一个全开源的长期上下文强化学习方案,聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法,公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类,涵盖9种任务类型,由真实文档生成的问答对构成;实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外,提出了TMN-Reweight多任务优化方法,通过任务级归一化和难度自适应加权,在提升平均性能的同时保持或增强了通用能力。

开源生态推理数据/训练论文/研究

推荐理由:开源长上下文RL的配方直接放出来了,数据集+代码全都有。更狠的是单靠数据多样性就干掉了闭源竞品,甚至摸到了DeepSeek-R1的水平,做长上下文的值得复现。
11:55
IT之家(RSS)
76
阿里千问最强智能体模型 Qwen3.7-Max 发布

阿里云千问大模型今日正式发布新一代旗舰智能体模型 Qwen3.7-Max,定位为全能的智能体基座。该模型在编程、办公自动化及长周期自主任务方面能力突出,其中在一项持续35小时、超过1000次工具调用的内核优化实验中验证了其稳定的推理与执行能力。基准测试显示,Qwen3.7-Max 在 SWE-Pro、MCP-Mark、GPQA Diamond 等多项评测中成绩领先,其编程、通用智能体及推理能力已达到业界顶尖水平。该模型即将通过阿里云百炼 API 提供服务。

智能体推理模型发布
11:55
IT之家(RSS)
56
国外红绿灯也能预测:高德红绿灯倒计时宣布出海,将逐步覆盖全球
产品更新多模态推理
11:05
HuggingFace Daily Papers(社区热门论文)
55
精简草稿,多做检索:投机解码的混合树构造

现有投机解码方法为提高接受率而构建庞大草稿树,导致显存带宽和计算开销激增,反而制约了加速效果。动态剪枝虽能降低延迟,但会损失有效候选,无法达到理想接受率。为此,研究提出了Graft补偿框架,通过“剪枝-再嫁接”的机制,利用剪枝释放的计算预算驱动检索操作,用检索到的高预测性令牌补偿剪枝造成的覆盖损失,从而在近零额外开销下恢复接受长度。该方法无需训练且无损性能,在短上下文、长上下文及大规模模型等多种场景下建立了新的性能前沿。实验表明,它在短上下文任务中最高可实现5.41倍加速,并在大规模Qwen3-235B模型上将平均加速比相比EAGLE-3提升了高达21.8%。研究还初步探索了该方法在DFlash分块草稿范式中的应用潜力。

推理论文/研究部署/工程
11:05
HuggingFace Daily Papers(社区热门论文)
65
CogOmniControl:基于创意意图认知的推理驱动可控视频生成

针对现有视频生成模型在抽象或复杂控制下表现不佳的问题,CogOmniControl框架将任务解耦为创意意图认知与内容生成。该研究通过动画数据训练专用CogVLM,提升对模糊用户意图的专业理解与推理能力。同时,利用CogOmniDiT模块统一多种条件控制,并通过强化学习将其输出与CogVLM推理对齐。系统还基于专业工作流数据构建了CogReasonBench和CogControlBench基准。实验证明,CogOmniControl性能超越现有开源模型。

推理视频论文/研究
10:55
IT之家(RSS)
64
阿里云发布"真武 M890"AI 芯片及 128 卡超节点服务器,可支持海量 Agent 并发推理

阿里云在2026云峰会上发布了新一代平头哥训推一体AI芯片真武M890与ICN Switch互联芯片,并推出搭载该芯片的128卡超节点服务器。该服务器通信时延低至百纳秒级,可让128张AI芯片协同工作,以满足Agentic时代海量Agent的并发推理与大模型训练需求。阿里云表示已实现从底层芯片到上层应用的全栈技术就绪。

智能体产品更新推理
10:49
Qwen:Blog Retrieval(API)
精选79
Qwen3.7-Max:面向智能体时代的最新专有模型

通义千问发布 Qwen3.7-Max,专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力,通过 MCP 和多智能体编排实现办公自动化,能自主执行超 1000 步工具调用(如 35 小时全自主内核优化)。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型:Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。

智能体推理模型发布编码
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)
推荐理由:Qwen3.7-Max 把 agent 能力拉到了新高度,35 小时自主内核优化证明长程执行有真实生产力,做 coding agent 的团队该认真测一下。
10:05
HuggingFace Daily Papers(社区热门论文)
65
CEPO:基于对比证据的策略优化方法

针对强化学习(RLVR)中对所有生成token给予相同奖励导致的信用分配问题,本文提出对比证据策略优化(CEPO)。该方法通过对比正确与错误答案对每个token的偏好,精准区分关键推理步骤与普通填充token,从而获得更细粒度的奖励信号。CEPO利用训练批次中已有的拒绝样本构建错误答案教师模型,不产生额外采样成本。实验表明,在2B和4B参数规模下,CEPO在多个数学推理基准上分别取得43.43%和60.56%的平均准确率,优于GRPO等基线方法。

开源/仓库推理论文/研究
08:55
IT之家(RSS)
50
英特尔数据中心 AI 推理 GPU "Crescent Island" PCB 曝光

爆料者释出了英特尔数据中心AI推理GPU新品“Crescent Island”的PCB图片。该显卡采用PCIe Gen5+接口,配备20个LPDDR5X内存焊盘,总计容量可达160GB。供电方案为核心15相与内存3相,尾端为12V-2×6供电端子,并设计有调试用USB-C接口。这款基于Xe3P微架构的产品面向风冷服务器,预计2026年下半年向客户出样。

产品更新推理
08:10
Simon Willison 博客
58
llm-gemini 0.32a0发布

llm-gemini发布了0.32a0版本。此次更新要求llm版本不低于0.32a0的alpha版,其核心变化是新增了流式处理推理token的功能。

GitHub开源/仓库推理
08:00
HuggingFace Daily Papers(社区热门论文)
42
基于大语言模型函数调用的反思式提示词微调

提示词设计仍需大量人力且对格式高度敏感。现有自动化方法受限于候选搜索或固定流程,难以系统性地捕捉错误模式。文章提出反思式提示词微调(RPT)框架,通过LLM函数调用模拟人类工程师工作流:LLM优化器调用诊断函数评估目标模型,总结重复性失败模式并返回结构化报告;优化器依据该报告及历史记忆修订提示词进行下一轮迭代。框架支持置信度感知优化。实验显示,在三个推理任务上RPT最高提升12.9分,与当前最佳方法持平,并改善了置信度校准。分析表明其对多跳与数学推理任务尤为有效,能生成针对性修订。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
RankJudge:一个用于多轮对话中大语言模型评判者的合成基准测试生成器

RankJudge是一个评估大语言模型作为评判者在基于参考文档的多轮对话中表现的基准测试生成器。它通过生成配对对话来工作,其中一个对话的单一轮次被注入缺陷,从而明确评判结果并精准定位错误类别。该基准在机器学习、生物医学和金融三个领域实施,对21个前沿大语言模型评判者进行了评估,并使用Bradley-Terry模型对其排名。RankJudge还能为对话对生成难度评分,用于动态筛选评估数据以降低标签噪音。

推理评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
Equilibrium Reasoners:学习吸引子实现可扩展推理

Equilibrium Reasoners (EqR) 提出一种无需外部验证器的测试时计算扩展框架。其核心假设是,可泛化的推理能力源于学习任务条件下的吸引子,即稳定不动点对应有效解的潜在动力系统。EqR通过深度(更多迭代)与广度(聚合多条随机轨迹)两个维度扩展内部动力。实验表明,测试时扩展的收益与向解对齐吸引子的收敛强度紧密相关。该框架使模型能根据任务难度自适应分配计算:简单案例在1至5次迭代内收敛,复杂案例则受益于大规模扩展。通过展开相当于40,000层,可扩展潜在推理在Sudoku-Extreme任务上将准确率从2.6%提升至超过99%。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
DelTA:基于可验证奖励强化学习的判别性Token信用分配

可验证奖励强化学习是提升大语言模型推理能力的关键技术,但奖励信号如何转化为token级概率变化的机制尚不明确。本文提出判别器视角,揭示策略梯度更新方向本质上是区分不同奖励响应的线性判别器。现有方法的正负侧质心易被格式化token等高频模式主导,稀释了关键判别信息。为此,我们提出DelTA方法,通过估计token系数来重塑更新方向,放大特定侧梯度并削弱共享模式权重。实验表明,DelTA在多项数学基准上显著提升了模型性能,并在代码生成与跨域任务中展现出良好的泛化能力。

推理数据/训练论文/研究
07:33
Anthropic:Newsroom(网页)
精选65
拓宽关于前沿AI的对话

Anthropic为构建负责任的先进AI,正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者,旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受“外部良知”概念启发,团队开发并测试了伦理承诺提醒工具,初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域,以共同应对AI对社会结构的重塑。

Anthropic安全/对齐推理

推荐理由:Anthropic在做一件少见的事——请神学家和哲学家帮忙塑造Claude的‘性格’,初步实验发现让模型在决策前暂停反思能降低偏差,做AI对齐的值得读一下。
04:04
HuggingFace Daily Papers(社区热门论文)
61
SCICONVBENCH:面向计算科学任务构型的LLM多轮澄清能力基准

本研究推出了SCICONVBENCH,这是一个用于评估大语言模型在计算科学任务构型阶段进行多轮澄清能力的基准测试。它覆盖流体力学、固体力学、材料科学与偏微分方程四个领域,重点考察模型获取缺失信息(消歧)与识别纠正内部矛盾请求(一致性解决)的能力。研究采用结构化任务本体与量规评估框架,系统测量了模型的澄清行为、对话依托与最终规格保真度。结果表明,前沿模型在一致性解决上表现较好,但在流体力学消歧任务中最佳模型仅解决了52.7%的问题,且模型常进行未基于对话的隐式假设与规格修复。

arXiv推理数据/训练论文/研究
04:04
HuggingFace Daily Papers(社区热门论文)
68
OSCAR:面向2比特KV缓存量化的离线频谱感知协方差旋转

针对长上下文大语言模型服务中INT2 KV缓存量化精度下降的问题,本文提出OSCAR方法。其核心是通过离线估计注意力实际使用的协方差结构,推导出固定的旋转矩阵和裁剪阈值,使KV缓存量化与下游注意力计算对齐。实验表明,OSCAR显著提升了量化精度:在Qwen3-4B和Qwen3-8B上,其与BF16的差距分别缩小至3.78和1.42个百分点,而朴素旋转方法性能几乎崩溃。该方法在更大模型及128K长上下文测试中表现稳健。在系统层面,OSCAR将KV缓存内存占用降低约8倍,并将大批次吞吐量提升最高达7倍。

推理论文/研究部署/工程
02:59
Hacker News 热门(buzzing.cc 中文翻译)
84
Gemini 3.5 Flash:前沿智能,即刻行动

谷歌于2026年5月19日发布了Gemini 3.5 Flash模型,这是Gemini系列的最新版本,主打“前沿智能,即刻行动”。该模型强调高效的实时响应与处理能力,适用于需要快速决策的场景。该发布在技术社区Hacker News上获得了116分的关注度,显示出开发者对其性能与应用潜力的浓厚兴趣。不过,目前关于该模型在速度、准确率等具体性能指标上的提升幅度,官方尚未提供详细数据。

Google多模态推理模型发布
02:18
Google Blog:AI(RSS)
精选83
Gemini 3.5:前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。

智能体Google多模态推理

推荐理由:Google 在 I/O 上甩出 Gemini 3.5,这次不只拼多模态,更强调‘行动’,是所有做 Agent 的团队必须对标的新基座。
01:55
IT之家(RSS)
73
谷歌发布 Gemini 3.5 Flash 模型:AI 输出速度 4 倍于 GPT-5.5

谷歌在2026年I/O开发者大会上推出了Gemini 3.5 Flash模型。该模型在多项基准测试中性能超越前代,并实现了每秒289 tokens的输出速度,较Claude Opus 4.7和GPT-5.5 xhigh快约4倍。此外,谷歌团队使用Antigravity工具,在12小时内启动93个子智能体,生成26亿tokens,成功构建出一个可运行的操作系统核心,展示了模型的强大能力。

Google推理模型发布
5月19日
21:01
HuggingFace Daily Papers(社区热门论文)
53
评估交互式AI代理的认知年龄对齐

尽管具身化AI及多模态大语言模型在推理任务中表现出潜力,但与人类智能仍存显著差距。现有先进代理常无法完成儿童能轻松解决的基础任务。受韦氏儿童智力量表启发,本研究推出ChildAgentEval——首个基于心理测量学的交互式基准,用于评估多模态大语言模型代理的认知年龄对齐程度。该基准通过系统比较各类交互式代理的推理能力与人类特定年龄发展阶段,揭示了当前AI系统在模拟年龄特异性认知行为上的能力边界。

智能体推理论文/研究评测/基准
18:51
IT之家(RSS)
58
搜狐张朝阳:AI 时代科普应注重原理和推导,过度依赖 AI 易致"思维萎缩"

搜狐创始人张朝阳在2026搜狐科技年度论坛上指出,AI技术为科普提供了便利,但也带来了新问题。他主张AI时代的科普应注重原理推导和互动体验,避免公众认知停留在浅层“哇哦”状态。张朝阳援引麻省理工学院研究称,过度依赖AI会导致人的主动思维能力萎缩,实验显示使用AI者的脑部活跃度仅为独立完成任务者的一半。他强调,人类必须保持原创思考和动手能力,主动深度思考是不可被替代的核心竞争力。

大佬观点推理
17:51
IT之家(RSS)
53
AMD 苏姿丰谈 AI:在科技行业工作超 30 年,没有比今天更"兴奋"的时刻了

AMD 董事长兼 CEO 苏姿丰在 AI 开发者日活动中表示,AI 正在经历巨大加速,预计未来五年将有 50 亿人每天使用 AI。她强调,实现这一目标的关键在于多样化应用和模型,而非单一方案。她指出,AI 近期发展显著,不仅大语言模型进步,推理型 AI 也日益普及,企业正积极探索应用。开发者需具备推理、学习与数据处理能力。苏姿丰认为,未来 GPU 将无处不在,AMD 将重点提供完整的端到端计算能力。

智能体大佬观点推理现象/趋势
16:00
HuggingFace Daily Papers(社区热门论文)
65
监控内部独白:探测轨迹揭示推理动态

本研究针对大型推理模型(LRM)思维链监控不可靠的难题,提出“探测轨迹”方法。该方法通过在生成每个令牌时评估探测器,捕捉模型隐藏表征的演变轨迹。研究发现,结合完整轨迹的预测比基于单一点的静态预测更能准确区分模型未来行为。通过提取波动性、趋势等信号处理特征,模型状态区分度得到显著提升。同时,基于模板的训练数据可替代昂贵的动态生成数据,且采用最大池化操作能实现高达95%的AUROC性能并形成稳定轨迹。在安全与数学等四个数据集上的验证表明,该轨迹特征能编码任务动态,为监控LRM行为提供了有效补充框架。

安全/对齐推理论文/研究
15:51
IT之家(RSS)
48
比利时 Imec 公布 3D CCD 内存架构,结合 DRAM 速度与 NAND 密度提升 AI 推理性能

比利时研究机构Imec于5月12日发布了全球首个专为AI设计的3D CCD内存架构。该方案通过垂直堆叠内存芯片,旨在结合DRAM的高速度与NAND闪存的高存储密度,以解决AI推理中的“内存墙”瓶颈。其核心技术采用IGZO材料,在实验室条件下实现了超过4GHz的电荷传输速度。目前该技术仍处于概念验证阶段,主要面临散热和层数扩展等挑战,离实际量产应用尚有距离。

推理论文/研究
11:51
HuggingFace Daily Papers(社区热门论文)
精选71
训练后 MoE 可通过自蒸馏跳过一半专家

本文提出零专家自蒸馏适应框架,将训练完成的静态混合专家模型转换为高效动态模型。该方法通过在每个混合专家层注入零输出专家,并利用原始模型作为冻结教师进行两阶段自蒸馏适应,以实现稳定的架构转换。在两个大型开源模型及11个基准测试上的实验表明,该方法能消除超过50%的专家计算量,同时仅带来极小的准确率损失,并显著提升端到端推理速度。

推理论文/研究部署/工程

推荐理由:把训练好的MoE直接改成动态的,推理时跳过一半专家,速度提升20%而精度几乎没掉,做模型部署的值得认真看一下这个一行代码不改的蒸馏方案。
11:45
IT之家(RSS)
57
消息称 Tenstorrent 吸引英特尔、高通收购意向,估值或超 50 亿美元
推理行业动态
‹ 上一页
1…1516171819…30
下一页 ›