AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月9日周六
11:29IT之家(RSS)68蚂蚁集团百灵发布万亿级旗舰思考模型 Ring-2.6-1T:限时一周免费体验,引入 Reasoning Effort 机制
11:19Hacker News 热门(buzzing.cc 中文翻译)78精选教克劳德"为什么"
09:25SemiAnalysis54DeepSeek V4推理优化获突破性进展
09:00公众号:蚂蚁百灵(Ling)56Ring-2.6-1T 正式发布
08:35Berryxia.AI66人类大脑最聪明的地方,就是大部分时间只激活极少部分神经元。
08:35Berryxia.AI65Hinton揭示AI思考本质:多模态整合是关键突破
08:00HuggingFace Daily Papers(社区热门论文)45DiagnosticIQ:基于大语言模型的符号规则工业维护行动推荐基准
08:00HuggingFace Daily Papers(社区热门论文)72精选AgentForesight:面向多智能体系统早期故障预测的在线审计框架
08:00HuggingFace Daily Papers(社区热门论文)53CollabVR:视觉语言模型与视频生成模型的协作视频推理
08:00HuggingFace Daily Papers(社区热门论文)55Soohak:一个用于评估大语言模型研究级数学能力的数学家编写基准
08:00HuggingFace Daily Papers(社区热门论文)66MLS-Bench:对AI系统构建更优AI能力的全面严格评估
07:29IT之家(RSS)53新紫光发布"紫弦"三维化近存计算架构:存储带宽可达 30TB/s
04:50Greg Brockman69对齐团队分享意外CoT评分分析
04:49Chubby♨️76精选DeepMind AI co-mathematician FrontierMath Tier 4 得分48% 预示数学研究范式转变
04:25OpenAI64OpenAI分析意外思维链评分对模型影响
01:54Ant Ling78精选Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计
01:27BAIR:Berkeley AI Research Blog64精选自适应并行推理:高效推理扩展的新范式
5月8日周五
23:47AK61MiA-Signature方法:增强长上下文理解能力
18:20IT之家(RSS)67中国移动董事长陈忠岳:将推进全国一体化算力网建设,开放万亿级词元服务体验包
16:16IT之家(RSS)42铭凡 M2 迷你主机实物厦门现身:Ultra 7 356H + DDR5
13:36Hacker News 热门(buzzing.cc 中文翻译)57ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当,且活跃参数少于 10 亿
13:16IT之家(RSS)58中国移动发布 MoMA 平台:单位 Token 成本压降 30%,接入超 300 款 AI 模型
12:14Yuchen Jin53OpenAI内部人士透露惊人数据规模,Databricks AI高调招募顶尖推理工程师
11:22HuggingFace Daily Papers(社区热门论文)61无意义文本有助于推理:提示空间扰动拓宽探索范围
11:22HuggingFace Daily Papers(社区热门论文)61A^2TGPO:具有自适应轮次裁剪的智能体轮次组策略优化
11:06SemiAnalysis61vllm团队周末火速优化DeepSeekv4性能
11:05Eric85OpenAI推出GPT-Realtime-2,为语音智能带来GPT-5级推理
10:22HuggingFace Daily Papers(社区热门论文)69强化学习能教会大语言模型长程推理吗?逻辑表达力是关键
10:22HuggingFace Daily Papers(社区热门论文)78精选AI协数学家:以智能体AI加速数学研究
10:22HuggingFace Daily Papers(社区热门论文)68连续潜在扩散语言模型
10:22HuggingFace Daily Papers(社区热门论文)67UniPool:面向混合专家模型的全局共享专家池
10:22HuggingFace Daily Papers(社区热门论文)66先思考后评分:视频奖励建模中的解耦推理与评分
10:01Alibaba Cloud58亲身体验智能体原生基础设施转型
09:43Tibo83OpenAI发布GPT-Realtime-2语音模型
09:16IT之家(RSS)44瑞莎预热高通平台飞牛 NAS:6 盘位全闪高性能 / 4 盘位主流双选择
09:16IT之家(RSS)70OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力
08:06Rohan Paul78精选atomic.chat为LLaMA.cpp引入多令牌预测技术,显著加速本地模型推理
08:00HuggingFace Daily Papers(社区热门论文)49中训练阶段使用自生成数据提升语言模型强化学习效果
08:00HuggingFace Daily Papers(社区热门论文)46基于控制变量基线的大语言模型在线蒸馏稳定化方法
08:00HuggingFace Daily Papers(社区热门论文)56超越推理:强化学习解锁大语言模型中的参数化知识
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月9日
11:29
IT之家(RSS)
68
蚂蚁集团百灵发布万亿级旗舰思考模型 Ring-2.6-1T:限时一周免费体验,引入 Reasoning Effort 机制

蚂蚁集团旗下百灵大模型发布万亿级思考模型 Ring-2.6-1T,专为处理真实复杂任务设计。该模型创新引入可调节 Reasoning Effort 机制,提供 high 和 xhigh 两种推理强度。high 模式适用于高频 Agent 工作流,注重低 Token 开销与快速多步执行;xhigh 模式则面向数学、科研等需要深度逻辑分析与多路径探索的高难任务。模型兼具快速多步执行、工具协调能力及 SOTA 稳定性。目前已在 OpenRouter 平台上线,开放限时一周免费体验。

推理模型发布
11:19
Hacker News 热门(buzzing.cc 中文翻译)
精选78
教克劳德"为什么"

Anthropic公司发布了Claude模型的新研究“Teaching Claude Why”。该研究通过让模型学习解释自身推理过程中的“为什么”,显著提升了其推理能力和输出结果的准确性。实验表明,经过此项训练后,模型在多项基准测试中的表现得到改善,其推理步骤的透明度和逻辑连贯性增强。这项技术旨在推动AI向更可解释、更可靠的方向发展。

Anthropic安全/对齐推理论文/研究

推荐理由:Anthropic 没刷榜,而是教 Claude 理解“为什么”,这是可解释性上的真进展,对齐和安全方向的研究者该细读。
09:25
SemiAnalysis@SemiAnalysis_
54
@sgl_project 和 @radixark 团队在优化DeepSeek V4推理方面取得了惊人成果,包括在B200、B300上的优化,以及@ChengWan17近期在GB300上实现的4倍等交互吞吐量提升!正如@elonmusk所说,GB300是最佳AI计算机,而此类软件优化正展现其真正潜力!
DeepSeek推理行业动态
09:00
公众号:蚂蚁百灵(Ling)
56
Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型,引入可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流,xhigh 面向数学、科研等复杂任务。评测中,high 模式 PinchBench 得分 87.60,Tau2-Bench Telecom 95.32;xhigh 模式 ARC-AGI-V2 得分 77.78,AIME 26 得分 95.83,GPQA Diamond 88.27。模型已上线 OpenRouter,近期将开源。

智能体推理模型发布
08:35
Berryxia.AI@berryxia
66
人类大脑最聪明的地方,就是大部分时间只激活极少部分神经元。

现代LLM类似人脑,前馈层中超过95%的神经元对输入保持静默,呈现高度稀疏性。但GPU硬件专为密集计算设计,非结构化稀疏导致不规则内存访问,反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾,开发了TwELL混合稀疏格式及定制CUDA内核,将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径,并为密集token提供备用矩阵。在H100 GPU上,训练和推理速度提升超20%,同时降低内存占用和能耗。相关论文、博客和代码均已开源。

hardmaru: The human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LL...

arXiv推理论文/研究部署/工程
08:35
Berryxia.AI@berryxia
65
Hinton揭示AI思考本质:多模态整合是关键突破

Geoffrey Hinton指出语言只是思考的工具之一,AI推理可以是真正的思考,因为语言本身就是一种思考形式。人类和AI能用文字建模,但真正思考超越文字,涵盖图像、空间感和物理运动等多模态。最聪明的系统是能整合所有模态的AI,这代表下一个大突破方向:让AI像人类一样通过多感官、多维度理解世界,从而打破智能边界。多模态是最终出路,但文本基础仍需巩固以确保发展效果。

Haider.: Geoffrey Hinton says AI reasoning can be real thought because language itself is a form of thinking Words let humans and...

多模态大佬观点推理
08:00
HuggingFace Daily Papers(社区热门论文)
45
DiagnosticIQ:基于大语言模型的符号规则工业维护行动推荐基准

研究团队推出DiagnosticIQ基准,包含来自16类资产、118条规则-行动对的6690道专家验证多选题,用于评估大语言模型将工业监测中的符号规则转化为具体维护步骤的能力。基准包含五个变体以探测不同失效模式,并对29个大语言模型和4个嵌入基线进行了测试。人类专家平均准确率仅45.0%,证实任务需要专项知识。研究发现:前沿模型性能接近,但Pro变体显示在干扰项扩展下模型相对准确率下降13-60%,Aug变体暴露模型在条件反转时仍有49-63%的概率选择原答案,存在模式匹配倾向。这表明部署瓶颈并非模型能力不足,而是其校准问题。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选72
AgentForesight:面向多智能体系统早期故障预测的在线审计框架

针对LLM多智能体系统在长程任务中因关键错误扩散导致整体失败的问题,本研究提出在线审计框架AgentForesight。该框架能在任务执行过程中实时观察轨迹前缀,并在最早的关键错误处发出警报。研究构建了AFTraj-2K轨迹语料库,并基于此开发了AgentForesight-7B模型。该模型采用由粗到细的强化学习策略训练,在AFTraj-2K和外部基准测试中,其性能超越GPT-4.1等领先专有模型,实现了高达+19.9%的性能提升,并将步骤定位误差降低3倍,从而将故障处理从事后归因转向部署时干预。

智能体arXiv推理论文/研究

推荐理由:在多agent系统里,一个错误往往被下游接受并导致整个轨迹失败,这篇论文把事后归因变成了在线审计,用小模型在错误扩散前报警,比GPT-4.1还准,做agent部署的值得细读。
08:00
HuggingFace Daily Papers(社区热门论文)
53
CollabVR:视觉语言模型与视频生成模型的协作视频推理

CollabVR提出一种闭环协作框架,在步骤级别将视觉语言模型(VLM)与视频生成模型(VGM)耦合,以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中,VLM负责规划即时动作并检查VGM生成的视频片段,再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中,该方法在同等计算条件下显著提升了开源与闭源VGM的性能,尤其在困难任务上增益最大,且能与推理微调的VGM进一步结合,实现性能叠加。

多模态推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Soohak:一个用于评估大语言模型研究级数学能力的数学家编写基准

为评估大语言模型的研究级数学能力,研究团队推出了包含439道全新原创题目的Soohak基准。该基准包含挑战和拒绝识别两个子集。在挑战子集上,Gemini-3-Pro、GPT-5和Claude-Opus-4.5的得分分别为30.4%、26.4%和10.4%,领先的开源模型均低于15%,显示模型能力仍有巨大提升空间。在拒绝识别子集上,所有模型得分均未超过50%,这揭示了模型在识别问题定义不清时主动暂停而非盲目作答的能力严重不足,成为一个新的关键优化目标。为防止数据污染,完整数据集将于2026年底公开。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
MLS-Bench:对AI系统构建更优AI能力的全面严格评估

MLS-Bench是一个评估AI系统能否发明通用、可扩展机器学习方法的基准。它包含12个领域的140项任务,要求智能体改进ML系统的特定组件,并证明其改进能在受控环境中泛化与扩展。研究发现,当前智能体远未达到可靠超越人类设计方法的水平,且工程式调优比真正的方法发明更容易。测试阶段的规模扩展、自适应计算分配和额外上下文均无法单独解决核心瓶颈,关键在于智能体缺乏规划、验证和扩展主张所需的科学洞察力。该项目已建立社区平台并开源相关资源。

智能体推理论文/研究评测/基准
07:29
IT之家(RSS)
53
新紫光发布"紫弦"三维化近存计算架构:存储带宽可达 30TB/s

新紫光集团在2026创新峰会上发布了“紫弦”三维化近存计算架构。该架构以3D DRAM为核心,采用首创的3.5D异质异构集成方案,存储带宽高达30TB/s,相比行业最新的HBM4在带宽与容量上具有优势,并可基于国内供应链量产。在PNM近存计算模式下,访存延迟最多可降低至1/18,模拟仿真显示其词元吞吐率较英伟达B200系列高出1.5至2倍以上。峰会上,其旗下公司还分别发布了商业航天高可靠集成电路解决方案、国产算力互联方案以及能将芯片设计效率大幅提升的“紫灵”智能体。

产品更新推理
04:50
Greg Brockman@gdb
69
来自我们对齐团队的极其有趣的工作 【引用 @OpenAI】:思维链监控器是防止AI智能体不对齐的关键防御层。为了保持可监控性,我们在强化学习期间避免惩罚不对齐的推理。 我们发现有限数量的意外CoT评分影响了已发布的模型,并正在分享我们的分析。 https://alignment.openai.com/accidental-cot-grading/

OpenAI: Chain of thought monitors are a key layer of defense against AI agent misalignment. To preserve monitorability, we avoid...

OpenAI安全/对齐推理
04:49
Chubby♨️@kimmonismus
精选76
DeepMind AI co-mathematician FrontierMath Tier 4 得分48% 预示数学研究范式转变

DeepMind的AI co-mathematician在FrontierMath Tier 4研究级数学问题得分48%,而基础模型Gemini 3.1 Pro仅19%。提升源于多代理架构的智能编排,包括并行代理相互审查证明、编写代码和搜索文献,而非模型本身更智能。评估绕过标准框架,使用48小时每问题、无令牌限制的自有基础设施,因此得分不能直接与其他模型比较。案例中,数学家Marc Lackenby与AI合作解决Kourovka Notebook开放问题,AI提供证明策略,审查代理发现缺陷,人类专家填补空白,展示了高效人机协作。系统存在“reviewer-pleasing bias”和“death spirals”等失败模式。对于Erdős型猜想或千年问题,AI仍缺乏创造性直觉,但能压缩从想法到验证的时间,加速文献搜索和计算验证。论文强调范式转变:系统设计以对实际研究重要的方式复合模型能力,推动数学向数学家与AI代理协作的未来发展。

Pushmeet Kohli: The future of Math is mathematicians and AI agents working together. Very pleased to introduce @GoogleDeepMind's AI co-m...

智能体DeepMind推理论文/研究

推荐理由:48%的得分背后是系统设计对模型能力的碾压,失败模式「reviewer-pleasing bias」和死亡螺旋比分数更有价值,提醒我们架构创新才是落地的真杠杆。
04:25
OpenAI@OpenAI
64
思维链监控器是防御AI智能体错位的关键层。为保持可监控性,我们在RL期间避免惩罚错位推理。 我们发现少量意外思维链评分影响了已发布模型,现分享相关分析。 https://alignment.openai.com/accidental-cot-grading/
OpenAI安全/对齐推理
01:54
Ant Ling@AntLingAGI
精选78
Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计

Ring-2.6-1T是一款万亿参数的旗舰思维模型,专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能,通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化,适用于高频工作流,提供快速多步执行和工具编排,并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限,特别适合严格数学逻辑和科学研究。

智能体推理模型发布

推荐理由:蚂蚁憋了个万亿参数的大家伙,而且把可调思考和 Agent 优化当主打,明显是冲着生产级落地的,做 agent 的可以盯一下实际推理成本。
01:27
BAIR:Berkeley AI Research Blog
精选64
自适应并行推理:高效推理扩展的新范式

自适应并行推理是一种新范式,它让大语言模型能够自主决定何时分解任务、并行处理多少子任务以及如何协调结果,以应对序列推理中因探索路径增长而导致的延迟增加和“上下文腐化”问题。近期研究如ThreadWeaver和Multiverse通过动态控制并行线程,在数学与代码推理基准上取得了显著性能提升,同时大幅降低了延迟。这标志着从固定并行策略到自适应智能控制的转变,为复杂任务的推理提供了高效且可扩展的解决方案。

推理现象/趋势部署/工程

推荐理由:模型自己决定何时并行、开几个线程,这篇BAIR博客把Multiverse和ThreadWeaver的系统设计掰开了讲,做推理系统和RL的同学应该看看。
5月8日
23:47
AK@_akhaliq
61
MiA-Signature 近似全局激活以促进长上下文理解 论文: https://huggingface.co/papers/2605.06416
Hugging Face推理论文/研究
18:20
IT之家(RSS)
67
中国移动董事长陈忠岳:将推进全国一体化算力网建设,开放万亿级词元服务体验包

中国移动董事长陈忠岳在移动云大会上宣布,公司将推进全国一体化算力网建设,提供即取即用、普惠易用的算力服务。具体举措包括加强全光网高速直联、加速AI数据中心建设并布局吉瓦级数据园区,升级AI云算服务以支撑大模型发展。同时,中国移动将开放万亿级词元(Token)服务体验包,并发布移动模型服务平台MoMA。该平台已接入超300款业界主流AI模型,包括自研“九天”及DeepSeek、通义千问等,提供统一API网关,服务于政务、金融、工业等多类场景。

推理行业动态部署/工程
16:16
IT之家(RSS)
42
铭凡 M2 迷你主机实物厦门现身:Ultra 7 356H + DDR5

铭凡在厦门发布会上展示了新款迷你主机M2。该机型属于Elite Mini系列,搭载英特尔酷睿Ultra 7 356H处理器,配备2个DDR5 SO-DIMM插槽,最高支持128GB系统内存,并具备2个M.2 2280 NVMe SSD盘位。其支持Wi-Fi 7,外部接口丰富,包括正面2个USB-A 10Gbps和1个USB-C 40Gbps,背面另有多个USB、HDMI 2.1、DisplayPort 1.4以及2个2.5GbE网口。该设备宣称支持Qwen-35B-A3B、GPT-OSS 20B等大模型的本地运行。

产品更新推理端侧
13:36
Hacker News 热门(buzzing.cc 中文翻译)
57
ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当,且活跃参数少于 10 亿

ZAYA1-8B 是一个新发布的开源人工智能模型,在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿,突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效,可能降低部署成本并加速推理过程,为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步,其开源性质有望推动进一步研究和应用。

DeepSeek推理模型发布编码
13:16
IT之家(RSS)
58
中国移动发布 MoMA 平台:单位 Token 成本压降 30%,接入超 300 款 AI 模型

中国移动发布移动模型服务平台MoMA,接入超过300款业界主流AI模型,包括自研“九天”及DeepSeek、通义千问等。平台基于国产算力部署自研推理引擎,通过智能路由与资源调度,实现单位Token成本降低约30%,资源占用率下降50%以上。其智能路由引擎支持成本、效果、均衡三种优先策略,并能实现故障秒级切换。平台还提供“机密模型”服务,通过硬件隔离技术保障政务、金融等高安全需求场景的数据安全。

产品更新推理部署/工程
12:14
Yuchen Jin@Yuchenj_UW
53
据OpenAI内部人士透露,行业数据处理规模远超想象,有团队成员每日消耗高达570亿token。为此,Databricks AI团队正积极招募顶尖的推理工程师,以应对每日数万亿token的生成任务。团队提供无限token资源,寻求在SGLang、vLLM、PyTorch等开源系统有贡献,或拥有大规模LLM服务经验的人才。该团队以创业公司模式运作,致力于构建高性能的AI系统。

Yuchen Jin: An OpenAI friend told me he burns 300M GPT-5.5 tokens/day. The top one in his team burns billions of tokens/day. Codex c...

OpenAI推理编码行业动态
11:22
HuggingFace Daily Papers(社区热门论文)
61
无意义文本有助于推理:提示空间扰动拓宽探索范围

针对大型语言模型强化学习中的“零优势问题”,本研究提出了LoPE训练框架。该方法通过在原始提示前随机添加由Lorem Ipsum等低困惑度伪拉丁文本构成的无关序列,对提示空间进行扰动,从而为困难问题开辟新的推理路径。在1.7B至7B参数规模的模型上的实验表明,该方法显著优于使用原始提示的重采样策略。分析进一步证实,其他基于拉丁语的随机序列同样可作为有效扰动源。LoPE为拓宽LLM强化学习的探索范围提供了一个简单而有效的基线方法。

推理数据/训练论文/研究
11:22
HuggingFace Daily Papers(社区热门论文)
61
A^2TGPO:具有自适应轮次裁剪的智能体轮次组策略优化

针对智能体大语言模型强化学习中稀疏结果奖励难以评估单轮贡献的问题,A^2TGPO方法优化了信息增益这一内在过程信号的利用。其核心改进包括:采用轮次组归一化,使同深度轮次间可比;通过方差重缩放的折扣累积,保持不同位置优势幅度的可比性;引入自适应轮次裁剪,根据各轮次信息增益动态调整策略更新范围。这些设计旨在更精确地进行过程信用分配,无需依赖外部奖励模型。

智能体MCP/工具推理论文/研究
11:06
SemiAnalysis@SemiAnalysis_
61
@vllm_project 维护者在第0天优化DeepSeekv4性能 并在周末合并了他们的初始模型支持PR。 速度就是护城河
DeepSeek开源/仓库推理部署/工程
11:05
Eric@ericmitchellai
85
OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
10:22
HuggingFace Daily Papers(社区热门论文)
69
强化学习能教会大语言模型长程推理吗?逻辑表达力是关键

研究团队提出ScaleLogic合成逻辑推理框架,可独立控制推理深度与逻辑表达力。实验发现,强化学习训练计算量T与推理深度D之间遵循幂律关系(T ∝ D^γ),且缩放指数γ随逻辑表达力增强从1.04单调上升至2.60。在数学与通用推理基准上,表达力更强的训练带来更大的性能提升(最高+10.66分)和更高的计算效率迁移。该幂律关系在不同强化学习方法中均成立,基于课程的学习能显著提升扩展效率。研究表明,训练内容(而不仅是训练量)对下游任务迁移有决定性影响。

推理论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
精选78
AI协数学家:以智能体AI加速数学研究

AI协数学家是一个供数学家利用AI智能体进行开放式研究的工作平台。它针对数学工作流程的探索性与迭代性特点,提供从构思、文献检索、计算探索到定理证明的全方位支持。其异步、有状态的工作空间能管理不确定性、细化用户意图并追踪失败假设,模拟了人类协作模式。早期测试中,该系统已协助研究人员解决开放问题、识别新方向并发现被忽视的文献。在FrontierMath Tier 4等硬核问题求解基准测试中,AI协数学家取得了48%的最新最高分,展现了AI辅助数学发现的高度交互范式。

智能体推理论文/研究

推荐理由:AI数学家终于不是吹牛了,FrontierMath Tier 4干到48%,还帮真人解决开放问题。搞数学和AI的都应该点开看看。
10:22
HuggingFace Daily Papers(社区热门论文)
68
连续潜在扩散语言模型

针对自回归范式在文本生成中的限制,研究团队提出Cola DLM,一种分层连续潜在扩散语言模型。该模型通过文本VAE学习文本到潜在映射,在连续潜在空间中用块因果DiT建模全局语义先验,再通过条件解码生成文本。其扩散过程执行潜在先验传输,而非词元级观测恢复,从而分离全局语义组织与局部文本实现,支持更灵活的非自回归生成。实验在严格匹配约20亿参数自回归基线和扩展到约2000 EFLOPs下进行,显示Cola DLM具有强大扩展性能,确立了分层连续潜在先验建模作为严格词元级语言建模的原则性替代方案。

多模态推理论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
67
UniPool:面向混合专家模型的全局共享专家池

传统MoE模型每层设置独立专家,导致参数量随深度线性增长。研究发现深层路由功能冗余,因此提出UniPool架构,采用一个全局共享的专家池供所有层访问,取代分层独立设计。通过池级辅助损失平衡专家使用,并采用NormRouter实现稳定稀疏路由。在多个规模的LLaMA模型上实验表明,UniPool持续提升了验证损失。关键的是,共享池设计将池大小确立为深度缩放超参数:仅使用基线41.6%-66.7%专家参数的缩减池变体,性能达到或超越了传统分层MoE,证明专家参数可实现次线性增长并保持更高效率。

推理数据/训练论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
66
先思考后评分:视频奖励建模中的解耦推理与评分

为提升视频奖励模型的泛化能力与训练效率,研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式:首先由多模态大语言模型生成显式思维链推理,再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化:第一阶段结合随机掩码进行判别式冷启动,确保评分稳健性;第二阶段通过双目标强化学习,独立优化推理质量并校准奖励,使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。

arXiv推理视频论文/研究
10:01
Alibaba Cloud@alibaba_cloud
58
5月26日Qwen大会2026,亲历向智能体原生基础设施的转型。 我们将深入探讨大规模自主规划、协调与推理。 超越代币,迈向实际生产力。 见证AI如何重塑您的增长。 https://click.qwencloud.com/m/20000000142/
智能体推理行业动态
09:43
Tibo@thsottiaux
83
我们正在众目睽睽之下构建通用人工智能 【引用 @OpenAI】:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
09:16
IT之家(RSS)
44
瑞莎预热高通平台飞牛 NAS:6 盘位全闪高性能 / 4 盘位主流双选择

瑞莎在2026高通AI开发者日前夕,预热了两款基于高通硬件平台的飞牛fnOS NAS新品。其中,DragonStation定位高性能全闪存产品,搭载具备“超大核”CPU的Arm SoC,提供6个M.2 SSD盘位,支持10Gb网络,并能通过内置加速卡本地运行120B参数的AI模型。另一款DragonBay面向主流用户,提供4个存储位,其内部结构设计留有后续扩展空间。两款新品将在本月末于深圳举行的活动中正式亮相。

产品更新推理端侧
09:16
IT之家(RSS)
70
OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型,旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中,GPT-Realtime-2具备GPT-5级推理能力,可在对话中进行推理、调用工具并处理打断,音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言,每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录,每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

OpenAI推理模型发布语音
08:06
Rohan Paul@rohanpaul_ai
精选78
atomic.chat为LLaMA.cpp引入多令牌预测技术,显著加速本地模型推理

atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

atomic.chat: Multi-Token Prediction (MTP) for LLaMA.cpp! Running Gemma4 local model 1.5x faster. We patched LLaMA.cpp. Quantized Gemm...

开源/仓库推理教程/实践端侧

推荐理由:在笔记本上把 Gemma 26B 的生成速度拉高 40% 是个真实的体验提升,atomic.chat 把 MTP 带入 LLaMA.cpp 生态,本地 AI 玩家可以直接拿去用。
08:00
HuggingFace Daily Papers(社区热门论文)
49
中训练阶段使用自生成数据提升语言模型强化学习效果

本文研究在中训练阶段引入自生成多样化数据对强化学习(RL)的增益。该方法基于波利亚解题策略,为每个问题生成多种正确答案变体并微调。理论分析表明,这种训练方式能通过策略梯度更新激励模型融合不同推理路径。实验验证,经此中训练初始化后再进行RL的模型,在数学推理、代码生成及叙事推理等任务上均取得稳定性能提升。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
基于控制变量基线的大语言模型在线蒸馏稳定化方法

针对在线蒸馏训练中单样本蒙特卡洛估计器方差高导致不稳定的问题,本研究提出vOPD方法。该方法将在线蒸馏构建为策略梯度强化学习问题,并引入一个控制变量基线(即价值函数)来稳定训练。该价值函数具有闭式解,即学生与教师模型间的逐令牌反向KL散度,无需额外计算。通过减去该基线,vOPD在保持梯度无偏的同时显著降低了方差。实验表明,在数学与科学推理任务上,vOPD性能持续优于原始在线蒸馏,并能匹配计算成本更高的全词表基线方法,实现了高效且稳定的训练。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
超越推理:强化学习解锁大语言模型中的参数化知识

本研究在零样本、单跳、闭卷问答的严格设置下,探究强化学习能否提升大语言模型对参数化知识的直接回忆能力。实验表明,仅使用二元正确性奖励进行训练,即可在多个模型和事实问答基准上带来约27%的平均相对性能提升,超越多种基线方法。机制分析发现,强化学习主要重新分配模型已有知识的概率质量,将正确答案从低概率区域移至可靠生成范围,而非学习新事实。数据归因研究进一步揭示,约18%的最困难训练样本(其答案在强化学习前的多次采样中从未出现)贡献了约83%的性能增益。这些发现将强化学习的作用从推理扩展到了解锁潜在的参数化知识。

推理数据/训练论文/研究
‹ 上一页
1…3637383940…50
下一页 ›