AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
4月30日周四
02:06Google AI52智能体时代启幕:谷歌发布第八代TPU,专为AI训练与服务打造
01:42Ant Ling55Ling-2.6-1T开源:结合工具展示强大生产级模型
01:42Ant Ling53高效利用Token推动AI可持续发展
01:42Ant Ling72精选旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化
01:34Dwarkesh Patel:Podcast & Blog(RSS)55精选Reiner Pope - 大语言模型训练与服务的数学原理
00:36Tomer Tunguz 博客(VC 分析)57精选AI推理市场的专业化分化
4月29日周三
23:42The Decoder:AI News(RSS)46OpenAI 研究人员解释为何数学是通往 AGI 之路
23:42Ant Ling71精选Ling-2.6-1T万亿参数模型开源,主打令牌高效
23:42Hacker News 热门(buzzing.cc 中文翻译)51借助 Opus,我们降低了大型语言模型(LLM)的成本
23:40TestingCatalog News 🗞63Mistral AI发布128B参数模型Mistral Medium 3.5
22:34IT之家(RSS)60华为鸿蒙"龙虾"小艺 Claw 迎重磅更新:上线"自进化"能力、接入 DeepSeek V4
21:49Xiaomi MiMo60精选小米MiMo-V2.5-Pro在最新Arena排行榜中实现多项突破
20:33Qwen60精选闪存QLA:基于TileLang构建的高性能线性注意力内核
20:33Qwen66精选闪速QLA:基于TileLang构建的高性能线性注意力内核
19:07公众号:通义实验室(千问)53FlashQLA:让 Qwen 的注意力层跑得更快
17:08Chubby♨️63GPT-5.5非专业版超越GPT-5.4专业版
16:38Rohan Paul62AMD提出长上下文混合LLM架构HyLo,实现低成本能力升级
16:33IT之家(RSS)59腾讯多款 Agent 智能体亮相 2026 数字中国建设峰会,混元 Hy3 preview 语言模型同步迎来展会首秀
15:38HuggingFace Daily Papers(社区热门论文)59Step-Audio-R1.5 技术报告
15:35阿绎 AYi66蚂蚁Ling-2.6-1T模型以高效能低成本引领AI生产落地竞争
15:33IT之家(RSS)53科大讯飞星火 X2-Flash 模型发布:基于华为昇腾 910B 集群训练,最大 256K 上下文
13:33IT之家(RSS)562025 年我国用于人工智能训练和推理的数据总量达 199.48EB,同比增长 42.86%
12:08Chubby♨️40Engramme推出"大记忆模型"新架构,宣称解决AI持久记忆难题
09:35阿绎 AYi76精选蚂蚁发布Ling-2.6系列模型,以极致token效率推动AI生产落地竞赛
08:33IT之家(RSS)65英伟达推出 Nemotron 3 Nano Omni 模型:采用 30B-A3B 混合 MoE 架构,吞吐量最高提升 9.2 倍
08:00Apple Machine Learning Research(RSS)51Adaptive Thinking: 大型语言模型知道何时在潜在空间中思考
08:00HuggingFace Daily Papers(社区热门论文)50面向高效计算机使用代理的步骤级优化
08:00HuggingFace Daily Papers(社区热门论文)56合规性与合理性:大语言模型中推理可控性研究
08:00HuggingFace Daily Papers(社区热门论文)47长度价值模型:面向令牌级长度建模的可扩展价值预训练
08:00HuggingFace Daily Papers(社区热门论文)56协同进化策略蒸馏(CoPD)
07:07Rohan Paul54GPT-5.5 Pro创ECI评分新高,综合能力领先
05:07Chubby♨️58OpenAI智能体已能提问纠错,研究全面自动化需1-2年
02:37HuggingFace Daily Papers(社区热门论文)48用于认知-偶然不确定性分解的信度概念瓶颈模型
02:08OpenAI36GPT-4 Pro破解60年数学难题,AI数学能力引变革
01:38Ant Ling57感谢Hugging Face开源平台,Ling-2.6-flash以超高token效率登场
4月28日周二
12:34HuggingFace Daily Papers(社区热门论文)54通过步骤级优势选择稳定高效推理
08:00HuggingFace Daily Papers(社区热门论文)44R^3-SQL:面向Text-to-SQL的排序奖励与重采样框架
08:00HuggingFace Daily Papers(社区热门论文)45模型应以多快速度遵从监督?基于Tsallis损失连续体训练推理模型
08:00Apple Machine Learning Research(RSS)62精选LaDiR:潜在扩散模型增强 LLM 的文本推理能力
00:09TestingCatalog News 🗞57Perplexity发布Sonar 2模型引猜测
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月30日
02:06
Google AI@GoogleAI
52
智能体时代启幕:谷歌发布第八代TPU,专为AI训练与服务打造

在Google Cloud Next '26大会上,谷歌正式推出专为智能体时代设计的第八代TPU芯片,分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练,其性能约为前代的3倍,并通过加速数据移动和优化硬件容错,将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务,内存扩大三倍以支持多步推理,每美元性能提升80%,延迟降低5倍,助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力,推动AI应用创新。

Google产品更新推理部署/工程
01:42
Ant Ling@AntLingAGI
55
Ling-2.6-1T正式开源,来自@AntLingAGI。该模型拥有1T总参数和63B活跃参数,专为实际生产设计,具有token高效性,便于开发者测试、部署和定制。从Ling-2.6-flash升级到1T规模,实现了从快速推理到更强推理的跨越。主推文强调,结合@opencode等工具展示了酷炫演示,体现了模型与现有工具的兼容性和实用性,并对@novita_labs的合作发布表示感谢。

Novita AI: Today, Ling-2.6-1T is officially open-sourced (from @AntLingAGI) 1T total parameters · 63B active parameters Built for r...

开源/仓库推理模型发布
01:42
Ant Ling@AntLingAGI
53
谢谢Adina~ Token效率是引领下一阶段的关键特性。我们需要明智且高效地消耗token,才能使整个行业可持续发展。🤗🤗

Adina Yakup: Ling-2.6-1T just dropped by @AntLingAGI , one day after Ling 2.6 Flash. Both optimized for the same goal: usable intelli...

开源/仓库推理模型发布
01:42
Ant Ling@AntLingAGI
精选72
SGLang团队(隶属于LMSYS Org)揭示了其旗舰指令模型实现快速、高效、大规模执行的关键在于可靠的基础设施与针对性优化。团队宣布对AntLingAGI发布的Ling-2.6-1T万亿参数模型提供Day-0支持。该模型采用快速思考方法,在保持质量的同时,成本可比同类模型降低约4倍,并在AIME26和SWE-bench基准测试中达到SOTA水平。它专为高级编码、复杂推理和大规模智能体工作流设计,具备万亿参数能力与即时模型延迟。团队正持续进行优化,以进一步提升性能。

LMSYS Org: 👏 Meet Ling-2.6-1T from @AntLingAGI, the trillion-parameter flagship instant instruct model built for fast execution & ...

智能体推理模型发布编码

推荐理由:万亿参数做到即时延迟和4倍成本优势,还有SWE-bench SOTA,这份承诺如果兑现,会改变大规模Agent部署的性价比计算。值得去cookbook跑一下验证。
01:34
Dwarkesh Patel:Podcast & Blog(RSS)
精选55
Reiner Pope - 大语言模型训练与服务的数学原理

文章揭示了支撑大语言模型(如GPT、Claude、LLaMA)训练与服务的核心数学框架。通过剖析关键方程,可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律,也量化了训练成本与推理效率之间的权衡,为理解当前大语言模型的发展路径提供了底层逻辑。

大佬观点推理数据/训练

推荐理由:Reiner Pope 把训模型背后的数学摊开讲,听完能反推出大厂在做什么,做训练的人不可多得的一课。
00:36
Tomer Tunguz 博客(VC 分析)
精选57
AI推理市场的专业化分化

AI推理市场正快速分化,各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后,NVIDIA数据中心收入三年内增长17倍,凸显市场爆发。分化根本原因在于工作负载差异:图像视频生成需高计算力,长上下文消耗更多内存,边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层;按模态分为文本、图像视频音频;按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型,整个AI推理市场规模预计约1000亿美元,这种专业化趋势正为各细分领域创造领导者机会。

多模态大佬观点推理端侧

推荐理由:Tomer 把推理市场跟数据库市场做类比,碎片化的逻辑讲得很透,做 AI 基础设施的朋友能直接用来梳理自己的赛道,普通人知道这么回事就行。
4月29日
23:42
The Decoder:AI News(RSS)
46
OpenAI 研究人员解释为何数学是通往 AGI 之路

OpenAI 研究人员在播客中指出,数学能力已成为衡量人工智能向通用人工智能(AGI)发展进程的关键测试。AI 模型在短短两年内,已从掌握小学算术进步到能应对奥林匹克竞赛乃至研究级别的数学问题。这种在复杂数学推理上的快速突破,被视为模型泛化能力和抽象思维提升的重要标志,是迈向 AGI 的核心路径之一。

OpenAI大佬观点推理
23:42
Ant Ling@AntLingAGI
精选71
Ling-2.6-1T万亿参数模型开源,主打令牌高效

AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构,核心设计理念是“令牌高效”,旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化,具备可靠的多步骤执行能力,在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化,部署便捷,兼容广泛的智能体框架,适用于从代码生成到错误修复等多种任务。

Ant Ling: 🚀 Today, we are launching Ling-2.6-1T, a trillion-parameter flagship model designed for precise instruct task execution...

开源/仓库推理模型发布部署/工程

推荐理由:蚂蚁把万亿参数模型开源了,但强调的不是大,而是省 token,这对成本敏感的生产环境是真正的性价比之选,做 agent 的可以上手测测。
23:42
Hacker News 热门(buzzing.cc 中文翻译)
51
借助 Opus,我们降低了大型语言模型(LLM)的成本

团队通过采用前沿模型Opus,成功降低了大型语言模型(LLM)的运营成本。这一升级不仅提升了模型性能,还实现了成本的反向下降,具体成本降幅未在摘要中明确,但整体费用得到有效控制。此举证明了选用更先进的模型架构可以在不增加开支的前提下获得更好的技术服务效果。

Anthropic推理教程/实践
23:40
TestingCatalog News 🗞@testingcatalog
63
MISTRAL 🚨: Mistral AI 发布了 Mistral Medium 3.5,这是一个拥有 256k 上下文窗口和可配置推理算力的 128B 密集开放权重模型。 Mistral Medium 3.5 现已在 Mistral Vibe 和 Le Chat 上可用。

Mistral Vibe: Introducing remote agents in Vibe and Mistral Medium 3.5. You can now launch remote agents in the cloud, including from ...

开源生态推理模型发布
22:34
IT之家(RSS)
60
华为鸿蒙"龙虾"小艺 Claw 迎重磅更新:上线"自进化"能力、接入 DeepSeek V4

华为鸿蒙“龙虾”小艺 Claw 迎来11.6.3.300版本更新。核心升级包括上线“自进化”能力,可学习用户长期偏好以减少重复沟通;并正式接入DeepSeek V4模型,获得百万级上下文处理能力,在信息搜集、文档处理等任务中具备更强推理能力。此外,更新引入了社区与生态伙伴的精选技能,覆盖金融、办公等多领域。该智能体已获得信通院首个终端厂商权威安全认证。目前,支持该功能的小艺App已开启尝鲜升级。

智能体产品更新推理
21:49
Xiaomi MiMo@XiaomiMiMo
精选60
小米MiMo-V2.5-Pro在最新Arena排行榜中实现多项突破

小米MiMo-V2.5-Pro模型在最新Arena排行榜中表现卓越。在Text Arena(Expert)榜单中,它位列全球第六,同时是开源模型与中文模型的双料第一,其所属实验室全球排名第三。该模型在Text Arena(Overall)总榜中排名开源全球第二,在Code Arena(WebDev)前端开发榜单中位列开源全球第三。此外,它在Text Arena的四个关键子类别(Hard Prompts、英文Hard Prompts、指令遵循与长查询)中均获得开源全球第一。这些成绩均基于真实用户偏好与社区盲投评估,体现了模型在复杂任务上的强大综合能力。

开源生态推理模型发布

推荐理由:小米MiMo-V2.5-Pro冲到Arena开源第一,虽然排名更新晚了几天,但这是国产模型在硬核评测里最好的成绩,做选型的现在该认真看看小米。
20:33
Qwen@Alibaba_Qwen
精选60
闪存QLA:基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang构建的高性能线性注意力内核,专为个人设备上的智能体AI设计。其核心创新包括门控驱动的自动片内计算并行、硬件友好的代数重构以及TileLang融合的Warp专用内核,通过提升流处理器利用率,在前向传播上实现2-3倍加速,反向传播实现2倍加速。该技术在小模型、长上下文工作负载和张量并行设置中效果显著,虽然在大批次处理时内存I/O开销略高,但在边缘设备和长上下文场景中实际性能更优。反向传播通过16级Warp专用流水线在严格片上内存限制下实现了核心级加速。相关资源已开源。

开源/仓库推理端侧

推荐理由:2 倍加速的背后是 Warp 特化流水线和自动 Copy 策略,像给手机 GPU 开了条专用跑道,做端侧 Agent 的可以直接拉代码试试。
20:33
Qwen@Alibaba_Qwen
精选66
闪速QLA:基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang开发的高性能线性注意力内核,专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构,以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率,在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时,其将GDN流程拆分为两个内核的策略会带来额外内存开销,但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线,实现了超过2倍的内核级加速。

GitHub开源/仓库推理端侧

推荐理由:Qwen 把线性注意力的推理效率压到了新台阶,2-3 倍加速对想做本地 Agent 的开发者是实打实的,不是论文灌水,是能跑在设备上的代码。
19:07
公众号:通义实验室(千问)
53
FlashQLA:让 Qwen 的注意力层跑得更快
开源/仓库推理部署/工程
17:08
Chubby♨️@kimmonismus
63
GPT-5.5 pro 在 Epoch 基准测试中实现了显著飞跃。然而更令人兴奋的是,GPT-5.5(非 pro 版)超越了 GPT-5.4 pro。 【引用 @EpochAIResearch】:GPT-5.5 Pro 在 Epoch 能力指数上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI推理模型发布评测/基准
16:38
Rohan Paul@rohanpaul_ai
62
AMD提出长上下文混合LLM架构HyLo,实现低成本能力升级

AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。

推理论文/研究
16:33
IT之家(RSS)
59
腾讯多款 Agent 智能体亮相 2026 数字中国建设峰会,混元 Hy3 preview 语言模型同步迎来展会首秀

在2026数字中国建设峰会上,腾讯展示了其Agent智能体生态。其中,WorkBuddy桌面智能体工作台可根据一句话描述自动完成任务;专为中国用户优化的AI技能社区“SkillHub”已集成腾讯核心产品能力,并收录超3.5万个技能。最新发布的混元Hy3 preview语言模型首次亮相,该模型为混合专家模型,总参数295B,支持256K上下文,在复杂推理、代码等能力上大幅提升,旨在助力中小企业低成本快速搭建AI应用,并已在腾讯云、元宝等多款产品中上线。

智能体推理模型发布
15:38
HuggingFace Daily Papers(社区热门论文)
59
Step-Audio-R1.5 技术报告

当前大型音频语言模型普遍依赖基于验证奖励的强化学习范式来驱动听觉推理,但这陷入了“可验证奖励陷阱”——模型为追求孤立文本标签的正确性,牺牲了声学细微差别和对话自然度,导致交互机械、沉浸感差。Step-Audio-R1.5 通过转向基于人类反馈的强化学习实现了范式突破。评估表明,它在保持强大分析推理能力的同时,显著提升了交互体验,特别是在长轮对话中改善了韵律自然性与情感连续性,重新定义了深度沉浸式语音对话的边界。

推理模型发布语音
15:35
阿绎 AYi@AYi_AInotes
66
蚂蚁Ling-2.6-1T模型以高效能低成本引领AI生产落地竞争

蚂蚁集团推出的Ling-2.6-1T模型在免费测试期表现突出,处理复杂任务速度可比竞品快6倍,并具备主动思辨能力。其核心优势在于极高的token效率,能将成本降至可比模型的四分之一,同时综合智能接近GPT-5.4非推理水平,实现了高智能与低生产成本的结合。该模型在SWE-bench、AIME26等生产相关评测中领先,擅长代码、Agent编排等实际应用。蚂蚁依托支付宝场景与海量数据,通过开放API策略推动行业竞争重点从刷榜转向生产落地。

阿绎 AYi: 说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太...

大佬观点开源生态推理评测/基准
15:33
IT之家(RSS)
53
科大讯飞星火 X2-Flash 模型发布:基于华为昇腾 910B 集群训练,最大 256K 上下文

科大讯飞正式发布星火 X2-Flash 模型并开放API。该模型采用MoE架构,总参数300亿,支持256K上下文,基于华为昇腾910B集群训练。其在智能体、代码等能力上大幅提升,在深度研究报告、Skill管理等多项任务上效果接近业界万亿参数模型,而整体token消耗不到主流大尺寸模型的三分之一。通过结合DSA与MTP技术,模型在国产芯片上的训练效率从同规模A800集群的20%提升至90%,并解决了长交互场景采样效率低的问题,为大规模强化学习训练扫清障碍。AstronClaw、Loomy等已率先接入。

MCP/工具推理模型发布
13:33
IT之家(RSS)
56
2025 年我国用于人工智能训练和推理的数据总量达 199.48EB,同比增长 42.86%

国家数据局数据显示,2025年我国用于人工智能训练和推理的数据总量达199.48EB,同比增长42.86%。其中,推理数据量首次超过训练数据量,达到101.34EB。同年,由系统软件和人工智能产生的数据量达26.92ZB,首次超越传统占主体的物联感知数据量。测算显示,未来推理算力需求与训练算力需求之比可能达到3:1或更高。此外,全国日均词元调用量在2025年末已增至100万亿,全年累计调用量约21100万亿。

推理数据/训练行业动态
12:08
Chubby♨️@kimmonismus
40
初创公司Engramme构建了一种名为"大记忆模型"的全新AI架构,旨在专门模拟人类记忆的工作方式,而非依赖RAG或向量搜索等现有技术范式。其创始团队拥有超过160篇Nature和ICLR的出版物,并为此关闭了哈佛实验室。该公司认为,持久性记忆是当前AI的关键弱点,其LMM技术旨在为各类应用赋予持久记忆能力,宣称其解决了AI中的核心记忆难题,正如Google与OpenAI分别解决了搜索和语言问题一样。目前产品已开放测试注册。

Engramme: Persistent memory is the Achilles heel of AI. Engramme's Large Memory Models (LMMs) empower every app with persistent me...

智能体产品更新推理
09:35
阿绎 AYi@AYi_AInotes
精选76
蚂蚁发布Ling-2.6系列模型,以极致token效率推动AI生产落地竞赛

蚂蚁集团发布Ling-2.6系列模型,通过MoE架构与Fast-Thinking机制,将推理激活率降至7%,在实现接近GPT-5.4非推理水平综合智能的同时,大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先,旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源,推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务,在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体推理评测/基准

推荐理由:把 token 成本砍到对手四分之一而智能分不降,Agent 规模化终于有了真正的成本解决方案,做 Agent 的必看。
08:33
IT之家(RSS)
65
英伟达推出 Nemotron 3 Nano Omni 模型:采用 30B-A3B 混合 MoE 架构,吞吐量最高提升 9.2 倍

英伟达发布开源全模态推理模型Nemotron 3 Nano Omni,采用30B‑A3B混合MoE架构,集视频、音频、图像和文本处理于一体。该模型旨在替代多模型链,降低推理成本与编排复杂度。在多项基准测试中表现领先,尤其在视频推理任务中,其系统吞吐量相比其他开放式全模态模型最高提升约9.2倍,文档推理任务最高提升约7.4倍。模型权重、训练配方及数据集已完全开放,支持开发者在各类环境中定制部署。

智能体多模态推理模型发布
08:00
Apple Machine Learning Research(RSS)
51
Adaptive Thinking: 大型语言模型知道何时在潜在空间中思考

研究提出了一种名为“自适应思考”的新方法,使大型语言模型能够动态决定是否需要执行链式思考推理。该方法利用自我一致性作为判断标准,当模型对简单问题已有高置信度答案时,会跳过显式推理步骤,直接生成最终答案。实验表明,在保持相同性能水平下,该方法在GSM8K和MATH基准测试上分别减少了20.3%和41.7%的推理计算量,实现了更高效的计算最优推理。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
面向高效计算机使用代理的步骤级优化

现有计算机使用代理在长周期图形界面任务中因每一步都调用大型多模态模型而导致效率低下。此类任务轨迹具有高度异质性:多数步骤可由轻量策略可靠处理,而错误多集中于少数高风险时刻,表现为进度停滞与语义漂移。为此,本文提出一种事件驱动的步骤级级联框架,默认运行轻量策略,仅当轻量监测器识别到风险升高时才升级至强模型。该框架整合了停滞监测器与里程碑监测器,能根据交互进程自适应分配计算资源,将始终开启的前沿模型推理转变为按需调用。该模块化设计无需改变现有代理架构或重新训练大模型即可直接集成。

智能体arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
合规性与合理性:大语言模型中推理可控性研究

本研究通过推理冲突视角,探讨大语言模型能否将归纳、演绎等基本推理模式与具体问题实例解耦。发现LLMs优先考虑合理性而非合规性,即使指令冲突也倾向任务适用推理。任务准确率不严格由合理性决定,模型依赖内部参数记忆且随规模增强。推理冲突可内部检测,置信度显著下降。实验显示推理类型从中后层线性编码,表明激活层面可控。通过机制干预,成功将模型导向合规,指令遵循率最高提升29%。这表明主动干预能有效解耦逻辑模式与数据,提升可控性、忠实度和泛化能力。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
长度价值模型:面向令牌级长度建模的可扩展价值预训练

长度价值模型(LenVM)是一个创新的令牌级框架,它将剩余生成长度预测转化为价值估计问题,通过为每个生成令牌分配恒定负奖励来获得密集、无偏且可扩展的监督信号。实验表明,LenVM能显著提升模型对生成长度的精确控制能力:在LIFEBench精确长度匹配任务中,它将一个7B模型的长度分数从30.9大幅提升至64.8,超越了前沿闭源模型。同时,该模型支持性能与效率的连续权衡,如在GSM8K上设定200令牌预算时,能保持63%的准确率,远超基线模型的6%。此外,LenVM能从提示开始预测总长度,并提供生成动态的可解释视图,展现了其作为通用长度建模框架的广泛潜力。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
协同进化策略蒸馏(CoPD)

研究提出协同进化策略蒸馏(CoPD),以解决混合RLVR的跨能力发散问题和传统OPD因行为模式差距导致的能力吸收不全问题。CoPD通过推动专家并行训练,并在每个专家的RLVR训练中引入双向OPD,使专家互为教师、协同进化,从而保持行为模式一致且知识互补。实验表明,CoPD能全面集成文本、图像和视频推理能力,性能显著优于混合RLVR和MOPD等基线,甚至超越领域专用专家。该方法可能启发新的训练扩展范式。

智能体多模态推理论文/研究
07:07
Rohan Paul@rohanpaul_ai
54
GPT-5.5 Pro在Epoch AI的ECI指数中获得159分,创下该综合能力评分的新纪录,表明其在多项测试中的整体模型能力目前领先。ECI指数旨在通过整合多个基准测试来评估模型的广泛推理能力,避免单一测试易被针对性优化的问题。此外,GPT-5.5 Pro与GPT-5.5共同解决了两个此前未有模型能处理的Tier 4级别难题。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI推理评测/基准
05:07
Chubby♨️@kimmonismus
58
Sébastien Bubeck 在 OpenAI 播客中表示:人们认为 AI 只擅长回答问题。但 OpenAI 的内部智能体现在已能提出如此优质的问题,以至于研究人员正据此撰写论文。 它们还能发现并修正已发表作品中的错误。他预测模型能完成人类研究者所有工作的时限?1-2年。
智能体OpenAI大佬观点推理
02:37
HuggingFace Daily Papers(社区热门论文)
48
用于认知-偶然不确定性分解的信度概念瓶颈模型

针对概念瓶颈模型(CBM)将认知不确定性与偶然不确定性混为一谈的问题,研究团队提出了CREDENCE框架。该框架将每个概念表示为概率区间,通过不同概念头之间的分歧量化认知不确定性,并训练一个专门的模糊性输出来估计偶然不确定性。实验证明,认知不确定性正相关于模型预测错误,而偶然不确定性则紧密跟踪标注者间的真实分歧。基于此分解,该方法能支持明确的决策:自动化处理低不确定性案例,优先收集高认知不确定性数据以改进模型,将高偶然不确定性案例转交人工审核,并在两者皆高时主动弃权。代码已开源。

安全/对齐推理论文/研究
02:08
OpenAI@OpenAI
36
本月早些时候,一个悬置60年的埃尔德什问题在GPT-5.4 Pro的协助下得以解决。 当人工智能开始擅长数学时,会发生什么? OpenAI研究员@SebastienBubeck和@ErnestRyu与主持人@AndrewMayne共同探讨了变革所在及其对未来研究的意义。
OpenAI大佬观点推理
01:38
Ant Ling@AntLingAGI
57
推文感谢Hugging Face为开源模型的持续发展提供了重要平台。文中强调,token效率是构建实用、可持续协作系统的关键。AntLingAGI最新发布的Ling-2.6-flash模型已加入这场效率竞争,该模型采用MIT许可,具备104B/7.4B激活参数,并创新性地结合了1:7 MLA与Lightning Linear混合注意力机制。其性能表现突出:推理速度高达340 tok/s,并且仅需约1500万tokens即可完成完整的Artificial Analysis评测套件。这一效率显著高于通常需要5000万至1亿tokens的前沿模型,展现出其作为高效协作伙伴的潜力。

Adina Yakup: Token efficiency has become a major battleground, Ling-2.6-flash released by @AntLingAGI just enters the race 🔥 ✨ 104B/...

开源生态推理模型发布
4月28日
12:34
HuggingFace Daily Papers(社区热门论文)
54
通过步骤级优势选择稳定高效推理

研究指出,在短上下文窗口下对大型语言模型进行标准GRPO后训练,虽能压缩推理步骤,但会导致训练不稳定和精度下降。为此,团队提出步骤级优势选择方法,该方法在推理步骤层面进行操作,对正确轨迹中的低置信度步骤和验证失败轨迹中的高置信度步骤分配零优势值,从而有效过滤因截断或验证器问题导致的不可靠步骤。在多项数学与通用推理基准测试中,该方法将平均Pass@1准确率提升了0.86个百分点,同时将平均推理长度降低了16.3%,实现了更优的精度与效率平衡。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
R^3-SQL:面向Text-to-SQL的排序奖励与重采样框架

R^3-SQL是一个新型Text-to-SQL框架,旨在解决现有方法的两大局限:对执行结果相同的等价SQL查询评分不一致,以及当候选池中缺失正确SQL时无法补救。该框架通过统一的排序奖励和智能重采样机制应对这些问题。它首先按执行结果对候选查询分组并排序以确保一致性,其评分结合了组间成对偏好与组内最佳排名和规模的点效用。同时,框架引入智能重采样机制,在判断正确SQL可能缺失时选择性地重新生成候选查询。在BIRD-dev数据集上,R^3-SQL取得了75.03%的执行准确率,在公开模型规模的方法中达到新的最高水平,并在五个基准测试中均表现出一致的性能提升。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
模型应以多快速度遵从监督?基于Tsallis损失连续体训练推理模型

研究提出基于Tsallis q-对数的损失函数族J_Q,用于在仅有输出级监督的后训练中调整推理模型。该族在利用极(q=0,对应RLVR)和密度估计极(q=1)间连续插值,所有成员共享相同梯度方向,仅通过标量因子P_{θ^{-q}}重加权。该机制解决了冷启动停滞问题:利用极逃离需Ω(1/p_0)时间,而密度估计极仅需Θ(log(1/p_0)),中间q值权衡逃离速度与噪声记忆。研究推导出两种蒙特卡洛估计器:梯度放大强化学习(GARL)与后验衰减微调(PAFT)。在多个数据集上,q=0.75的GARL显著缓解了冷启动停滞,在GRPO完全失败时成功逃离;在热启动中,低q的GARL在FinQA上表现主导,而PAFT在q=0.75时为其他数据集提供了稳定梯度,在HotPotQA上达到最佳结果47.9 maj@16。

arXiv推理数据/训练论文/研究
08:00
Apple Machine Learning Research(RSS)
精选62
LaDiR:潜在扩散模型增强 LLM 的文本推理能力

研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。

推理数据/训练论文/研究

推荐理由:Apple 把扩散模型塞进 LLM 推理链,思路很野,用连续潜空间替代自回归 token 生成来解决「写到一半没法回头改」的老毛病。做推理优化或 diffusion 架构的值得细看,但离工程落地还远。
00:09
TestingCatalog News 🗞@testingcatalog
57
Sonar 2 现已在 Perplexity 网页端上线 👀 > Sonar 模型是 Perplexity 自研的大型语言模型,专门针对快速、基于网络的搜索与回答进行了优化 你认为 Sonar 2 是基于哪个模型开发的?DeepSeek V4、Kimi K2.6 还是 Qwen? 【引用 @sethsaler】:Perplexity 推出的 Sonar 2。👀 @testingcatalog @btibor91

Seth Saler: Sonar 2 from Perplexity. 👀 @testingcatalog @btibor91

产品更新推理搜索
‹ 上一页
1…4243444546…50
下一页 ›