AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月12日周二
02:29Ethan Mollick61大语言模型规模越大,综合能力越强
00:35IT之家(RSS)72精选菲尔兹奖得主亲测 ChatGPT 5.5 Pro:17 分钟出论文级成果,替学生拉响红色警报
00:27Google AI Developers60谷歌DeepMind与Coursera推出"Gemini for Developers"开发者专项课程
5月11日周一
23:59elvis70大语言模型代理中的"记忆诅咒"
22:00OpenRouter69精选AntLingAGI发布万亿参数模型Ring-2.6-1T
19:48Berryxia.AI73小块有大智慧?这下真成真了!
17:53Chubby♨️60Cerebras凭借其推理芯片能效优势,瞄准今年全球最大规模IPO
17:51Tencent Hy63腾讯混元Hy3预览版发布,专注复杂智能体任务
14:27Greg Brockman47GPT-5.5凭/goal指令攻克代码重构难题
09:34IT之家(RSS)78精选消息称 AI 芯片企业 Cerebras IPO 获 20+ 倍超额认购,拟调升发行价近三成
08:34IT之家(RSS)57慧荣科技总经理苟嘉章预警:NAND 闪存缺货潮或延续至 2028 年
08:00HuggingFace Daily Papers(社区热门论文)55无监督过程奖励模型
08:00HuggingFace Daily Papers(社区热门论文)54MemReread:通过记忆引导重读增强智能体长上下文推理能力
08:00HuggingFace Daily Papers(社区热门论文)61EVOCHAMBER:多智能体测试时协同进化框架
08:00HuggingFace Daily Papers(社区热门论文)71精选IndustryBench:探究大语言模型的工业知识边界
08:00HuggingFace Daily Papers(社区热门论文)57策略蒸馏的多重困境:失效机制与修复方案
08:00HuggingFace Daily Papers(社区热门论文)68教语言模型用代码思考
03:22Chubby♨️76精选旧版AI模型急诊诊断已超越人类医生
5月10日周日
21:59MiniMax (official)46英伟达支持开源模型生态,MiniMax稀疏方案即将发布
16:58OpenCode64OpenCode x Ring 2.6 1T限时免费开放
13:05Satya Nadella59Excel 悄然从图灵完备迈向 AI 完备
11:32阿绎 AYi59十年回望"神之一手":AI如何改变围棋与人类认知
08:00HuggingFace Daily Papers(社区热门论文)55LEAD:面向大语言模型的长度高效自适应动态推理
08:00HuggingFace Daily Papers(社区热门论文)52SeePhys Pro:诊断物理推理多模态RLVR中的模态迁移与盲训练效应
08:00HuggingFace Daily Papers(社区热门论文)56LoopUS: 将预训练 LLM 重构为循环潜在精炼模型
08:00HuggingFace Daily Papers(社区热门论文)63通过精确熵曲线控制解决大语言模型强化学习的性能饱和问题
08:00HuggingFace Daily Papers(社区热门论文)62跨语言在线策略自蒸馏:提升大语言模型在低资源语言上的数学推理能力
08:00HuggingFace Daily Papers(社区热门论文)59Dystruct:通过贝叶斯推理实现动态结构化扩散语言模型解码
08:00HuggingFace Daily Papers(社区热门论文)66草稿本补丁:在字节级语言模型中解耦计算与补丁大小
08:00HuggingFace Daily Papers(社区热门论文)55让每个Token都算数:通过KV缓存淘汰提升长上下文性能
08:00HuggingFace Daily Papers(社区热门论文)62DeltaRubric:通过联合规划与验证生成多模态奖励模型
08:00HuggingFace Daily Papers(社区热门论文)57强化多模态模型在视觉退化下的推理鲁棒性
03:01Demis Hassabis58AlphaGo问世十周年,棋手重逢谈变革
01:29SemiAnalysis33从人口到无人机,战争胜负关键演变
5月9日周六
23:32阿绎 AYi82精选Redis创始人用C语言引擎将大模型"装进"个人电脑
23:00The Decoder:AI News(RSS)82精选菲尔兹奖得主称 ChatGPT 5.5 Pro 在无人帮助下两小时内完成"博士级"数学研究
20:51Chubby♨️64百度ERNIE 5.1以极低预训练成本逼近SOTA
18:43Berryxia.AI72百度发布ERNIE 5.1模型,实现参数与成本的极致压缩
17:02SiliconFlow61Qwen系列多尺寸模型登陆SiliconFlow平台
15:19Baidu Inc.73ERNIE 5.1发布,预训练成本仅需对标模型6%
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月12日
02:29
Ethan Mollick@emollick
61
大语言模型(LLM)的一个重要特性是,更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域,但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如,在PACT基准测试的数千场模拟谈判中,GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩,这印证了模型规模与综合能力提升的正相关关系。

Lech Mazur: First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...

OpenAI大佬观点推理现象/趋势
00:35
IT之家(RSS)
精选72
菲尔兹奖得主亲测 ChatGPT 5.5 Pro:17 分钟出论文级成果,替学生拉响红色警报

菲尔兹奖得主 Timothy Gowers 测试 ChatGPT 5.5 Pro,AI 在 17 分钟内独立解决了一个加法数论公开难题,产出了博士论文级别的成果。整个过程无需数学指导,仅通过简单提示完成。Gowers 警告,若 AI 数学能力按此速度发展,将很快对数学研究领域构成危机,尤其冲击博士生培养。他呼吁数学系紧急应对,帮助学生寻找新出路。另一位菲尔兹奖得主陶哲轩则指出,人类数学家在 AI 时代的核心价值在于“消化”和深入理解证明。

OpenAI大佬观点推理

推荐理由:Gowers用GPT-5.5 Pro独立完成了够博士论文的数学成果,这不是AI辅助而是AI主导。两位菲尔兹奖得主同时拉响警报,对正在读博的你来说,这比任何论文都更有冲击力。
00:27
Google AI Developers@googleaidevs
60
谷歌DeepMind与Coursera推出"Gemini for Developers"开发者专项课程

谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。

智能体DeepMindGoogleMCP/工具
5月11日
23:59
elvis@omarsar0
70
大语言模型代理中的"记忆诅咒"

研究发现,长历史记录会在大语言模型(LLM)代理中引发“记忆诅咒”,导致其过度遵循历史、规避风险,从而削弱合作能力。该结论基于7个LLM和4个社会困境游戏的实验,在28个模型-游戏组合中,有18个因历史扩展而合作退化。机制分析表明,长历史侵蚀了模型的前瞻性意图,使其更关注过去的冲突而非未来收益。通过仅在前瞻性轨迹上训练的LoRA适配器可缓解此问题,且能零样本迁移至新游戏。实验证明,触发因素是历史内容而非长度,而消除显式思维链通常能减轻合作崩溃。

智能体arXiv安全/对齐推理
22:00
OpenRouter@OpenRouter
精选69
AntLingAGI发布了其万亿参数旗舰"思考模型"Ring-2.6-1T,该模型在5月15日前可通过OpenRouter免费使用。其核心特性包括可调节的思考强度,能动态平衡认知深度、token成本和执行速度;专为智能体优化,适用于高频工作流,提供快速的多步执行和工具调用;并具备深度思考能力,以应对严密的数学逻辑和科学研究任务。模型旨在满足实际生产环境中复杂任务的需求。

Ant Ling: We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and p...

智能体推理模型发布

推荐理由:万亿参数的思维模型免费到5月15日,可调思考力度的设计很接地气,做agent的可以趁窗口压测一下,看看它能不能扛住真实生产环境。
19:48
Berryxia.AI@berryxia
73
小块有大智慧?这下真成真了!

一项新研究证明,一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行,并精确指定上下文信息,在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中,其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型,比手动设计的多代理流程更高效。该工作提供了关键证据,表明目前商业AI产品中依赖人工的提示工程和流程设计,完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向:智能的差距可能不在于模型规模,而在于协调与指挥的能力。

BURKOV: In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...

智能体arXivMCP/工具推理
17:53
Chubby♨️@kimmonismus
60
Cerebras凭借其推理芯片能效优势,瞄准今年全球最大规模IPO

AI芯片制造商Cerebras Systems因IPO订单超出发行股票20倍以上,计划提高IPO规模和价格。市场普遍认为其芯片仅推理速度更快,但其核心优势在于能效。传统GPU在推理时受内存带宽限制,每个token生成都需从内存读取整个模型,导致算力闲置。Cerebras的Wafer-Scale Engine采用单一大芯片设计,以片上SRAM替代片外HBM,每次内存访问能耗降低约100倍。减少数据移动既降低了延迟,也显著减少了每token的功耗,这解释了其IPO被超额认购的原因。

推理行业动态部署/工程
17:51
Tencent Hy@TencentHunyuan
63
腾讯混元Hy3预览版已开放早期体验,被描述为该系列最强模型。其核心设计面向现实世界有效性,而非单纯追求基准测试分数。模型具备处理复杂智能体任务的能力,采用256K上下文长度,并融合了快慢思维机制的混合专家架构。该模型基于重建的预训练和强化学习基础设施构建,旨在实现大规模应用下的高成本效益。

Python Space: Got early access to Tencent's Hy3 preview. This is the strongest model in the Hy series. Built on rebuilt pre-training a...

智能体推理模型发布
14:27
Greg Brockman@gdb
47
/goal 被低估了 GPT-5.5 extra high thinking 配合 /goal 刚刚做到了。 我震惊了。

james yu: We have a gnarly refactor in our codebase that I test every frontier model on. I've been doing this since the release of...

OpenAI大佬观点推理编码
09:34
IT之家(RSS)
精选78
消息称 AI 芯片企业 Cerebras IPO 获 20+ 倍超额认购,拟调升发行价近三成

AI芯片企业Cerebras的IPO获得超过20倍超额认购,有望成为2026年以来全球最大IPO。公司计划将发行股票数量从2800万股增至3000万股,发行价区间从115-125美元上调至150-160美元,以中间价计涨幅达29.17%,最高可筹资48亿美元。Cerebras的“晶圆级芯片”因集成大量高带宽SRAM缓存,特别适合AI推理的解码步骤,已获得亚马逊和OpenAI的大额订单。

OpenAI推理行业动态

推荐理由:Cerebras的晶圆级芯片在推理端有独特优势,这次IPO若以近50亿美元上限募资,意味着AI芯片竞赛又多了一个重量级玩家,对英伟达的格局是一记有趣的搅动。
08:34
IT之家(RSS)
57
慧荣科技总经理苟嘉章预警:NAND 闪存缺货潮或延续至 2028 年

慧荣科技总经理苟嘉章预警,由于AI投资重心从训练转向推理,带动内存与存储需求激增,NAND闪存缺货状况可能持续至2028年。下半年内存价格预计继续上涨,但涨幅将小于上半年。产能扩张面临瓶颈,从建厂到良率调适需时2-3年,设备交付周期也长达1-1.5年,供需缺口难以迅速缓解。部分手机和电脑厂商已难以承受成本压力,而苹果等具备采购优势的大型品牌有望获得市场增长机会。

推理行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
55
无监督过程奖励模型

本研究提出一种无需人类标注的无监督过程奖励模型(uPRM)训练方法。该方法基于大语言模型下一个token的概率设计评分函数,能够联合评估一批推理轨迹中首个错误步骤的可能位置,实现完全无监督训练。实验表明,uPRM在ProcessBench数据集上识别首个错误步骤的准确率比“LLM作为裁判”方法最高提升15%;作为测试时验证器,其性能与监督PRM相当,比多数投票基线高出最多6.9%;在强化学习中作为奖励信号,训练过程比使用真实标签的监督PRM更稳定。该工作为复杂推理任务的可扩展奖励建模提供了新途径。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
MemReread:通过记忆引导重读增强智能体长上下文推理能力

研究提出MemReread方法,以解决基于记忆的智能体在长文档推理中可能丢失潜在证据的问题。该方法在线性流式阅读基础上,当最终记忆不足时触发问题分解与重读,从而恢复被过早丢弃的间接事实,支持非线性推理同时保持文档理解逻辑。通过强化学习框架动态决定重读轮数以适配任务复杂度,灵活控制计算开销。实验表明,MemReread在长上下文推理任务中持续优于基线框架,且保持相对于上下文长度的线性时间复杂度。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
EVOCHAMBER:多智能体测试时协同进化框架

EVOCHAMBER 是一个无需训练的多智能体测试时进化框架,在智能体池中实现个体、团队和群体三层协同进化。其核心 CODREAM 协议在团队失败或分歧时触发,让智能体协作反思并非对称传递知识,以保持专业化。团队级和群体级算子分别管理协作结构和智能体生命周期。基于 Qwen3-8B 在三个异构任务流测试中,该框架在数学、代码和多领域推理任务上表现优异,数学准确率相对最佳基线提升 32%。消融实验证实非对称知识传递是性能提升关键。系统从相同初始化智能体涌现出稳定专家,体现了多智能体进化的独特结构特征。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
IndustryBench:探究大语言模型的工业知识边界

研究团队发布IndustryBench,这是一个基于中国国家标准(GB/T)和工业产品记录构建的2049项中文工业采购问答基准,并提供了多语言对齐版本。构建中,基于外部搜索的验证环节拒绝了70.3%的大语言模型生成问题,凸显了仅靠模型过滤的不可靠性。对多语言模型的评估发现:最佳系统得分(0-3分制)仅为2.083分,提升空间巨大;“标准与术语”是普遍能力短板;扩展推理会因引入无依据的安全关键细节而降低多数模型的安全调整分数;安全违规检查会显著改变模型排名。研究表明,工业领域的大语言模型评估需基于源文本、具备安全意识,而非依赖简单的聚合准确率。

arXivHugging Face推理数据/训练

推荐理由:工业采购场景下,LLM的准确率远不够用,而且推理模型越想越多反而越不安全,这个基准把幻觉和安全风险摆上了台面。
08:00
HuggingFace Daily Papers(社区热门论文)
57
策略蒸馏的多重困境:失效机制与修复方案

研究发现,大型语言模型的后训练方法——策略蒸馏(OPD)与策略自蒸馏(OPSD)效果不稳定。OPD在数学推理任务中对教师模型和损失函数极为敏感;OPSD则在测试时缺乏实例特定特权信息时容易失效,但在系统提示等共享规则场景下有效。失效机制主要包括:师生分布不匹配、TopK反向KL梯度导致的优化不稳定,以及OPSD聚合教师策略时丢失实例信息。采用停止梯度的TopK目标、经RLVR适配的教师模型和SFT稳定的学生模型可有效缓解这些问题。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
教语言模型用代码思考

针对现有工具集成推理范式存在代码仅用于事后验证、自然语言中间计算易错等问题,研究团队提出ThinC框架,将代码本身作为核心推理器。该框架仅以简短自然语言规划开始,后续所有推理均通过代码块及其执行输出串联完成。团队从教师模型中提取了12.2万条代码轨迹,并训练出ThinC-1.7B和ThinC-4B模型。在五项竞赛级数学基准测试中,ThinC-4B全面超越了所有工具集成推理基线,甚至优于规模大得多的Qwen3-235B-A22B-Thinking模型。分析表明,其99.2%的最终答案基于解释器输出,且能在代码执行失败时可靠恢复。

推理论文/研究
03:22
Chubby♨️@kimmonismus
精选76
旧版AI模型急诊诊断已超越人类医生

一项发表于《科学》的研究显示,OpenAI一年前发布的o1模型在急诊诊断中表现优于医生。该模型在真实、混乱的急诊数据测试中,正确或接近正确诊断率达67%,而医生为50-55%,尤其在信息有限的早期分诊阶段优势最明显。研究指出,o1模型在结构化病例中的临床推理近乎完美,且该模型按AI标准已属旧版,当前模型可能更强。研究未涵盖长期住院数据及影像诊断,下一步需验证AI系统能否实际改善患者预后。

OpenAI推理论文/研究

推荐理由:一年前的o1在真实急诊信息最不全、时间最紧的环节胜过急诊医生,这不是实验室刷榜,是直接冲击医疗流程。做AI落地的朋友可以拿这篇当说服医院的弹药。
5月10日
21:59
MiniMax (official)@MiniMax_AI
46
感谢 @nvidia 对开源模型生态系统的支持🤝📝 BTW,快速预告:MiniMax 的最新稀疏解决方案即将推出。🥰

RyanLee: Really glad to meet the @NVIDIAAI team in China. Looking forward to deeper collaboration between @MiniMax_AI and @nvidia...

开源生态推理行业动态
16:58
OpenCode@opencode
64
OpenCode x Ring 2.6 1T - 限时免费开放 256K上下文 • 推理能力 • 纯文本模型 感谢 @AntLingAGI 和 @novita_labs 提供模型支持
推理模型发布
13:05
Satya Nadella@satyanadella
59
Excel 长期以来一直悄无声息地是图灵完备的。很高兴看到它现在正迈向 "AI 完备"--SGD、注意力机制、下一个令牌预测……全都在单元格中。

Austin Henley: Excel Copilot one-shotted a tiny GPT-style language model for me inside a spreadsheet: embeddings, causal attention, wei...

Microsoft推理教程/实践
11:32
阿绎 AYi@AYi_AInotes
59
十年回望"神之一手":AI如何改变围棋与人类认知

2016年AlphaGo以第37手“神之一手”战胜李世石,其真正遗产在于让顶尖人类棋手承认AI拥有超越人类的创造力,打破了人类对自身智慧的千年傲慢。十年间,AI已从“登月”级突破演变为如Gemini般的日常工具。Demis与李世石重聚时指出,AlphaGo改变了棋手的思维方式,AI并未取代围棋,而是让棋手站在其肩膀上创新,使围棋技艺进入新境界。这揭示了AI与人类最理想的共生形态——提升而非取代。展望未来,今日的AI变革或许仅是漫长征程的起点。

Demis Hassabis: Hard to believe it's been 10 years since AlphaGo! It was wonderful to catch up with Lee Sae Dol last week in Korea and j...

DeepMind推理现象/趋势
08:00
HuggingFace Daily Papers(社区热门论文)
55
LEAD:面向大语言模型的长度高效自适应动态推理

针对OpenAI o1等大型推理模型因能力提升而日益冗长、浪费算力与上下文资源的问题,现有基于静态奖励的方法难以平衡正确性与效率。研究者提出LEAD方法,通过在线自适应机制动态校准每一步的正确性与效率权衡,并依据模型自身正确推演为每个问题在线估计自适应目标长度,对称惩罚过度推理与过度压缩。在五个数学推理基准测试中,LEAD在基于强化学习的高效推理方法中取得了最高的准确率和准确率-效率分数,同时生成的输出比基础模型显著缩短。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
SeePhys Pro:诊断物理推理多模态RLVR中的模态迁移与盲训练效应

研究团队推出细粒度模态迁移基准SeePhys Pro,通过为每个问题提供四种视觉元素递增的变体,评估模型在关键信息从文本转向图像时推理能力的保持情况。评估发现,前沿模型的性能随视觉化程度增加而下降,视觉变量定位是主要瓶颈。基于此,研究构建多模态RLVR训练语料库并采用盲训练诊断,发现即使掩码所有训练图像,强化学习仍能提升验证集性能。控制实验表明,此类提升可能源于残留的文本与分布线索,而非有效的视觉证据。研究强调,评估多模态推理需关注模态迁移下的鲁棒性,并诊断改进是否依赖于关键视觉证据。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
LoopUS: 将预训练 LLM 重构为循环潜在精炼模型

LoopUS 是一种后训练框架,可将标准预训练大语言模型转换为循环架构,无需从头训练循环模型或进行破坏性改造。其核心是将模型重构为编码器、循环推理块和解码器,并包含四个关键组件:基于阶段化表征动态的块分解、抑制隐藏状态漂移的输入依赖选择性门、支持长递归范围内存高效学习的随机深度监督,以及用于自适应提前退出的置信度头。该框架通过稳定的潜在循环提升模型的推理性能,且不延长生成轨迹或增加额外训练成本。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
通过精确熵曲线控制解决大语言模型强化学习的性能饱和问题

针对大语言模型强化学习中普遍存在的性能饱和问题,研究团队提出Entrocraft方法。该方法通过拒绝采样偏置优势分布,实现用户定制的熵调度,无需目标正则化且与优势估计器无关。理论分析将熵变化与优势分布关联,解释了现有方法的行为。系统研究发现,从高值衰减至略低目标的线性退火熵调度效果最佳。实证表明,Entrocraft显著提升了模型泛化能力、输出多样性和长期训练稳定性,使40亿参数模型性能超越80亿参数基线,性能提升持续时间延长至4倍,并将pass@K指标提高了50%。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
跨语言在线策略自蒸馏:提升大语言模型在低资源语言上的数学推理能力

本文提出跨语言在线策略自蒸馏方法(COPSD),以提升大语言模型在低资源语言上的数学推理能力。该方法将同一模型同时作为学生和教师:学生仅接收低资源语言问题,教师则额外获得英文翻译和参考解答作为上下文。通过最小化学生自身输出与教师指导间的全分布令牌级分歧进行训练,提供了密集监督,避免了仅基于结果的强化学习的稀疏性与不稳定性。在17种低资源非洲语言上的实验表明,COPSD能持续提升不同规模模型的推理性能,显著优于GRPO基准,并改善了答案格式遵循与测试时缩放能力,对资源极少的语言效果尤为显著。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
59
Dystruct:通过贝叶斯推理实现动态结构化扩散语言模型解码

扩散语言模型因支持并行解码而备受关注,但其通常依赖预设的固定生成长度,限制了应用灵活性。现有可变长度生成方法或需重新训练,或仅依赖局部置信度信号,导致生成质量不佳。本研究提出一种无需重新训练的贝叶斯结构化解码框架,将灵活长度生成建模为动态结构推断问题,联合优化扩展长度、块边界与解码调度。该方法在每一步扩展中,通过统一机制整合局部不确定性与全局结构信号,实现动态块扩展与组织,保障文本连贯性。多项实验表明,该方法在生成质量与灵活性上显著优于现有基线模型。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
草稿本补丁:在字节级语言模型中解耦计算与补丁大小

基于补丁的字节级语言模型面临补丁大小与建模质量的权衡,其根源在于“补丁滞后”问题。本研究提出的“草稿本补丁”方法,通过在补丁内部插入临时草稿本,聚合已见字节并刷新补丁级上下文,从而缓解滞后。该方法利用下一字节预测熵触发草稿本,将计算选择性分配给信息密集区域,并允许事后调整推理时计算。在自然语言和代码实验中,该方法在相同补丁大小下提升了模型质量。例如,即使补丁大小为16字节,增强后的模型在下游评估中匹配或接近字节级基线,同时补丁的KV缓存缩小了16倍,推理计算减少了3-4倍。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
让每个Token都算数:通过KV缓存淘汰提升长上下文性能

研究提出一种基于全局保留的KV缓存淘汰方法,以应对长上下文推理中的内存与计算瓶颈。该方法通过轻量级保留门为缓存条目分配效用分数,并利用共享的最终评分投影在所有层和注意力头间校准分数,使不同层、头和模态的token能在统一缓存容量下直接竞争。理论分析表明,优先保留有用token能减少注意力稀释。在多种长上下文语言、视觉-语言推理及多轮对话基准测试中,该方法在显著减少KV内存的同时,性能达到甚至超越了全缓存推理水平,表明学习型全局KV淘汰可成为一种提升推理能力的机制。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
DeltaRubric:通过联合规划与验证生成多模态奖励模型

针对多模态大语言模型对齐中奖励模型不可靠的问题,本研究提出DeltaRubric方法。它将偏好评估重构为“规划-执行”流程:模型先作为“分歧规划器”生成针对具体实例的中立验证检查表,再转为“检查表验证器”依据图像和问题执行检查,输出基于事实的判断。该方法被构建为多角色强化学习问题,以联合优化规划与验证能力。在Qwen3-VL模型上的实验表明,DeltaRubric在VL-RewardBench上将基础模型的整体准确率显著提升了超过18分,大幅优于无检查表基线,证明结构化、可验证的评估步骤能产生更可靠、泛化性更强的多模态奖励模型。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
强化多模态模型在视觉退化下的推理鲁棒性

针对多模态大语言模型在图像模糊、压缩伪影等现实视觉退化下推理性能下降的问题,研究团队提出ROMA强化学习微调框架。该框架通过双前向传播、令牌级代理KL惩罚、基于干净图像优势的辅助策略梯度损失及正确性条件正则化四项核心技术,在避免损害清晰图像性能的前提下,有效提升了模型对视觉退化的鲁棒性。在Qwen3-VL模型上的实验表明,该方法在多个基准测试中对已见和未见退化的鲁棒性均显著优于GRPO方法。

多模态推理数据/训练论文/研究
03:01
Demis Hassabis@demishassabis
58
很难相信AlphaGo已经过去10年了!上周在韩国与Lee Sae Dol重逢,并与Shin Jin-seo进行了一场特别的围棋比赛,真是太棒了。重温AlphaGo很棒,并且听到它如何改变玩家下围棋的方式超级有趣!

Demis Hassabis: #AlphaGo WINS!!!! We landed it on the moon. So proud of the team!! Respect to the amazing Lee Sedol too

DeepMind大佬观点推理
01:29
SemiAnalysis@SemiAnalysis_
33
一战中,战争胜负取决于适龄军事人口数量 二战中,战争胜负取决于坦克、航空母舰和核武器 在乌克兰,战争胜负取决于无人机数量 而在第三次世界大战中,战争胜负将取决于各国拥有的token数量
推理现象/趋势
5月9日
23:32
阿绎 AYi@AYi_AInotes
精选82
Redis创始人用C语言引擎将大模型"装进"个人电脑

Redis创始人Antirez开源了专为DeepSeek V4 Flash设计的原生推理引擎ds4。该引擎仅用几千行C代码,通过三项关键技术:对MoE专家进行不对称2-bit量化、将KV Cache移至高速SSD突破内存限制、为Apple Silicon进行纯Metal原生优化,成功在128GB MacBook Pro上流畅运行具备1M上下文窗口的模型,实测达27 tok/s。此举将原本依赖云端GPU集群的前沿AI能力,通过极致工程优化 democratize 至个人设备,展现了开源社区推动技术平民化的强大潜力。

Garry Tan: Downloading now... 1M token context window with supposedly usable coding agent capability all on a 128GB Macbook Pro is ...

DeepSeek开源/仓库推理端侧

推荐理由:Antirez用几千行C代码把DeepSeek V4 Flash塞进128G Mac,本地跑1M上下文coding agent,这才是真正的AI民主化时刻,开发者必试。
23:00
The Decoder:AI News(RSS)
精选82
菲尔兹奖得主称 ChatGPT 5.5 Pro 在无人帮助下两小时内完成"博士级"数学研究

菲尔兹奖得主蒂莫西·高尔斯让 ChatGPT 5.5 Pro 尝试解决数论中的开放性问题。该模型在不到一小时内,将一个问题中的指数界限改进为多项式界限。一位参与的 MIT 研究员认为其核心想法“完全具有原创性”。高尔斯总结指出,未来数学贡献的门槛将变为证明某些是大语言模型无法完成的工作。

OpenAI推理论文/研究

推荐理由:Gowers 让 ChatGPT 5.5 Pro 独立改进了一个数论开放问题,关键步骤被 MIT 研究者评价为完全原创——AI 做研究的门槛第一次被菲尔兹奖得主亲自认证了。
20:51
Chubby♨️@kimmonismus
64
百度ERNIE 5.1以极低预训练成本逼近SOTA

百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础,宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升,而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四,ERNIE 5.1 Preview在LMArena Text上取得1476分,全球排名第十三。推文作者指出目前未见技术论文,需验证其宣称的低成本高性能表现,但若属实将意义重大。

Baidu Inc.: ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reaso...

推理搜索模型发布
18:43
Berryxia.AI@berryxia
72
百度发布ERNIE 5.1模型,实现参数与成本的极致压缩

百度推出ERNIE 5.1模型,核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2,预训练成本仅为同规模模型的约6%,同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro,世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro,推理能力仅次于Gemini 3.1 Pro,深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

ERNIE for Developers: ERNIE 5.1 is here 🚀 ERNIE 5.1 significantly reduces pretraining cost while compressing total parameters to ~1/3 and act...

智能体推理数据/训练模型发布
17:02
SiliconFlow@SiliconFlowAI
61
思小建大🔥 @Alibaba_Qwen 3.5 和 Qwen3.6 系列现已在 SiliconFlow 上线 🎉 9B 到 397B · MoE 与 Dense · 原生多模态 ✅ Qwen3.6-35B-A3B · Qwen3.6-27B ✅ Qwen3.5-397B-A17B · Qwen3.5-122B-A10B ✅ Qwen3.5-35B-A3B · Qwen3.5-27B · Qwen3.5-9B 更小的模型。更大的成果。社区的最爱。 现在,选择你的尺寸并开始构建 👇 https://cloud.siliconflow.com/
产品更新多模态推理
15:19
Baidu Inc.@Baidu_Inc
73
ERNIE 5.1 刚刚发布。 基于 ERNIE 5.0 的预训练基础,我们最新的基础模型升级了搜索、推理、知识问答、创意写作和智能体能力,而预训练成本仅需对标模型的约 6%。 更多内容详见主题帖 🧵
智能体推理搜索模型发布
‹ 上一页
1…3536373839…50
下一页 ›