AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月14日周四
23:45Ant Ling83Ring-2.6-1T开源:万亿级思考模型支持复杂任务执行
23:31蚂蚁 inclusionAI:HuggingFace 新模型59精选蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T
22:45Hugging Face:Blog(RSS)59精选解锁连续批处理中的异步性
21:45The Decoder:AI News(RSS)64阿里巴巴的 Qwen-Image-2.0 将压缩率提升一倍,并将生成步骤从40步削减至4步
20:01Chubby♨️58Gemini 3.2 Flash性能逼近GPT-5.5,成本大降
19:58公众号:龙猫LongCat(美团)51美团 LongCat 开源 General 365:树立推理评测新标尺
18:46HuggingFace Daily Papers(社区热门论文)55RealICU:超越行为模仿,评估LLM智能体对长上下文ICU数据的理解能力
18:08🚨 AI News | TestingCatalog60微软拟收购AI实验室Inception
13:58Xiaomi MiMo60MiMo V2.5 Pro在Design Arena总榜排名第三
13:35Rohan Paul77Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上实现每秒34个token的本地推理
13:04Ethan Mollick58AI能力增长已过临界点
11:45HuggingFace Daily Papers(社区热门论文)66长上下文窗口下的思维链上下文学习研究:从检索缓冲到结构化课程
10:51Berryxia.AI79精选UnslothAI发布Qwen3.6 MTP GGUF模型,实现推理速度大幅提升
10:45HuggingFace Daily Papers(社区热门论文)64重访DAgger算法在长视野大语言模型智能体训练中的应用
10:45HuggingFace Daily Papers(社区热门论文)60MAP:一种面向长程交互式智能体推理的先建图后行动范式
09:40IT之家(RSS)67雷军谈小米自动驾驶模型 Xiaomi OneVL:业内率先通过潜空间推理将 VLA、世界模型统一到一套框架
08:00HuggingFace Daily Papers(社区热门论文)48视频模型可通过可验证奖励进行推理
08:00HuggingFace Daily Papers(社区热门论文)53EndPrompt:通过末端锚定高效扩展长上下文
08:00HuggingFace Daily Papers(社区热门论文)57GQLA:面向硬件自适应的大语言模型解码的分组查询潜在注意力
08:00HuggingFace Daily Papers(社区热门论文)59Learning from Failures: 基于可验证奖励的纠错导向策略优化
08:00HuggingFace Daily Papers(社区热门论文)57Solvita:通过智能体演化增强大语言模型的竞技编程能力
04:42Berkeley RDI:Blog(AI 安全与评测)79同事件精选ExploitGym:AI智能体能否将安全漏洞转化为真实攻击?同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》
04:04Ethan Mollick64停止将AI提示词魔法化,回归清晰指令
02:44HuggingFace Daily Papers(社区热门论文)73精选解决循环:语言和推理的吸引子模型
01:44HuggingFace Daily Papers(社区热门论文)66快与慢的学习:面向持续适应的大语言模型
5月13日周三
21:44HuggingFace Daily Papers(社区热门论文)53UniPath:面向统一多模态推理的理解与生成自适应协调框架
21:01AK61长时第一人称视频理解推理基准发布
18:44HuggingFace Daily Papers(社区热门论文)64Multi-Stream LLMs:通过并行思维、输入与输出流解锁语言模型
12:50Berryxia.AI47车主借ChatGPT诊断刹车异响,69元清洗剂替代4S店千元维修
12:44HuggingFace Daily Papers(社区热门论文)62AlphaGRPO:通过可分解可验证奖励解锁统一多模态模型的自反思生成能力
11:55Tencent Hy76精选Hy3预览版登陆GMI,开源最强模型领跑
11:50Berryxia.AI72BenchLoop:本地大模型一键基准测试与排行榜发布
10:44HuggingFace Daily Papers(社区热门论文)68超越GRPO与策略蒸馏:语言模型后训练中稀疏到稠密奖励的实证原则
10:44HuggingFace Daily Papers(社区热门论文)56企业系统是否需要学习型世界模型?上下文对推断动态的重要性
08:49Berryxia.AI52五大前沿AI模型在Text Arena分类排名中各显神通
08:00HuggingFace Daily Papers(社区热门论文)61KVServe:面向服务的KV缓存压缩实现高效通信的分布式LLM服务
08:00HuggingFace Daily Papers(社区热门论文)57Physics-R1:一个经过审计的奥林匹克语料库与视觉物理推理方案
08:00HuggingFace Daily Papers(社区热门论文)58预见性学习:揭秘On-policy蒸馏的高效性
08:00HuggingFace Daily Papers(社区热门论文)62CurveBench:一个用于嵌套Jordan曲线精确拓扑推理的基准测试集
08:00HuggingFace Daily Papers(社区热门论文)70精选通过简单统一的扩展实现奥赛金牌级推理
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月14日
23:45
Ant Ling@AntLingAGI
83
Ring-2.6-1T开源:万亿级思考模型支持复杂任务执行

Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。

智能体开源生态推理模型发布
23:31
蚂蚁 inclusionAI:HuggingFace 新模型
精选59
蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T,参数规模达万亿,面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”,在多步任务与工具协作中表现更优;支持 high/xhigh 两档推理强度,可灵活平衡效果与成本;采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中,high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32;xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K(YaRN),已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布
关联讨论 4 条HuggingFace Daily Papers(社区热门论文)蚂蚁 inclusionAI:HuggingFace 新模型公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)
推荐理由:蚂蚁放出的万亿参数推理模型,Agent执行能力在PinchBench上超GPT-5.4,异步RL训练和可调推理强度对工程落地有参考价值,开源可试。
22:45
Hugging Face:Blog(RSS)
精选59
解锁连续批处理中的异步性

在连续批处理中,同步方式导致CPU与GPU交替工作,造成闲置浪费。测试显示,使用8B模型生成8K令牌时,GPU有24%的时间处于空闲状态。异步批处理通过分离工作负载,让CPU准备下一批次(N+1)的同时,GPU计算当前批次(N),从而消除闲置间隙。这可通过CUDA流实现操作并发,无需更改内核或模型,仅需协调硬件执行顺序。理论上,该方法可将总生成时间从300.6秒减少至228秒,实现24%的免费加速。相关技术已集成到transformers库的连续批处理中,显著提升推理性能。

Hugging Face推理教程/实践部署/工程

推荐理由:文章手把手拆解了异步批处理如何用CUDA流和事件消除CPU与GPU的互相等待,把推理吞吐提升22%,搞推理优化的工程师值得细读。
21:45
The Decoder:AI News(RSS)
64
阿里巴巴的 Qwen-Image-2.0 将压缩率提升一倍,并将生成步骤从40步削减至4步

阿里巴巴发布图像模型 Qwen-Image-2.0,其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练,并配备专用模块,可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成,远少于通常的40步。在用户盲测平台LMArena上,该模型目前排名第9位。

图像生成推理模型发布
20:01
Chubby♨️@kimmonismus
58
传闻即将发布的Gemini 3.2 Flash模型在编码和推理任务上达到了GPT-5.5约92%的性能水平,同时推理成本降低了15至20倍。其延迟表现也极为出色,多数查询响应时间低于200毫秒。这主要得益于DeepMind的蒸馏和稀疏化技术,成功将前沿模型压缩为"Flash"变体,而避免了通常伴随的质量大幅下降。

Bindu Reddy: Gemini 3.2 Flash - Capitalizing on DeepMind's clever distillation techniques... Rumors are that benchmarks show it's hit...

Google推理模型发布编码
19:58
公众号:龙猫LongCat(美团)
51
美团 LongCat 开源 General 365:树立推理评测新标尺
开源/仓库推理评测/基准
18:46
HuggingFace Daily Papers(社区热门论文)
55
RealICU:超越行为模仿,评估LLM智能体对长上下文ICU数据的理解能力

RealICU是一个基于后见之明标注的基准,用于在真实ICU条件下评估大语言模型。它包含由资深医师审阅完整病程后创建的四项临床任务标签,并发布了RealICU-Gold(930个标注)和RealICU-Scale(11,862个标注)两个数据集。测试发现,现有LLM(包括记忆增强模型)表现不佳,暴露出临床推荐中的召回-安全权衡问题及对早期患者状态的锚定偏差。研究引入的ICU-Evo智能体虽能改进长程推理,但未能完全消除安全失误。该基准为高风险护理中AI序列决策支持提供了临床基础测试平台。

arXiv推理论文/研究
18:08
🚨 AI News | TestingCatalog@testingcatalog
60
据路透社报道,微软正在探索收购Inception的交易,该AI实验室近期发布了全球首个推理扩散大语言模型Mercury 2。 想象一下扩散版Copilot 👀

🚨 AI News | TestingCatalog: BREAKING 🚨: Inception has launched Mercury 2, the first reasoning diffusion LLM with 5x the performance of top-speed-op...

Microsoft推理行业动态
13:58
Xiaomi MiMo@XiaomiMiMo
60
MiMo V2.5 Pro (Thinking) 模型在Design Arena的开放权重模型总排行榜中位列第三,相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢,并承诺将持续改进模型。

Design Arena: BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...

推理编码评测/基准
13:35
Rohan Paul@rohanpaul_ai
77
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上实现每秒34个token的本地推理

近期,Qwen 3.6 27B大型语言模型通过TurboQuant技术被量化为GGUF格式,并整合Multi-Token Prediction技术。在配备M5 Max芯片和64GB内存的MacBook Pro上,该模型实现了每秒34个token的本地推理速度。高达90%的接受率表明,性能提升并非以牺牲输出质量为代价,而是通过避免重复的全成本解码工作来达成。同时,利用llama.cpp进行高效调用,进一步优化了运行效率。这一技术组合显著扩展了“笔记本电脑AI”的应用边界,使得在本地设备上流畅运行大型模型成为可能,提升了用户体验。

atomic.chat: Multi-Token Prediction (MTP) for Qwen on LLaMA.cpp! +40% performance! 90% acceptance rate. Running locally on a MacBook ...

GitHub推理教程/实践端侧
13:04
Ethan Mollick@emollick
58
大家都看过@waitbutwhy的漫画--在指数级增长真正开始前有个"你在此处"的标记, 而METR与英国AISA的独立评估似乎都表明, 我们现在已越过那个临界点了(直到增长放缓为止?)
大佬观点推理
11:45
HuggingFace Daily Papers(社区热门论文)
66
长上下文窗口下的思维链上下文学习研究:从检索缓冲到结构化课程

研究探讨了大语言模型在长上下文窗口下的思维链上下文学习。研究发现,增加思维链示例数量主要惠及推理导向模型,而对非推理模型效果不稳定;基于语义相似性的检索在推理任务中因无法预测步骤兼容性而失效;示例顺序影响显著,性能方差随示例增多而扩大。研究将此过程重新定义为上下文测试时学习,并提出示例应易于理解且有序排列以支持概念平滑递进的原则。基于此提出的曲线演示选择方法,在几何任务中使用64个示例时实现了高达5.42个百分点的性能提升。

arXiv推理数据/训练论文/研究
10:51
Berryxia.AI@berryxia
精选79
UnslothAI发布Qwen3.6 MTP GGUF模型,实现推理速度大幅提升

UnslothAI创始人Daniel Han发布了实验性的Qwen3.6 MTP GGUF模型,显著提升了推理速度。其中,27B模型在单GPU上达到每秒140个token,35B-A3B版本更是高达每秒220个token,相比原版GGUF速度提升超过1.4倍且精度无损。关键优化在于将draft tokens设置为2,这是性能与接受率的最佳平衡点。这项MTP投机解码技术极大提升了消费级显卡运行大模型的效率,推动了本地AI的性能边界。

Daniel Han: We released experimental MTP Qwen3.6 Unsloth GGUFs! Qwen3.6 27B MTP now runs at 140 tokens/s. Qwen3.6 35B-A3B MTP gets 2...

推理教程/实践部署/工程

推荐理由:这波MTP投机解码把消费级显卡的推理速度榨出新高度,27B模型单GPU跑140 tokens/s,精度毫无损失。玩llama.cpp或本地Agent的人现在就该试一下。
10:45
HuggingFace Daily Papers(社区热门论文)
64
重访DAgger算法在长视野大语言模型智能体训练中的应用

研究将数据集聚合(DAgger)算法应用于长视野大语言模型智能体训练,以解决监督微调中的协变量偏移与强化学习反馈稀疏的困境。该方法通过学生与教师策略的逐轮插值收集交互轨迹,并利用教师提供的密集监督信号进行训练,使模型接触真实环境状态。在软件工程智能体训练中,经DAgger式训练的4B和8B学生模型在SWE-bench Verified基准上显著提升,最终4B智能体成功率超越已发布的代表性8B系统,8B智能体性能接近更强32B规模模型,验证了该方法的有效性。

智能体推理编码论文/研究
10:45
HuggingFace Daily Papers(社区热门论文)
60
MAP:一种面向长程交互式智能体推理的先建图后行动范式

针对当前交互式大语言模型代理因环境感知延迟而陷入低效试错的问题,本研究提出可插拔的先建图后行动范式(MAP)。该范式将环境理解前置,包含全局探索、任务特定建图与知识增强执行三个阶段,旨在突破认知瓶颈。实验表明,MAP在多个基准测试中带来一致性能提升。在ARC-AGI-3的25个游戏环境中,前沿模型在MAP加持下于22个环境中超越了接近零的基线表现。同时发布的MAP-2K轨迹数据集证明,基于环境理解的训练优于单纯模仿专家轨迹,验证了先理解环境的核心价值。

智能体推理论文/研究
09:40
IT之家(RSS)
67
雷军谈小米自动驾驶模型 Xiaomi OneVL:业内率先通过潜空间推理将 VLA、世界模型统一到一套框架

小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理,将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上,该模型全面刷新了潜在推理方法的性能上限,在精度上超越显式思维链方案,在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。

多模态开源生态推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
48
视频模型可通过可验证奖励进行推理

研究人员提出VideoRLVR方法,利用基于规则的反馈优化视频扩散模型,使其具备可验证的推理能力。该方法将视频推理建模为生成可验证的视觉轨迹,核心包括SDE-GRPO优化骨干、密集分解奖励以及Early-Step Focus策略。其中,Early-Step Focus策略通过将优化集中在早期去噪阶段,减少约40%训练延迟并保持性能。在Maze、FlowFree和Sokoban三个程序化生成任务中,VideoRLVR显著优于监督微调基线,尤其在成功率较低时效果突出。该模型在可验证推理基准和域外测试中也优于多个商用及开源模型,表明可验证强化学习能推动视频模型实现更可靠的规则一致视觉推理。

推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
EndPrompt:通过末端锚定高效扩展长上下文

传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练,计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文,其核心是将原始短上下文作为第一段,附加一个简短的末端提示作为第二段,并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离,同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式,表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时,EndPrompt在LongBench上平均得分最高(76.03),超越LCEG、LongLoRA等方法,且计算量更少,证明长上下文泛化可从稀疏位置监督诱导,挑战了密集训练的必要假设。

arXiv开源/仓库推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
57
GQLA:面向硬件自适应的大语言模型解码的分组查询潜在注意力

本研究提出分组查询潜在注意力(GQLA),对DeepSeek-V2/V3中的多头潜在注意力(MLA)进行最小修改,使其在一套权重上暴露两种等效解码路径:与MLA相同的MQA吸收路径,以及带有每组扩展缓存的GQA路径。运行时可根据硬件自动选择路径,无需重新训练。单一的GQLA权重能同时适配H100(采用MQA吸收)与H20(采用GQA及多令牌预测)的硬件性能上限,并在GQA路径上支持高达8路的零冗余张量并行。通过扩展TransMLA为TransGQLA,可将预训练的GQA模型转换为GQLA模型。在LLaMA-3-8B上的实验表明,其MQA吸收路径将每令牌的KV缓存压缩至GQA基线的28.125%,同时在分组路径上结构性保留了GQA级别的流量效率。

DeepSeek推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
59
Learning from Failures: 基于可验证奖励的纠错导向策略优化

研究提出了一种名为纠错导向策略优化的新方法,用于增强大型语言模型的推理能力。该方法将训练中产生的失败轨迹自动转化为纠错样本,并与标准的可验证奖励强化学习目标联合优化。在涵盖数学推理和代码生成的11个基准测试中,该方法在推理和纠错性能上均显著超越现有基线。实验表明,该方法能提升模型的内在推理能力,而不仅仅是重新分配已有正确答案的概率质量,具体体现在更强的pass@K增益上。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
Solvita:通过智能体演化增强大语言模型的竞技编程能力

Solvita 是一个无需更新底层大语言模型权重的智能体演化框架,旨在提升模型在竞技编程中的推理能力。它将解题过程重组为由 Planner、Solver、Oracle、Hacker 四个专用智能体执行的闭环系统。每个智能体配备一个可训练的图结构知识网络,系统运行时产生的通过/失败结果、测试质量与对抗漏洞等信号,会转化为对这些网络的强化学习更新,使智能体能基于历史经验动态路由后续查询,持续积累可迁移的推理经验。在多个基准测试及实时编程比赛中,Solvita 在代码生成智能体中取得了新的最优性能,显著超越了现有方法。

智能体推理编码论文/研究
04:42
Berkeley RDI:Blog(AI 安全与评测)
同事件精选79
ExploitGym:AI智能体能否将安全漏洞转化为真实攻击?

由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队,发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞,要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示,前沿AI模型已能成功利用相当数量的漏洞,即使在启用ASLR等标准防御措施后,部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力,该技术具有双重用途:既可帮助防御者评估漏洞严重性,也可能降低攻击者的技术门槛。

智能体AnthropicOpenAI安全/对齐
同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》
推荐理由:顶级 AI 模型已能自己把已知软件漏洞变成可运行攻击代码,连 ASLR 等标准防御都挡不住部分攻击,研究更发现模型会主动寻找更危险的意外漏洞。安全行业不能再把这当成假设性问题了。
04:04
Ethan Mollick@emollick
64
推文批评当前用户将AI提示词复杂化为"魔法咒语"的现象,反对使用意义不明的斜杠命令和模糊开关。引用推文讽刺了诸如"/fast"模式、"无错误"切换等故弄玄虚的操作设置,暗示这些做法让使用过程变得怪异且低效。核心观点是:与AI协作应像管理者一样,直接提出结构清晰、格式明确的要求,而非依赖晦涩的"咒语"式指令。

roon: no bro you need to turn on "/extrausage". dawg are you sure you have "/fast" mode on? Did you check the "no mistakes" to...

大佬观点推理
02:44
HuggingFace Daily Papers(社区热门论文)
精选73
解决循环:语言和推理的吸引子模型

吸引子模型解决了循环Transformer训练不稳定、成本高和深度固定的问题。它通过主干模块生成初始输出嵌入,吸引子模块迭代优化固定点,并利用隐式微分计算梯度,使训练内存与有效深度无关,迭代次数自适应收敛。在语言建模中,相比标准Transformer,困惑度最高降低46.6%,下游任务准确率最高提升19.7%,训练成本更低;一个770M参数的模型性能优于1.3B参数Transformer。在推理任务中,仅2700万参数模型在约1000个示例下,于Sudoku-Extreme和Maze-Hard上准确率分别达91.4%和93.1%,优于Claude、GPT o3等前沿模型。模型还展现出均衡内化现象,训练后初始输出嵌入接近均衡态,推理时可移除求解器而性能几乎无损,实现了迭代优化的可扩展性。

推理数据/训练论文/研究

推荐理由:这可能是要改写语言模型训练范式的架构,把迭代推理变成可学习的固定点,770M 性能超 1.3B Transformer,27M 小模型解数独秒杀 Claude、GPT o3。最反直觉的是,训练后模型能内化迭代过程,推理时直接一步到位。
01:44
HuggingFace Daily Papers(社区热门论文)
66
快与慢的学习:面向持续适应的大语言模型

研究团队提出一种面向大语言模型的快慢学习框架,将模型参数视为“慢”权重,优化的上下文视为“快”权重。该框架结合了参数更新与上下文学习的优势:快权重通过文本反馈快速吸收任务特定信息,而慢权重则保持接近基础模型以维护通用推理能力。在推理任务中,该方法比仅使用慢学习(如强化学习)的样本效率高出3倍,且达到更高性能上限。同时,训练后的模型更接近基础模型(KL散度降低达70%),显著缓解了灾难性遗忘,并保持了模型的可塑性,使其在持续学习场景中能更有效地适应后续新任务。

推理数据/训练论文/研究
5月13日
21:44
HuggingFace Daily Papers(社区热门论文)
53
UniPath:面向统一多模态推理的理解与生成自适应协调框架

针对统一多模态模型中理解与生成能力的协调问题,研究团队提出UniPath框架。该框架的核心是识别并利用“协调路径多样性”,即针对不同输入动态选择最优推理路径,而非采用固定模式。路径选项包括直接回答、文本推理、视觉思维构建及假设探索。UniPath通过角色对齐轨迹训练路径条件执行器,并引入轻量级规划器实现输入依赖的路径选择。实验表明,该方法在性能上超越了固定协调策略,同时提供了可解释的中间行为。代码已开源。

多模态推理论文/研究
21:01
AK@_akhaliq
61
EgoMemReason 一个用于长时第一人称视频理解的记忆驱动推理基准
推理视频论文/研究
18:44
HuggingFace Daily Papers(社区热门论文)
64
Multi-Stream LLMs:通过并行思维、输入与输出流解锁语言模型

研究提出将语言模型从单一顺序消息处理转向多并行计算流架构。模型在每个前向传播中同时从多个输入流读取,并向多个输出流生成令牌,所有流均因果依赖于先前时间步。这一数据驱动的变革解决了现有智能体无法在阅读时行动、在行动时响应新信息等阻塞问题,同时通过并行化提升了模型效率,通过更好的关注点分离增强了安全性,并改善了模型的可监控性。

智能体推理论文/研究
12:50
Berryxia.AI@berryxia
47
车主借ChatGPT诊断刹车异响,69元清洗剂替代4S店千元维修

车主发现刹车片在潮湿天气出现异响,未选择4S店建议的更换方案,转而通过ChatGPT分析问题。AI判断异响可能源于潮湿导致的锈迹,并推荐使用清洗剂处理。车主花费69元购买清洗剂后,喷洒试用成功消除异响。此前4S店曾以磨损为由建议更换整套刹车片,费用超千元。此事凸显了AI在日常生活问题诊断中的实用价值,帮助用户避免了不必要的开支。

OpenAI推理教程/实践
12:44
HuggingFace Daily Papers(社区热门论文)
62
AlphaGRPO:通过可分解可验证奖励解锁统一多模态模型的自反思生成能力

本文提出AlphaGRPO框架,将分组相对策略优化应用于AR-Diffusion统一多模态模型,无需额外冷启动即可提升多模态生成能力。该框架解锁了模型执行高级推理(如推断用户隐含意图)和自反思优化(自主诊断并修正生成错位)的内在潜力。针对实际监督难题,团队设计了可分解可验证奖励机制,利用大语言模型将复杂请求分解为原子化、可验证的子问题,再通过通用多模态大模型评估,提供可靠且可解释的反馈。实验表明,AlphaGRPO在多个生成与编辑基准上均取得显著性能提升。

图像生成多模态推理论文/研究
11:55
Tencent Hy@TencentHunyuan
精选76
Hy3 预览版现已登陆 @gmi_cloud。🙌

GMI Cloud: Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...

智能体开源生态推理模型发布

推荐理由:腾讯混元 Hy3 开源且登顶 OpenRouter 排行榜,295B MoE 架构在推理和代码上提升明显,不是小厂的刷榜产品,搞 agent 和 coding 的可以认真试试。
11:50
Berryxia.AI@berryxia
72
BenchLoop:本地大模型一键基准测试与排行榜发布

BenchLoop 提供了一套对本地大模型进行基准测试的标准化流程。用户只需拉取模型并运行该工具,即可实时获取模型在质量、速度和可靠性方面的综合评分。平台支持对比不同提示框架(如原生模式与 Hermes 模式)下的性能表现。测试完成后,结果可自动发布至公开排行榜,便于横向比较不同模型的优劣。

推理教程/实践部署/工程
10:44
HuggingFace Daily Papers(社区热门论文)
68
超越GRPO与策略蒸馏:语言模型后训练中稀疏到稠密奖励的实证原则

研究提出一种基于奖励密度的数据分配原则:在标注数据稀缺时,应将稀疏的序列级奖励用于强化上游大模型的探索能力,再将习得的行为通过稠密的令牌级教师奖励蒸馏至下游小模型。实验基于Qwen3和Llama模型在可验证数学任务上进行验证。结果显示,在固定部署学生模型为Qwen3-1.7B的情况下,先对8B教师模型进行强化学习改进,再通过稠密蒸馏传递至学生模型,其效果优于直接对学生模型进行GRPO训练。核心操作原则是避免将稀缺标注数据用于准备最不充分的策略,而应遵循“教师端稀疏奖励探索-稠密蒸馏压缩-学生端稀疏奖励微调”的流程。

推理数据/训练论文/研究
10:44
HuggingFace Daily Papers(社区热门论文)
56
企业系统是否需要学习型世界模型?上下文对推断动态的重要性

企业系统的动态规则常因租户业务逻辑差异与演变而多变,导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”,通过在运行时读取系统配置来实时发现动态规则,而非仅依赖内部固化模型。同时,推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明,离线模型在分布内表现良好,但随规则变化性能下降;而基于发现的代理通过将预测锚定于当前实例,在部署偏移下展现出更强稳健性。结论认为,在可配置的企业环境中,智能体应结合运行时动态发现机制。

智能体推理论文/研究部署/工程
08:49
Berryxia.AI@berryxia
52
根据Text Arena最新分类排名,五大前沿AI模型展现出不同的优势领域与取舍。Claude Opus 4.7表现最为全面稳定,在几乎所有主要类别中领先。Gemini 3.1 Pro能力均衡,尤其在创意写作方面突出。Muse Spark在整体表现和编程方面强劲,但在专家任务、数学和长查询上稍弱。GPT-5.5 High是整体最平衡的模型之一,在专家任务和数学领域表现特别出色。Grok 4.20则更偏专长,主要在创意写作和困难提示方面表现突出。该榜单清晰揭示了当前顶级模型在通用性与专项能力上的不同发展路径。

Arena.ai: The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths and tradeoffs. #1 @A...

AnthropicOpenAI推理编码
08:00
HuggingFace Daily Papers(社区热门论文)
61
KVServe:面向服务的KV缓存压缩实现高效通信的分布式LLM服务

在分布式LLM服务中,KV缓存的传输已成为性能瓶颈。现有压缩方案采用静态配置,无法适应动态变化的服务场景。KVServe是首个面向服务的自适应KV通信压缩框架,它统一了压缩策略空间,通过贝叶斯分析引擎将离线搜索开销降低50倍,并部署在线控制器动态调整策略。集成至vLLM后,KVServe在PD分离服务中实现最高9.13倍的任务完成时间加速,在KV分离服务中实现最高32.8倍的首token生成时间缩短。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
57
Physics-R1:一个经过审计的奥林匹克语料库与视觉物理推理方案

本研究审计了多模态物理评测流程,发现了三个未被察觉的构建问题:训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题,团队发布了四个关键成果:经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A,以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3,在PhysReason上提升至39.6,超越了Qwen3-VL-32B与Gemini 2.5 Pro。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
58
预见性学习:揭秘On-policy蒸馏的高效性

本研究揭示On-policy蒸馏(OPD)的高效性源于其“预见性”,即在训练早期建立朝向最终模型的稳定更新路径。预见性体现在两个层面:在模块分配上,OPD能识别边际效益低的模块,集中资源于关键推理部分;在更新方向上,其主导子空间提前对齐最终更新,表现出低秩集中性。基于此,提出了EffOPD,一种无需额外模块的即插即用加速方法,通过自适应选择外推步长和沿当前方向移动,实现平均3倍训练加速且性能相当。这为OPD效率提供了参数动态视角,也为大语言模型后训练设计提供了实用思路。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
CurveBench:一个用于嵌套Jordan曲线精确拓扑推理的基准测试集

CurveBench是一个视觉层次拓扑推理基准,包含756张互不相交的Jordan曲线图像,涵盖五种配置。每张图像标注了编码区域包含关系的根树,任务要求模型根据图像恢复完整的根包含树。尽管任务看似简单,但最强模型Gemini 3.1 Pro在简易集上树生成准确率仅71.1%,在困难集上仅为19.1%。通过对Qwen3-VL-8B模型进行RLVR风格微调,其在简易集上的准确率从2.8%提升至33.3%,超过了GPT-4o和Claude Opus。现有模型尤其在困难集上的巨大差距表明,精确的拓扑感知视觉推理问题尚未解决。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
通过简单统一的扩展实现奥赛金牌级推理

本文提出一种将预训练推理模型转化为严格奥赛求解器的统一方法。该方法首先采用反向困惑度课程进行监督微调,以灌输严谨的证明搜索与自我检查行为;随后通过两阶段强化学习流程扩展这些能力,最终结合测试时扩展提升性能。基于此方案训练的30B参数模型SU-01,在仅使用约34万条短轨迹微调和200步强化学习后,能稳定处理超过10万token的长轨迹难题,并在IMO、USAMO、IPhO等数学与物理奥赛中达到金牌级表现,同时展现出向数学物理之外科学领域的强推理泛化能力。

arXiv推理数据/训练论文/研究

推荐理由:IMO 金牌级推理模型又多了一个,SU-01 的方法干净统一,特别在超长推理链上的稳定性是真正突破,做推理模型训练和竞赛级 AI 的可以认真读一下。
‹ 上一页
1…3334353637…50
下一页 ›