Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。
Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。
蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T,参数规模达万亿,面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”,在多步任务与工具协作中表现更优;支持 high/xhigh 两档推理强度,可灵活平衡效果与成本;采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中,high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32;xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K(YaRN),已通过 HuggingFace 和 ModelScope 开放下载。
关联讨论 4 条HuggingFace Daily Papers(社区热门论文)蚂蚁 inclusionAI:HuggingFace 新模型公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)在连续批处理中,同步方式导致CPU与GPU交替工作,造成闲置浪费。测试显示,使用8B模型生成8K令牌时,GPU有24%的时间处于空闲状态。异步批处理通过分离工作负载,让CPU准备下一批次(N+1)的同时,GPU计算当前批次(N),从而消除闲置间隙。这可通过CUDA流实现操作并发,无需更改内核或模型,仅需协调硬件执行顺序。理论上,该方法可将总生成时间从300.6秒减少至228秒,实现24%的免费加速。相关技术已集成到transformers库的连续批处理中,显著提升推理性能。
阿里巴巴发布图像模型 Qwen-Image-2.0,其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练,并配备专用模块,可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成,远少于通常的40步。在用户盲测平台LMArena上,该模型目前排名第9位。
Gemini 3.2 Flash - Capitalizing on DeepMind's clever distillation techniques... Rumors are that benchmarks show it's hit...
RealICU是一个基于后见之明标注的基准,用于在真实ICU条件下评估大语言模型。它包含由资深医师审阅完整病程后创建的四项临床任务标签,并发布了RealICU-Gold(930个标注)和RealICU-Scale(11,862个标注)两个数据集。测试发现,现有LLM(包括记忆增强模型)表现不佳,暴露出临床推荐中的召回-安全权衡问题及对早期患者状态的锚定偏差。研究引入的ICU-Evo智能体虽能改进长程推理,但未能完全消除安全失误。该基准为高风险护理中AI序列决策支持提供了临床基础测试平台。
BREAKING 🚨: Inception has launched Mercury 2, the first reasoning diffusion LLM with 5x the performance of top-speed-op...
BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...
近期,Qwen 3.6 27B大型语言模型通过TurboQuant技术被量化为GGUF格式,并整合Multi-Token Prediction技术。在配备M5 Max芯片和64GB内存的MacBook Pro上,该模型实现了每秒34个token的本地推理速度。高达90%的接受率表明,性能提升并非以牺牲输出质量为代价,而是通过避免重复的全成本解码工作来达成。同时,利用llama.cpp进行高效调用,进一步优化了运行效率。这一技术组合显著扩展了“笔记本电脑AI”的应用边界,使得在本地设备上流畅运行大型模型成为可能,提升了用户体验。
Multi-Token Prediction (MTP) for Qwen on LLaMA.cpp! +40% performance! 90% acceptance rate. Running locally on a MacBook ...
研究探讨了大语言模型在长上下文窗口下的思维链上下文学习。研究发现,增加思维链示例数量主要惠及推理导向模型,而对非推理模型效果不稳定;基于语义相似性的检索在推理任务中因无法预测步骤兼容性而失效;示例顺序影响显著,性能方差随示例增多而扩大。研究将此过程重新定义为上下文测试时学习,并提出示例应易于理解且有序排列以支持概念平滑递进的原则。基于此提出的曲线演示选择方法,在几何任务中使用64个示例时实现了高达5.42个百分点的性能提升。
UnslothAI创始人Daniel Han发布了实验性的Qwen3.6 MTP GGUF模型,显著提升了推理速度。其中,27B模型在单GPU上达到每秒140个token,35B-A3B版本更是高达每秒220个token,相比原版GGUF速度提升超过1.4倍且精度无损。关键优化在于将draft tokens设置为2,这是性能与接受率的最佳平衡点。这项MTP投机解码技术极大提升了消费级显卡运行大模型的效率,推动了本地AI的性能边界。
We released experimental MTP Qwen3.6 Unsloth GGUFs! Qwen3.6 27B MTP now runs at 140 tokens/s. Qwen3.6 35B-A3B MTP gets 2...
研究将数据集聚合(DAgger)算法应用于长视野大语言模型智能体训练,以解决监督微调中的协变量偏移与强化学习反馈稀疏的困境。该方法通过学生与教师策略的逐轮插值收集交互轨迹,并利用教师提供的密集监督信号进行训练,使模型接触真实环境状态。在软件工程智能体训练中,经DAgger式训练的4B和8B学生模型在SWE-bench Verified基准上显著提升,最终4B智能体成功率超越已发布的代表性8B系统,8B智能体性能接近更强32B规模模型,验证了该方法的有效性。
针对当前交互式大语言模型代理因环境感知延迟而陷入低效试错的问题,本研究提出可插拔的先建图后行动范式(MAP)。该范式将环境理解前置,包含全局探索、任务特定建图与知识增强执行三个阶段,旨在突破认知瓶颈。实验表明,MAP在多个基准测试中带来一致性能提升。在ARC-AGI-3的25个游戏环境中,前沿模型在MAP加持下于22个环境中超越了接近零的基线表现。同时发布的MAP-2K轨迹数据集证明,基于环境理解的训练优于单纯模仿专家轨迹,验证了先理解环境的核心价值。
小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理,将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上,该模型全面刷新了潜在推理方法的性能上限,在精度上超越显式思维链方案,在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。
研究人员提出VideoRLVR方法,利用基于规则的反馈优化视频扩散模型,使其具备可验证的推理能力。该方法将视频推理建模为生成可验证的视觉轨迹,核心包括SDE-GRPO优化骨干、密集分解奖励以及Early-Step Focus策略。其中,Early-Step Focus策略通过将优化集中在早期去噪阶段,减少约40%训练延迟并保持性能。在Maze、FlowFree和Sokoban三个程序化生成任务中,VideoRLVR显著优于监督微调基线,尤其在成功率较低时效果突出。该模型在可验证推理基准和域外测试中也优于多个商用及开源模型,表明可验证强化学习能推动视频模型实现更可靠的规则一致视觉推理。
传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练,计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文,其核心是将原始短上下文作为第一段,附加一个简短的末端提示作为第二段,并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离,同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式,表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时,EndPrompt在LongBench上平均得分最高(76.03),超越LCEG、LongLoRA等方法,且计算量更少,证明长上下文泛化可从稀疏位置监督诱导,挑战了密集训练的必要假设。
本研究提出分组查询潜在注意力(GQLA),对DeepSeek-V2/V3中的多头潜在注意力(MLA)进行最小修改,使其在一套权重上暴露两种等效解码路径:与MLA相同的MQA吸收路径,以及带有每组扩展缓存的GQA路径。运行时可根据硬件自动选择路径,无需重新训练。单一的GQLA权重能同时适配H100(采用MQA吸收)与H20(采用GQA及多令牌预测)的硬件性能上限,并在GQA路径上支持高达8路的零冗余张量并行。通过扩展TransMLA为TransGQLA,可将预训练的GQA模型转换为GQLA模型。在LLaMA-3-8B上的实验表明,其MQA吸收路径将每令牌的KV缓存压缩至GQA基线的28.125%,同时在分组路径上结构性保留了GQA级别的流量效率。
研究提出了一种名为纠错导向策略优化的新方法,用于增强大型语言模型的推理能力。该方法将训练中产生的失败轨迹自动转化为纠错样本,并与标准的可验证奖励强化学习目标联合优化。在涵盖数学推理和代码生成的11个基准测试中,该方法在推理和纠错性能上均显著超越现有基线。实验表明,该方法能提升模型的内在推理能力,而不仅仅是重新分配已有正确答案的概率质量,具体体现在更强的pass@K增益上。
Solvita 是一个无需更新底层大语言模型权重的智能体演化框架,旨在提升模型在竞技编程中的推理能力。它将解题过程重组为由 Planner、Solver、Oracle、Hacker 四个专用智能体执行的闭环系统。每个智能体配备一个可训练的图结构知识网络,系统运行时产生的通过/失败结果、测试质量与对抗漏洞等信号,会转化为对这些网络的强化学习更新,使智能体能基于历史经验动态路由后续查询,持续积累可迁移的推理经验。在多个基准测试及实时编程比赛中,Solvita 在代码生成智能体中取得了新的最优性能,显著超越了现有方法。
由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队,发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞,要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示,前沿AI模型已能成功利用相当数量的漏洞,即使在启用ASLR等标准防御措施后,部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力,该技术具有双重用途:既可帮助防御者评估漏洞严重性,也可能降低攻击者的技术门槛。
同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》no bro you need to turn on "/extrausage". dawg are you sure you have "/fast" mode on? Did you check the "no mistakes" to...
吸引子模型解决了循环Transformer训练不稳定、成本高和深度固定的问题。它通过主干模块生成初始输出嵌入,吸引子模块迭代优化固定点,并利用隐式微分计算梯度,使训练内存与有效深度无关,迭代次数自适应收敛。在语言建模中,相比标准Transformer,困惑度最高降低46.6%,下游任务准确率最高提升19.7%,训练成本更低;一个770M参数的模型性能优于1.3B参数Transformer。在推理任务中,仅2700万参数模型在约1000个示例下,于Sudoku-Extreme和Maze-Hard上准确率分别达91.4%和93.1%,优于Claude、GPT o3等前沿模型。模型还展现出均衡内化现象,训练后初始输出嵌入接近均衡态,推理时可移除求解器而性能几乎无损,实现了迭代优化的可扩展性。
研究团队提出一种面向大语言模型的快慢学习框架,将模型参数视为“慢”权重,优化的上下文视为“快”权重。该框架结合了参数更新与上下文学习的优势:快权重通过文本反馈快速吸收任务特定信息,而慢权重则保持接近基础模型以维护通用推理能力。在推理任务中,该方法比仅使用慢学习(如强化学习)的样本效率高出3倍,且达到更高性能上限。同时,训练后的模型更接近基础模型(KL散度降低达70%),显著缓解了灾难性遗忘,并保持了模型的可塑性,使其在持续学习场景中能更有效地适应后续新任务。
针对统一多模态模型中理解与生成能力的协调问题,研究团队提出UniPath框架。该框架的核心是识别并利用“协调路径多样性”,即针对不同输入动态选择最优推理路径,而非采用固定模式。路径选项包括直接回答、文本推理、视觉思维构建及假设探索。UniPath通过角色对齐轨迹训练路径条件执行器,并引入轻量级规划器实现输入依赖的路径选择。实验表明,该方法在性能上超越了固定协调策略,同时提供了可解释的中间行为。代码已开源。
研究提出将语言模型从单一顺序消息处理转向多并行计算流架构。模型在每个前向传播中同时从多个输入流读取,并向多个输出流生成令牌,所有流均因果依赖于先前时间步。这一数据驱动的变革解决了现有智能体无法在阅读时行动、在行动时响应新信息等阻塞问题,同时通过并行化提升了模型效率,通过更好的关注点分离增强了安全性,并改善了模型的可监控性。
车主发现刹车片在潮湿天气出现异响,未选择4S店建议的更换方案,转而通过ChatGPT分析问题。AI判断异响可能源于潮湿导致的锈迹,并推荐使用清洗剂处理。车主花费69元购买清洗剂后,喷洒试用成功消除异响。此前4S店曾以磨损为由建议更换整套刹车片,费用超千元。此事凸显了AI在日常生活问题诊断中的实用价值,帮助用户避免了不必要的开支。
本文提出AlphaGRPO框架,将分组相对策略优化应用于AR-Diffusion统一多模态模型,无需额外冷启动即可提升多模态生成能力。该框架解锁了模型执行高级推理(如推断用户隐含意图)和自反思优化(自主诊断并修正生成错位)的内在潜力。针对实际监督难题,团队设计了可分解可验证奖励机制,利用大语言模型将复杂请求分解为原子化、可验证的子问题,再通过通用多模态大模型评估,提供可靠且可解释的反馈。实验表明,AlphaGRPO在多个生成与编辑基准上均取得显著性能提升。
Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...
BenchLoop 提供了一套对本地大模型进行基准测试的标准化流程。用户只需拉取模型并运行该工具,即可实时获取模型在质量、速度和可靠性方面的综合评分。平台支持对比不同提示框架(如原生模式与 Hermes 模式)下的性能表现。测试完成后,结果可自动发布至公开排行榜,便于横向比较不同模型的优劣。
研究提出一种基于奖励密度的数据分配原则:在标注数据稀缺时,应将稀疏的序列级奖励用于强化上游大模型的探索能力,再将习得的行为通过稠密的令牌级教师奖励蒸馏至下游小模型。实验基于Qwen3和Llama模型在可验证数学任务上进行验证。结果显示,在固定部署学生模型为Qwen3-1.7B的情况下,先对8B教师模型进行强化学习改进,再通过稠密蒸馏传递至学生模型,其效果优于直接对学生模型进行GRPO训练。核心操作原则是避免将稀缺标注数据用于准备最不充分的策略,而应遵循“教师端稀疏奖励探索-稠密蒸馏压缩-学生端稀疏奖励微调”的流程。
企业系统的动态规则常因租户业务逻辑差异与演变而多变,导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”,通过在运行时读取系统配置来实时发现动态规则,而非仅依赖内部固化模型。同时,推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明,离线模型在分布内表现良好,但随规则变化性能下降;而基于发现的代理通过将预测锚定于当前实例,在部署偏移下展现出更强稳健性。结论认为,在可配置的企业环境中,智能体应结合运行时动态发现机制。
The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths and tradeoffs. #1 @A...
在分布式LLM服务中,KV缓存的传输已成为性能瓶颈。现有压缩方案采用静态配置,无法适应动态变化的服务场景。KVServe是首个面向服务的自适应KV通信压缩框架,它统一了压缩策略空间,通过贝叶斯分析引擎将离线搜索开销降低50倍,并部署在线控制器动态调整策略。集成至vLLM后,KVServe在PD分离服务中实现最高9.13倍的任务完成时间加速,在KV分离服务中实现最高32.8倍的首token生成时间缩短。
本研究审计了多模态物理评测流程,发现了三个未被察觉的构建问题:训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题,团队发布了四个关键成果:经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A,以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3,在PhysReason上提升至39.6,超越了Qwen3-VL-32B与Gemini 2.5 Pro。
本研究揭示On-policy蒸馏(OPD)的高效性源于其“预见性”,即在训练早期建立朝向最终模型的稳定更新路径。预见性体现在两个层面:在模块分配上,OPD能识别边际效益低的模块,集中资源于关键推理部分;在更新方向上,其主导子空间提前对齐最终更新,表现出低秩集中性。基于此,提出了EffOPD,一种无需额外模块的即插即用加速方法,通过自适应选择外推步长和沿当前方向移动,实现平均3倍训练加速且性能相当。这为OPD效率提供了参数动态视角,也为大语言模型后训练设计提供了实用思路。
CurveBench是一个视觉层次拓扑推理基准,包含756张互不相交的Jordan曲线图像,涵盖五种配置。每张图像标注了编码区域包含关系的根树,任务要求模型根据图像恢复完整的根包含树。尽管任务看似简单,但最强模型Gemini 3.1 Pro在简易集上树生成准确率仅71.1%,在困难集上仅为19.1%。通过对Qwen3-VL-8B模型进行RLVR风格微调,其在简易集上的准确率从2.8%提升至33.3%,超过了GPT-4o和Claude Opus。现有模型尤其在困难集上的巨大差距表明,精确的拓扑感知视觉推理问题尚未解决。
本文提出一种将预训练推理模型转化为严格奥赛求解器的统一方法。该方法首先采用反向困惑度课程进行监督微调,以灌输严谨的证明搜索与自我检查行为;随后通过两阶段强化学习流程扩展这些能力,最终结合测试时扩展提升性能。基于此方案训练的30B参数模型SU-01,在仅使用约34万条短轨迹微调和200步强化学习后,能稳定处理超过10万token的长轨迹难题,并在IMO、USAMO、IPhO等数学与物理奥赛中达到金牌级表现,同时展现出向数学物理之外科学领域的强推理泛化能力。