蚂蚁集团旗下百灵大模型发布万亿级思考模型 Ring-2.6-1T,专为处理真实复杂任务设计。该模型创新引入可调节 Reasoning Effort 机制,提供 high 和 xhigh 两种推理强度。high 模式适用于高频 Agent 工作流,注重低 Token 开销与快速多步执行;xhigh 模式则面向数学、科研等需要深度逻辑分析与多路径探索的高难任务。模型兼具快速多步执行、工具协调能力及 SOTA 稳定性。目前已在 OpenRouter 平台上线,开放限时一周免费体验。
蚂蚁集团旗下百灵大模型发布万亿级思考模型 Ring-2.6-1T,专为处理真实复杂任务设计。该模型创新引入可调节 Reasoning Effort 机制,提供 high 和 xhigh 两种推理强度。high 模式适用于高频 Agent 工作流,注重低 Token 开销与快速多步执行;xhigh 模式则面向数学、科研等需要深度逻辑分析与多路径探索的高难任务。模型兼具快速多步执行、工具协调能力及 SOTA 稳定性。目前已在 OpenRouter 平台上线,开放限时一周免费体验。
Anthropic公司发布了Claude模型的新研究“Teaching Claude Why”。该研究通过让模型学习解释自身推理过程中的“为什么”,显著提升了其推理能力和输出结果的准确性。实验表明,经过此项训练后,模型在多项基准测试中的表现得到改善,其推理步骤的透明度和逻辑连贯性增强。这项技术旨在推动AI向更可解释、更可靠的方向发展。
Ring-2.6-1T 是一款万亿级旗舰思考模型,引入可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流,xhigh 面向数学、科研等复杂任务。评测中,high 模式 PinchBench 得分 87.60,Tau2-Bench Telecom 95.32;xhigh 模式 ARC-AGI-V2 得分 77.78,AIME 26 得分 95.83,GPQA Diamond 88.27。模型已上线 OpenRouter,近期将开源。
现代LLM类似人脑,前馈层中超过95%的神经元对输入保持静默,呈现高度稀疏性。但GPU硬件专为密集计算设计,非结构化稀疏导致不规则内存访问,反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾,开发了TwELL混合稀疏格式及定制CUDA内核,将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径,并为密集token提供备用矩阵。在H100 GPU上,训练和推理速度提升超20%,同时降低内存占用和能耗。相关论文、博客和代码均已开源。
The human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LL...
Geoffrey Hinton指出语言只是思考的工具之一,AI推理可以是真正的思考,因为语言本身就是一种思考形式。人类和AI能用文字建模,但真正思考超越文字,涵盖图像、空间感和物理运动等多模态。最聪明的系统是能整合所有模态的AI,这代表下一个大突破方向:让AI像人类一样通过多感官、多维度理解世界,从而打破智能边界。多模态是最终出路,但文本基础仍需巩固以确保发展效果。
Geoffrey Hinton says AI reasoning can be real thought because language itself is a form of thinking Words let humans and...
研究团队推出DiagnosticIQ基准,包含来自16类资产、118条规则-行动对的6690道专家验证多选题,用于评估大语言模型将工业监测中的符号规则转化为具体维护步骤的能力。基准包含五个变体以探测不同失效模式,并对29个大语言模型和4个嵌入基线进行了测试。人类专家平均准确率仅45.0%,证实任务需要专项知识。研究发现:前沿模型性能接近,但Pro变体显示在干扰项扩展下模型相对准确率下降13-60%,Aug变体暴露模型在条件反转时仍有49-63%的概率选择原答案,存在模式匹配倾向。这表明部署瓶颈并非模型能力不足,而是其校准问题。
针对LLM多智能体系统在长程任务中因关键错误扩散导致整体失败的问题,本研究提出在线审计框架AgentForesight。该框架能在任务执行过程中实时观察轨迹前缀,并在最早的关键错误处发出警报。研究构建了AFTraj-2K轨迹语料库,并基于此开发了AgentForesight-7B模型。该模型采用由粗到细的强化学习策略训练,在AFTraj-2K和外部基准测试中,其性能超越GPT-4.1等领先专有模型,实现了高达+19.9%的性能提升,并将步骤定位误差降低3倍,从而将故障处理从事后归因转向部署时干预。
CollabVR提出一种闭环协作框架,在步骤级别将视觉语言模型(VLM)与视频生成模型(VGM)耦合,以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中,VLM负责规划即时动作并检查VGM生成的视频片段,再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中,该方法在同等计算条件下显著提升了开源与闭源VGM的性能,尤其在困难任务上增益最大,且能与推理微调的VGM进一步结合,实现性能叠加。
为评估大语言模型的研究级数学能力,研究团队推出了包含439道全新原创题目的Soohak基准。该基准包含挑战和拒绝识别两个子集。在挑战子集上,Gemini-3-Pro、GPT-5和Claude-Opus-4.5的得分分别为30.4%、26.4%和10.4%,领先的开源模型均低于15%,显示模型能力仍有巨大提升空间。在拒绝识别子集上,所有模型得分均未超过50%,这揭示了模型在识别问题定义不清时主动暂停而非盲目作答的能力严重不足,成为一个新的关键优化目标。为防止数据污染,完整数据集将于2026年底公开。
MLS-Bench是一个评估AI系统能否发明通用、可扩展机器学习方法的基准。它包含12个领域的140项任务,要求智能体改进ML系统的特定组件,并证明其改进能在受控环境中泛化与扩展。研究发现,当前智能体远未达到可靠超越人类设计方法的水平,且工程式调优比真正的方法发明更容易。测试阶段的规模扩展、自适应计算分配和额外上下文均无法单独解决核心瓶颈,关键在于智能体缺乏规划、验证和扩展主张所需的科学洞察力。该项目已建立社区平台并开源相关资源。
新紫光集团在2026创新峰会上发布了“紫弦”三维化近存计算架构。该架构以3D DRAM为核心,采用首创的3.5D异质异构集成方案,存储带宽高达30TB/s,相比行业最新的HBM4在带宽与容量上具有优势,并可基于国内供应链量产。在PNM近存计算模式下,访存延迟最多可降低至1/18,模拟仿真显示其词元吞吐率较英伟达B200系列高出1.5至2倍以上。峰会上,其旗下公司还分别发布了商业航天高可靠集成电路解决方案、国产算力互联方案以及能将芯片设计效率大幅提升的“紫灵”智能体。
Chain of thought monitors are a key layer of defense against AI agent misalignment. To preserve monitorability, we avoid...
DeepMind的AI co-mathematician在FrontierMath Tier 4研究级数学问题得分48%,而基础模型Gemini 3.1 Pro仅19%。提升源于多代理架构的智能编排,包括并行代理相互审查证明、编写代码和搜索文献,而非模型本身更智能。评估绕过标准框架,使用48小时每问题、无令牌限制的自有基础设施,因此得分不能直接与其他模型比较。案例中,数学家Marc Lackenby与AI合作解决Kourovka Notebook开放问题,AI提供证明策略,审查代理发现缺陷,人类专家填补空白,展示了高效人机协作。系统存在“reviewer-pleasing bias”和“death spirals”等失败模式。对于Erdős型猜想或千年问题,AI仍缺乏创造性直觉,但能压缩从想法到验证的时间,加速文献搜索和计算验证。论文强调范式转变:系统设计以对实际研究重要的方式复合模型能力,推动数学向数学家与AI代理协作的未来发展。
The future of Math is mathematicians and AI agents working together. Very pleased to introduce @GoogleDeepMind's AI co-m...
Ring-2.6-1T是一款万亿参数的旗舰思维模型,专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能,通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化,适用于高频工作流,提供快速多步执行和工具编排,并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限,特别适合严格数学逻辑和科学研究。
自适应并行推理是一种新范式,它让大语言模型能够自主决定何时分解任务、并行处理多少子任务以及如何协调结果,以应对序列推理中因探索路径增长而导致的延迟增加和“上下文腐化”问题。近期研究如ThreadWeaver和Multiverse通过动态控制并行线程,在数学与代码推理基准上取得了显著性能提升,同时大幅降低了延迟。这标志着从固定并行策略到自适应智能控制的转变,为复杂任务的推理提供了高效且可扩展的解决方案。
中国移动董事长陈忠岳在移动云大会上宣布,公司将推进全国一体化算力网建设,提供即取即用、普惠易用的算力服务。具体举措包括加强全光网高速直联、加速AI数据中心建设并布局吉瓦级数据园区,升级AI云算服务以支撑大模型发展。同时,中国移动将开放万亿级词元(Token)服务体验包,并发布移动模型服务平台MoMA。该平台已接入超300款业界主流AI模型,包括自研“九天”及DeepSeek、通义千问等,提供统一API网关,服务于政务、金融、工业等多类场景。
铭凡在厦门发布会上展示了新款迷你主机M2。该机型属于Elite Mini系列,搭载英特尔酷睿Ultra 7 356H处理器,配备2个DDR5 SO-DIMM插槽,最高支持128GB系统内存,并具备2个M.2 2280 NVMe SSD盘位。其支持Wi-Fi 7,外部接口丰富,包括正面2个USB-A 10Gbps和1个USB-C 40Gbps,背面另有多个USB、HDMI 2.1、DisplayPort 1.4以及2个2.5GbE网口。该设备宣称支持Qwen-35B-A3B、GPT-OSS 20B等大模型的本地运行。
ZAYA1-8B 是一个新发布的开源人工智能模型,在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿,突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效,可能降低部署成本并加速推理过程,为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步,其开源性质有望推动进一步研究和应用。
中国移动发布移动模型服务平台MoMA,接入超过300款业界主流AI模型,包括自研“九天”及DeepSeek、通义千问等。平台基于国产算力部署自研推理引擎,通过智能路由与资源调度,实现单位Token成本降低约30%,资源占用率下降50%以上。其智能路由引擎支持成本、效果、均衡三种优先策略,并能实现故障秒级切换。平台还提供“机密模型”服务,通过硬件隔离技术保障政务、金融等高安全需求场景的数据安全。
An OpenAI friend told me he burns 300M GPT-5.5 tokens/day. The top one in his team burns billions of tokens/day. Codex c...
针对大型语言模型强化学习中的“零优势问题”,本研究提出了LoPE训练框架。该方法通过在原始提示前随机添加由Lorem Ipsum等低困惑度伪拉丁文本构成的无关序列,对提示空间进行扰动,从而为困难问题开辟新的推理路径。在1.7B至7B参数规模的模型上的实验表明,该方法显著优于使用原始提示的重采样策略。分析进一步证实,其他基于拉丁语的随机序列同样可作为有效扰动源。LoPE为拓宽LLM强化学习的探索范围提供了一个简单而有效的基线方法。
针对智能体大语言模型强化学习中稀疏结果奖励难以评估单轮贡献的问题,A^2TGPO方法优化了信息增益这一内在过程信号的利用。其核心改进包括:采用轮次组归一化,使同深度轮次间可比;通过方差重缩放的折扣累积,保持不同位置优势幅度的可比性;引入自适应轮次裁剪,根据各轮次信息增益动态调整策略更新范围。这些设计旨在更精确地进行过程信用分配,无需依赖外部奖励模型。
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...
研究团队提出ScaleLogic合成逻辑推理框架,可独立控制推理深度与逻辑表达力。实验发现,强化学习训练计算量T与推理深度D之间遵循幂律关系(T ∝ D^γ),且缩放指数γ随逻辑表达力增强从1.04单调上升至2.60。在数学与通用推理基准上,表达力更强的训练带来更大的性能提升(最高+10.66分)和更高的计算效率迁移。该幂律关系在不同强化学习方法中均成立,基于课程的学习能显著提升扩展效率。研究表明,训练内容(而不仅是训练量)对下游任务迁移有决定性影响。
AI协数学家是一个供数学家利用AI智能体进行开放式研究的工作平台。它针对数学工作流程的探索性与迭代性特点,提供从构思、文献检索、计算探索到定理证明的全方位支持。其异步、有状态的工作空间能管理不确定性、细化用户意图并追踪失败假设,模拟了人类协作模式。早期测试中,该系统已协助研究人员解决开放问题、识别新方向并发现被忽视的文献。在FrontierMath Tier 4等硬核问题求解基准测试中,AI协数学家取得了48%的最新最高分,展现了AI辅助数学发现的高度交互范式。
针对自回归范式在文本生成中的限制,研究团队提出Cola DLM,一种分层连续潜在扩散语言模型。该模型通过文本VAE学习文本到潜在映射,在连续潜在空间中用块因果DiT建模全局语义先验,再通过条件解码生成文本。其扩散过程执行潜在先验传输,而非词元级观测恢复,从而分离全局语义组织与局部文本实现,支持更灵活的非自回归生成。实验在严格匹配约20亿参数自回归基线和扩展到约2000 EFLOPs下进行,显示Cola DLM具有强大扩展性能,确立了分层连续潜在先验建模作为严格词元级语言建模的原则性替代方案。
传统MoE模型每层设置独立专家,导致参数量随深度线性增长。研究发现深层路由功能冗余,因此提出UniPool架构,采用一个全局共享的专家池供所有层访问,取代分层独立设计。通过池级辅助损失平衡专家使用,并采用NormRouter实现稳定稀疏路由。在多个规模的LLaMA模型上实验表明,UniPool持续提升了验证损失。关键的是,共享池设计将池大小确立为深度缩放超参数:仅使用基线41.6%-66.7%专家参数的缩减池变体,性能达到或超越了传统分层MoE,证明专家参数可实现次线性增长并保持更高效率。
为提升视频奖励模型的泛化能力与训练效率,研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式:首先由多模态大语言模型生成显式思维链推理,再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化:第一阶段结合随机掩码进行判别式冷启动,确保评分稳健性;第二阶段通过双目标强化学习,独立优化推理质量并校准奖励,使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...
瑞莎在2026高通AI开发者日前夕,预热了两款基于高通硬件平台的飞牛fnOS NAS新品。其中,DragonStation定位高性能全闪存产品,搭载具备“超大核”CPU的Arm SoC,提供6个M.2 SSD盘位,支持10Gb网络,并能通过内置加速卡本地运行120B参数的AI模型。另一款DragonBay面向主流用户,提供4个存储位,其内部结构设计留有后续扩展空间。两款新品将在本月末于深圳举行的活动中正式亮相。
OpenAI 发布三款集成于Realtime API的实时语音模型,旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中,GPT-Realtime-2具备GPT-5级推理能力,可在对话中进行推理、调用工具并处理打断,音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言,每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录,每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。
atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。
Multi-Token Prediction (MTP) for LLaMA.cpp! Running Gemma4 local model 1.5x faster. We patched LLaMA.cpp. Quantized Gemm...
本文研究在中训练阶段引入自生成多样化数据对强化学习(RL)的增益。该方法基于波利亚解题策略,为每个问题生成多种正确答案变体并微调。理论分析表明,这种训练方式能通过策略梯度更新激励模型融合不同推理路径。实验验证,经此中训练初始化后再进行RL的模型,在数学推理、代码生成及叙事推理等任务上均取得稳定性能提升。
针对在线蒸馏训练中单样本蒙特卡洛估计器方差高导致不稳定的问题,本研究提出vOPD方法。该方法将在线蒸馏构建为策略梯度强化学习问题,并引入一个控制变量基线(即价值函数)来稳定训练。该价值函数具有闭式解,即学生与教师模型间的逐令牌反向KL散度,无需额外计算。通过减去该基线,vOPD在保持梯度无偏的同时显著降低了方差。实验表明,在数学与科学推理任务上,vOPD性能持续优于原始在线蒸馏,并能匹配计算成本更高的全词表基线方法,实现了高效且稳定的训练。
本研究在零样本、单跳、闭卷问答的严格设置下,探究强化学习能否提升大语言模型对参数化知识的直接回忆能力。实验表明,仅使用二元正确性奖励进行训练,即可在多个模型和事实问答基准上带来约27%的平均相对性能提升,超越多种基线方法。机制分析发现,强化学习主要重新分配模型已有知识的概率质量,将正确答案从低概率区域移至可靠生成范围,而非学习新事实。数据归因研究进一步揭示,约18%的最困难训练样本(其答案在强化学习前的多次采样中从未出现)贡献了约83%的性能增益。这些发现将强化学习的作用从推理扩展到了解锁潜在的参数化知识。