在Google Cloud Next '26大会上,谷歌正式推出专为智能体时代设计的第八代TPU芯片,分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练,其性能约为前代的3倍,并通过加速数据移动和优化硬件容错,将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务,内存扩大三倍以支持多步推理,每美元性能提升80%,延迟降低5倍,助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力,推动AI应用创新。
在Google Cloud Next '26大会上,谷歌正式推出专为智能体时代设计的第八代TPU芯片,分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练,其性能约为前代的3倍,并通过加速数据移动和优化硬件容错,将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务,内存扩大三倍以支持多步推理,每美元性能提升80%,延迟降低5倍,助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力,推动AI应用创新。
Today, Ling-2.6-1T is officially open-sourced (from @AntLingAGI) 1T total parameters · 63B active parameters Built for r...
Ling-2.6-1T just dropped by @AntLingAGI , one day after Ling 2.6 Flash. Both optimized for the same goal: usable intelli...
👏 Meet Ling-2.6-1T from @AntLingAGI, the trillion-parameter flagship instant instruct model built for fast execution & ...
文章揭示了支撑大语言模型(如GPT、Claude、LLaMA)训练与服务的核心数学框架。通过剖析关键方程,可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律,也量化了训练成本与推理效率之间的权衡,为理解当前大语言模型的发展路径提供了底层逻辑。
AI推理市场正快速分化,各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后,NVIDIA数据中心收入三年内增长17倍,凸显市场爆发。分化根本原因在于工作负载差异:图像视频生成需高计算力,长上下文消耗更多内存,边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层;按模态分为文本、图像视频音频;按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型,整个AI推理市场规模预计约1000亿美元,这种专业化趋势正为各细分领域创造领导者机会。
OpenAI 研究人员在播客中指出,数学能力已成为衡量人工智能向通用人工智能(AGI)发展进程的关键测试。AI 模型在短短两年内,已从掌握小学算术进步到能应对奥林匹克竞赛乃至研究级别的数学问题。这种在复杂数学推理上的快速突破,被视为模型泛化能力和抽象思维提升的重要标志,是迈向 AGI 的核心路径之一。
AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构,核心设计理念是“令牌高效”,旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化,具备可靠的多步骤执行能力,在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化,部署便捷,兼容广泛的智能体框架,适用于从代码生成到错误修复等多种任务。
🚀 Today, we are launching Ling-2.6-1T, a trillion-parameter flagship model designed for precise instruct task execution...
团队通过采用前沿模型Opus,成功降低了大型语言模型(LLM)的运营成本。这一升级不仅提升了模型性能,还实现了成本的反向下降,具体成本降幅未在摘要中明确,但整体费用得到有效控制。此举证明了选用更先进的模型架构可以在不增加开支的前提下获得更好的技术服务效果。
Introducing remote agents in Vibe and Mistral Medium 3.5. You can now launch remote agents in the cloud, including from ...
华为鸿蒙“龙虾”小艺 Claw 迎来11.6.3.300版本更新。核心升级包括上线“自进化”能力,可学习用户长期偏好以减少重复沟通;并正式接入DeepSeek V4模型,获得百万级上下文处理能力,在信息搜集、文档处理等任务中具备更强推理能力。此外,更新引入了社区与生态伙伴的精选技能,覆盖金融、办公等多领域。该智能体已获得信通院首个终端厂商权威安全认证。目前,支持该功能的小艺App已开启尝鲜升级。
小米MiMo-V2.5-Pro模型在最新Arena排行榜中表现卓越。在Text Arena(Expert)榜单中,它位列全球第六,同时是开源模型与中文模型的双料第一,其所属实验室全球排名第三。该模型在Text Arena(Overall)总榜中排名开源全球第二,在Code Arena(WebDev)前端开发榜单中位列开源全球第三。此外,它在Text Arena的四个关键子类别(Hard Prompts、英文Hard Prompts、指令遵循与长查询)中均获得开源全球第一。这些成绩均基于真实用户偏好与社区盲投评估,体现了模型在复杂任务上的强大综合能力。
FlashQLA是基于TileLang构建的高性能线性注意力内核,专为个人设备上的智能体AI设计。其核心创新包括门控驱动的自动片内计算并行、硬件友好的代数重构以及TileLang融合的Warp专用内核,通过提升流处理器利用率,在前向传播上实现2-3倍加速,反向传播实现2倍加速。该技术在小模型、长上下文工作负载和张量并行设置中效果显著,虽然在大批次处理时内存I/O开销略高,但在边缘设备和长上下文场景中实际性能更优。反向传播通过16级Warp专用流水线在严格片上内存限制下实现了核心级加速。相关资源已开源。
FlashQLA是基于TileLang开发的高性能线性注意力内核,专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构,以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率,在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时,其将GDN流程拆分为两个内核的策略会带来额外内存开销,但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线,实现了超过2倍的内核级加速。
GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...
AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。
在2026数字中国建设峰会上,腾讯展示了其Agent智能体生态。其中,WorkBuddy桌面智能体工作台可根据一句话描述自动完成任务;专为中国用户优化的AI技能社区“SkillHub”已集成腾讯核心产品能力,并收录超3.5万个技能。最新发布的混元Hy3 preview语言模型首次亮相,该模型为混合专家模型,总参数295B,支持256K上下文,在复杂推理、代码等能力上大幅提升,旨在助力中小企业低成本快速搭建AI应用,并已在腾讯云、元宝等多款产品中上线。
当前大型音频语言模型普遍依赖基于验证奖励的强化学习范式来驱动听觉推理,但这陷入了“可验证奖励陷阱”——模型为追求孤立文本标签的正确性,牺牲了声学细微差别和对话自然度,导致交互机械、沉浸感差。Step-Audio-R1.5 通过转向基于人类反馈的强化学习实现了范式突破。评估表明,它在保持强大分析推理能力的同时,显著提升了交互体验,特别是在长轮对话中改善了韵律自然性与情感连续性,重新定义了深度沉浸式语音对话的边界。
蚂蚁集团推出的Ling-2.6-1T模型在免费测试期表现突出,处理复杂任务速度可比竞品快6倍,并具备主动思辨能力。其核心优势在于极高的token效率,能将成本降至可比模型的四分之一,同时综合智能接近GPT-5.4非推理水平,实现了高智能与低生产成本的结合。该模型在SWE-bench、AIME26等生产相关评测中领先,擅长代码、Agent编排等实际应用。蚂蚁依托支付宝场景与海量数据,通过开放API策略推动行业竞争重点从刷榜转向生产落地。
说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太...
科大讯飞正式发布星火 X2-Flash 模型并开放API。该模型采用MoE架构,总参数300亿,支持256K上下文,基于华为昇腾910B集群训练。其在智能体、代码等能力上大幅提升,在深度研究报告、Skill管理等多项任务上效果接近业界万亿参数模型,而整体token消耗不到主流大尺寸模型的三分之一。通过结合DSA与MTP技术,模型在国产芯片上的训练效率从同规模A800集群的20%提升至90%,并解决了长交互场景采样效率低的问题,为大规模强化学习训练扫清障碍。AstronClaw、Loomy等已率先接入。
国家数据局数据显示,2025年我国用于人工智能训练和推理的数据总量达199.48EB,同比增长42.86%。其中,推理数据量首次超过训练数据量,达到101.34EB。同年,由系统软件和人工智能产生的数据量达26.92ZB,首次超越传统占主体的物联感知数据量。测算显示,未来推理算力需求与训练算力需求之比可能达到3:1或更高。此外,全国日均词元调用量在2025年末已增至100万亿,全年累计调用量约21100万亿。
Persistent memory is the Achilles heel of AI. Engramme's Large Memory Models (LMMs) empower every app with persistent me...
蚂蚁集团发布Ling-2.6系列模型,通过MoE架构与Fast-Thinking机制,将推理激活率降至7%,在实现接近GPT-5.4非推理水平综合智能的同时,大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先,旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源,推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务,在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。
后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...
英伟达发布开源全模态推理模型Nemotron 3 Nano Omni,采用30B‑A3B混合MoE架构,集视频、音频、图像和文本处理于一体。该模型旨在替代多模型链,降低推理成本与编排复杂度。在多项基准测试中表现领先,尤其在视频推理任务中,其系统吞吐量相比其他开放式全模态模型最高提升约9.2倍,文档推理任务最高提升约7.4倍。模型权重、训练配方及数据集已完全开放,支持开发者在各类环境中定制部署。
研究提出了一种名为“自适应思考”的新方法,使大型语言模型能够动态决定是否需要执行链式思考推理。该方法利用自我一致性作为判断标准,当模型对简单问题已有高置信度答案时,会跳过显式推理步骤,直接生成最终答案。实验表明,在保持相同性能水平下,该方法在GSM8K和MATH基准测试上分别减少了20.3%和41.7%的推理计算量,实现了更高效的计算最优推理。
现有计算机使用代理在长周期图形界面任务中因每一步都调用大型多模态模型而导致效率低下。此类任务轨迹具有高度异质性:多数步骤可由轻量策略可靠处理,而错误多集中于少数高风险时刻,表现为进度停滞与语义漂移。为此,本文提出一种事件驱动的步骤级级联框架,默认运行轻量策略,仅当轻量监测器识别到风险升高时才升级至强模型。该框架整合了停滞监测器与里程碑监测器,能根据交互进程自适应分配计算资源,将始终开启的前沿模型推理转变为按需调用。该模块化设计无需改变现有代理架构或重新训练大模型即可直接集成。
本研究通过推理冲突视角,探讨大语言模型能否将归纳、演绎等基本推理模式与具体问题实例解耦。发现LLMs优先考虑合理性而非合规性,即使指令冲突也倾向任务适用推理。任务准确率不严格由合理性决定,模型依赖内部参数记忆且随规模增强。推理冲突可内部检测,置信度显著下降。实验显示推理类型从中后层线性编码,表明激活层面可控。通过机制干预,成功将模型导向合规,指令遵循率最高提升29%。这表明主动干预能有效解耦逻辑模式与数据,提升可控性、忠实度和泛化能力。
长度价值模型(LenVM)是一个创新的令牌级框架,它将剩余生成长度预测转化为价值估计问题,通过为每个生成令牌分配恒定负奖励来获得密集、无偏且可扩展的监督信号。实验表明,LenVM能显著提升模型对生成长度的精确控制能力:在LIFEBench精确长度匹配任务中,它将一个7B模型的长度分数从30.9大幅提升至64.8,超越了前沿闭源模型。同时,该模型支持性能与效率的连续权衡,如在GSM8K上设定200令牌预算时,能保持63%的准确率,远超基线模型的6%。此外,LenVM能从提示开始预测总长度,并提供生成动态的可解释视图,展现了其作为通用长度建模框架的广泛潜力。
研究提出协同进化策略蒸馏(CoPD),以解决混合RLVR的跨能力发散问题和传统OPD因行为模式差距导致的能力吸收不全问题。CoPD通过推动专家并行训练,并在每个专家的RLVR训练中引入双向OPD,使专家互为教师、协同进化,从而保持行为模式一致且知识互补。实验表明,CoPD能全面集成文本、图像和视频推理能力,性能显著优于混合RLVR和MOPD等基线,甚至超越领域专用专家。该方法可能启发新的训练扩展范式。
GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...
针对概念瓶颈模型(CBM)将认知不确定性与偶然不确定性混为一谈的问题,研究团队提出了CREDENCE框架。该框架将每个概念表示为概率区间,通过不同概念头之间的分歧量化认知不确定性,并训练一个专门的模糊性输出来估计偶然不确定性。实验证明,认知不确定性正相关于模型预测错误,而偶然不确定性则紧密跟踪标注者间的真实分歧。基于此分解,该方法能支持明确的决策:自动化处理低不确定性案例,优先收集高认知不确定性数据以改进模型,将高偶然不确定性案例转交人工审核,并在两者皆高时主动弃权。代码已开源。
Token efficiency has become a major battleground, Ling-2.6-flash released by @AntLingAGI just enters the race 🔥 ✨ 104B/...
研究指出,在短上下文窗口下对大型语言模型进行标准GRPO后训练,虽能压缩推理步骤,但会导致训练不稳定和精度下降。为此,团队提出步骤级优势选择方法,该方法在推理步骤层面进行操作,对正确轨迹中的低置信度步骤和验证失败轨迹中的高置信度步骤分配零优势值,从而有效过滤因截断或验证器问题导致的不可靠步骤。在多项数学与通用推理基准测试中,该方法将平均Pass@1准确率提升了0.86个百分点,同时将平均推理长度降低了16.3%,实现了更优的精度与效率平衡。
R^3-SQL是一个新型Text-to-SQL框架,旨在解决现有方法的两大局限:对执行结果相同的等价SQL查询评分不一致,以及当候选池中缺失正确SQL时无法补救。该框架通过统一的排序奖励和智能重采样机制应对这些问题。它首先按执行结果对候选查询分组并排序以确保一致性,其评分结合了组间成对偏好与组内最佳排名和规模的点效用。同时,框架引入智能重采样机制,在判断正确SQL可能缺失时选择性地重新生成候选查询。在BIRD-dev数据集上,R^3-SQL取得了75.03%的执行准确率,在公开模型规模的方法中达到新的最高水平,并在五个基准测试中均表现出一致的性能提升。
研究提出基于Tsallis q-对数的损失函数族J_Q,用于在仅有输出级监督的后训练中调整推理模型。该族在利用极(q=0,对应RLVR)和密度估计极(q=1)间连续插值,所有成员共享相同梯度方向,仅通过标量因子P_{θ^{-q}}重加权。该机制解决了冷启动停滞问题:利用极逃离需Ω(1/p_0)时间,而密度估计极仅需Θ(log(1/p_0)),中间q值权衡逃离速度与噪声记忆。研究推导出两种蒙特卡洛估计器:梯度放大强化学习(GARL)与后验衰减微调(PAFT)。在多个数据集上,q=0.75的GARL显著缓解了冷启动停滞,在GRPO完全失败时成功逃离;在热启动中,低q的GARL在FinQA上表现主导,而PAFT在q=0.75时为其他数据集提供了稳定梯度,在HotPotQA上达到最佳结果47.9 maj@16。
研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。
Sonar 2 from Perplexity. 👀 @testingcatalog @btibor91