Google为其开源模型Gemma 4推出MTP drafter(多token预测草稿模型),采用推测解码技术,能在保持输出质量不变的前提下,将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token,再由大模型并行验证,从而显著提高吞吐效率,尤其有利于缓解本地部署时的内存带宽瓶颈。例如,在Apple Silicon上运行26B MoE模型时,批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议,权重已开源,并获主流推理框架支持。
Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...
OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant,替换原有的 GPT-5.3 Instant,并向所有用户推送。新模型显著减少了事实幻觉,在医疗、法律等高风险领域的错误率大幅降低,并在多项基准测试中性能提升。回答风格更为简洁,减少冗余内容。同时增强了记忆功能,能主动利用用户历史聊天记录等数据提供个性化回答,并上线“记忆来源”功能供用户管理引用。免费用户即可使用新版模型,付费用户可保留旧版三个月。个性化记忆功能将逐步向各版本用户开放。
GPT-5.5 Instant is starting to roll out to everyone in ChatGPT. Much more concise. Better memory. More personalized. And...
OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型,该模型在基准测试中表现大幅提升,变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能,能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文,并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出,个性化改进优先面向网页版Plus和Pro用户,移动版随后跟进;API版本为gpt-5.5-chat-latest。官方表示,升级后的模型能提供更智能、清晰、个性化的答案,语气温暖自然且更简洁。
GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...
ChatGPT的默认模型已更新为GPT-5.5 Instant。新版模型能提供更智能、更准确的答案,并有效减少了幻觉现象。同时,用户获得了更强的个性化控制能力,使交互体验更贴合个人需求。此次升级标志着模型在理解精度与响应定制化方面取得了显著进步。
SubQ模型发布,这是首个基于完全次二次稀疏注意力架构(SSA)的前沿LLM,拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍,成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制,通过稀疏注意力选择性聚焦重要关系,使长上下文处理的计算量减少近1000倍,显著改变了LLM的成本曲线和扩展方式。
Introducing SubQ - a major breakthrough in LLM intelligence. It is the first model built on a fully sub-quadratic sparse...
研究指出,驱动智能体性能的关键并非外部编排框架,而是一项核心内在技能:并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程,并通过强化学习与价值回归(RLVR)将其训练为可学习的模型内在能力。实验表明,该方法能显著提升模型性能:例如,GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%;R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明,当此类核心技能能被内化至模型中时,框架优势将转化为模型自身优势,长远来看,模型应原生具备此类能力。
PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。
Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。
Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...
同一事件,精选展示《在谷歌TPU上实现3倍加速:UCSD利用扩散式推测解码优化LLM推理》Runway平台团队开发的NCCLBack系统,通过P2P权重传输将模型冷启动时间从数分钟缩短至数秒。其核心创新在于让新启动的GPU推理节点直接从集群内已加载权重的同级GPU获取模型参数,而非从云存储重复下载。该系统利用GPU互连(如InfiniBand、NVLink)高达200-400 Gbps的带宽,相比传统存储下载的2-10 Gbps实现了数量级提升。通过Redis协调与NCCL广播原语,NCCLBack确保了数据传输的效率和正确性,使得大规模集群部署新模型时,冷启动时间不随节点数量线性增长,基本保持恒定。
Meta研究发现,强制大语言模型(LLM)在分析代码时遵循检查清单、逐步展示推理证明,能将其代码补丁错误率降低近50%。常见错误源于模型过早识别熟悉名称(如“format”)并直接套用通用含义,而非实际检查项目文件,导致其依赖自信猜测而非深入分析。通过要求模型明确写出修改内容、追踪执行路径并用具体证据证明结论,这一方法迫使其实际阅读本地文件、遵循真实逻辑,从而将准确率提升至93%。该方法无需昂贵的新训练或复杂系统,仅通过基本的结构化提示即可实现高可靠性的代码验证,节省了运行软件测试的巨大计算成本。
a16z创始人@pmarca公开其定制AI系统提示词,旨在彻底改变大语言模型的默认行为模式。该提示词分为两部分:第一部分要求AI以世界级全领域专家身份运作,输出详尽、分步推理且自我验证的内容,不回避负面结论或政治正确,也无需顾及用户感受。第二部分针对性禁用当代模型的“谄媚”行为,包括禁止夸赞问题、验证用户前提,要求先提出最强反驳再支持观点,禁用客套话,并在用户反驳时坚守立场除非对方提供更强证据。其核心目标是强制AI对齐事实与独立判断,而非对齐用户情绪。
Current AI custom prompt: You are a world class expert in all domains. Your intellectual firepower, scope of knowledge, ...
We tested one of the most common prompting techniques: giving the AI a persona to make it more accurate We found that te...
大型视觉语言模型因优化目标无法约束视觉轨迹,易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督,但偏向几何精度且推理效用有限。为此,本研究提出感知流网络,通过解耦感知与推理建立自条件生成过程,并借助变分强化学习整合多维奖励与邻近几何塑造,从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证,在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数,创造了新的性能记录。
多轮强化学习训练常因探索效率低下而不稳定。为此,研究团队提出T^2PO框架,在细粒度层面实施不确定性引导的探索控制。在令牌级别,它监测不确定性动态,当边际变化低于阈值时触发思考干预;在轮次级别,它识别探索进展可忽略的交互并动态重采样,以避免无效计算。在WebShop、ALFWorld和Search QA等多个环境中的评估表明,T^2PO显著提升了训练稳定性与任务性能,并实现了更高效的探索。相关代码已开源。
Google DeepMind的研究通过“师生对话”框架训练大型语言模型(LLM),使其能在对话中有效利用用户反馈进行学习。传统LLM将对话视为独立轮次,难以整合修正信息。该研究让“学生”模型尝试回答,由掌握额外信息的“教师”提供指导,并训练学生利用指导得出正确答案。在线强化学习训练效果优于离线过滤,且在简短对话中习得的技能能迁移至更长对话。该方法从数学任务泛化至编程任务,并能处理信息逐步到达的模糊任务。通过“Q-priming”步骤,模型在模糊任务中主动寻求澄清的可能性提高五倍以上,使对话更像与一个能在交流中实时学习的伙伴协作。
Grok 4.3 just became the smartest AI in the world at law and money It took #1 on TWO brutal private tests no other model...
研究探讨了深度受限Transformer在Horn子句上进行隐式演绎推理的缩放规律。通过系统解耦可证明性与虚假特征、并强制算法对齐,发现在具备双向前缀掩码的足够深模型中,隐式推理在不同图拓扑和问题宽度上能够接近显式思维链的性能表现,但深度外推任务仍需依赖思维链方法。
推理密集型检索旨在为下游推理提供证据支持,而非仅匹配主题相似性,这对需要迭代搜索与证据合成的智能体搜索系统至关重要。针对现有评估与训练的不足,研究发布了BRIGHT-Pro专家标注基准,为每个查询扩展了多维度黄金证据,并在静态与智能体搜索两种协议下评估检索器。同时,研究构建了RTriever-Synth合成语料库,通过生成互补正例和正例条件硬负例,对Qwen3-Embedding-4B进行LoRA微调得到RTriever-4B。实验表明,维度感知与智能体评估能揭示标准指标所掩盖的检索行为,而RTriever-4B相比其基础模型取得了显著提升。
JoyAI-Image是一个统一的多模态基础模型,集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构,实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号,增强了模型的几何感知推理与可控视觉合成能力。实验表明,该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环,推动模型向更强的空间智能演进,为下游应用提供了新路径。
研究团队提出PORTool算法,以解决多工具集成推理中仅依靠结果奖励导致的信用分配模糊问题。该方法通过重要性感知策略优化,在结果级监督下强化智能体的工具使用能力,同时实现步骤级奖励分配。PORTool生成奖励树来明确关键决策步骤,从而更精确地引导模型学习有效的工具调用序列,提升复杂任务解决的效率和可靠性。
在行业标准推理引擎vLLM上的测试显示,NVIDIA GB300 NVL72的实测端到端性能已达GB200 NVL72的2.7倍。尽管其纸面参数仅显示NVFP4算力提升约1.5倍、HBM容量增加1.5倍且带宽相同,但在大多数服务商实际运行的中段负载区间,凭借全栈优化的复合增益,GB300实现了远超理论算力提升的性能飞跃。此次测试基于NVIDIA、Inferact和CoreWeave为开源项目提供的临时GB300系统完成,结果印证了端到端实测性能才是衡量硬件效能的黄金标准,而非单纯的纸面理论算力。
Futurum Group与NVIDIA的报告将AI技术栈分为能源、芯片、基础设施、模型和应用五层。当前主要瓶颈已从芯片转向能源和冷却,美国五大超大规模企业今年基础设施支出预计高达6900亿美元。尽管Blackwell架构推理成本大幅降低,但推理模型和智能体工作流消耗的token量激增,使效率提升被迅速抵消。报告指出,AI基础设施建设正创造大量电工、暖通技工等高薪蓝领岗位,打破了AI仅影响白领的叙事。同时强调,缺乏能源、芯片制造和本土模型的国家无法真正参与AI经济,仅是消费者。
针对TPU v8i因双计算芯片而被误认为是训练芯片的观点,关键在于计算吞吐与内存容量/带宽的平衡。TPU v8i拥有更高的HBM3E内存容量(288GB对216GB)和带宽(8.6TB/s对6.5TB/s),以及更大的片上SRAM(384MB对128MB),这使其更适合内存带宽受限的推理解码任务。而训练芯片TPU v8t虽为单芯片设计,但通过极致密集的计算单元实现了更高的FP4算力(12.6 PFLOPs对10.1 PFLOPs),以满足训练所需的高算术强度,这也体现了Google尝试使用FP4进行训练的技术方向。
加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash,一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈,通过单次前向传播并行“绘制”整个候选令牌块,而非逐个预测。系统平均实现了3.13倍的推理加速,峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统,通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测,显著优化了TPU硬件的利用效率。
Grok 4.3 just became the smartest AI in the world at law and money It took #1 on TWO brutal private tests no other model...
基于开源模型和商用GPU的广告支持型AI在经济上可行。计算表明,一个由4块B200 GPU组成的集群服务300名用户时,每小时成本约18美元。通过广告收入即可覆盖成本:在内容网络中每3分钟展示一条广告(CPM 3.12美元),或在搜索广告中每39分钟展示一条(CPM 38.40美元),这一广告频率已与常见的移动和网页应用相当。对于代码代理等高强度任务,可采用混合盈利模式:用户每月支付10美元订阅费并每日观看8条广告,即可支持约200万token的用量,这证明了该模式的实用性。
Sakana AI在ICLR 2026上发表研究,提出一个仅70亿参数的“指挥者”模型。该模型不直接解决问题,而是通过强化学习训练,专注于为混合开源与闭源模型的工作者智能体设计通信拓扑结构,并为每个工作者生成精准指令以发挥其特长。经随机化智能体池训练后,它能在推理时适应任意智能体组合。其关键创新在于,当允许指挥模型将自己也选为工作者时,系统会形成递归拓扑,实现动态测试时扩展。该模型在GPQA-Diamond和LiveCodeBench上达到SOTA水平,在AIME25和GPQA-D上的性能比最佳单体工作者提升约3%,这相当于前沿模型一个代际的改进幅度,且增益完全来源于协同优化。
据报道,AI公司Anthropic正考虑引入英国芯片初创企业Fractile的推理芯片,计划将其作为英伟达GPU、亚马逊Trainium和谷歌TPU之外的第四类AI算力资源,目标在2027年部署。谈判目前仍处早期阶段。Fractile芯片采用独特的“模拟内存计算”架构,宣称运行头部AI模型时速度可提升25倍,成本降至十分之一。该公司此前已获得英特尔前首席执行官帕特·基辛格的投资。
AI芯片制造商Cerebras Systems计划在纳斯达克上市,股票代码为CBRS。据路透社报道,其IPO路演将于周一启动,目标股价区间为115至125美元。此次上市是公司的第二次尝试,目标估值达到400亿美元。
文章反驳了将大型语言模型视为更高层次抽象的观点。作者认为,LLMs本质上仍是对训练数据的模式匹配与统计关联,并未真正理解或抽象出人类概念。其输出依赖于海量文本中的概率分布,而非构建内在的认知模型。这种机制导致模型在逻辑推理、事实一致性等方面存在局限,无法实现类似人类思维的抽象层级。因此,LLMs应被看作一种强大的模式识别工具,而非认知意义上的抽象系统。
豆包在免费模式外新增付费订阅服务,推出三档价格:标准版连续包月68元、包年688元;加强版连续包月200元、包年2048元;专业版连续包月500元、包年5088元。付费功能专注于复杂任务和生产力场景,如PPT生成、数据分析和影视制作,以满足专业用户对高价值任务的需求。免费版本将继续服务日常使用,官方表示相关方案仍在测试阶段,正式上线时会公布完整信息。
杨立昆在达沃斯论坛上尖锐指出,基于LLM构建智能体是“灾难的配方”,因其缺乏世界模型和因果性,无法可靠预测行动后果,导致现有框架陷入不断修补的困境。他长期主张,实现AGI需依靠JEPA架构和世界模型,让AI先理解物理规律。其团队最新论文通过SIGReg正则化器解决了JEPA的表征坍缩问题,使得小型世界模型能在单GPU上快速训练,隐空间天然编码物理规律,在机器人规划中效率远超大型模型。这并非否定生成式AI,而是为智能体发展开辟了更高效、更接近物理现实的新路径:未来智能体将是“懂物理的小世界模型”与“大语言接口”的结合。
全网都在吹的LeCun新论文,90%的解读都是错的。 他们说生成式AI是死路,说过去三年花的几百亿全白费了,说15M参数的小模型就能吊打万亿大模型。 这些全是营销号的夸张, 我觉得这篇论文的真正分量比他们吹的还要重。 Yann LeCun团...
OpenAI 将 GPT-5.5 的每 token 价格翻倍,但模型输出更简洁。实际使用测量显示净成本影响取决于用户场景。
为解决大模型推理成本高昂的问题,研究者提出了协作式多教师解码框架CoRD。该框架通过基于预测困惑度的评分和束搜索,引导多个异构大模型协同构建连贯的推理轨迹,解决了现有方法中教师间缺乏协作、推理冗余的问题。实验表明,CoRD能生成更高质量的推理数据,使学生模型以更少的监督信号达到接近教师模型的性能,且效率开销小。该方法在跨领域和开放性任务中泛化能力良好,相关数据集和模型已开源。