研究发现,强化学习改进大语言模型推理时,并非教授新策略,而是对基础模型已掌握的解决方案进行概率重分配。其有效影响仅集中在1–3%的高熵决策token上,且所提升的token始终位于基础模型前5个备选之中。基于此,研究者提出无需强化学习的ReasonMaxxer方法,仅在熵选通的决策点施加对比损失,仅需数百次基础模型推演且无需在线生成。在多个模型和数学推理基准测试中,该方法达到或超越了完整强化学习的性能,而训练仅需数十道题目、数分钟的单GPU时间,成本降低约三个数量级。
研究发现,强化学习改进大语言模型推理时,并非教授新策略,而是对基础模型已掌握的解决方案进行概率重分配。其有效影响仅集中在1–3%的高熵决策token上,且所提升的token始终位于基础模型前5个备选之中。基于此,研究者提出无需强化学习的ReasonMaxxer方法,仅在熵选通的决策点施加对比损失,仅需数百次基础模型推演且无需在线生成。在多个模型和数学推理基准测试中,该方法达到或超越了完整强化学习的性能,而训练仅需数十道题目、数分钟的单GPU时间,成本降低约三个数量级。
研究团队提出SPEED方法,一种阶段非对称的KV可见性策略,以降低仅解码器语言模型的长上下文推理成本。该方法在预填充阶段,仅让非锚点的提示词KV状态在模型下层生成和缓存;而在解码生成阶段,则对所有令牌进行完整的深度计算。在Llama-3.1-8B的指令调优实验中,当仅使用75%的层处理提示词时,SPEED在基准测试中取得了与完整深度基线近乎持平的平均得分(51.2 vs. 51.4)。同时,它显著提升了推理效率:首令牌时间减少33%,每个输出令牌时间减少22%,并在128K上下文长度下将活跃KV内存降低25%。分析表明,该方法保留了完整深度模型中关键的提示词选择和表征稳定功能。
4DThinker是首个让视觉语言模型通过动态潜在心理意象进行“4D思考”的框架,使其能在连续隐藏空间内模拟场景演变。该研究提出了一个从原始视频合成4D推理数据的可扩展无标注流程,并设计了动态意象微调方法,通过联合监督文本标记与4D潜在表征来锚定模型的动态视觉语义。在此基础上,4D强化学习利用基于结果的奖励处理复杂推理任务,并将策略梯度限制于文本标记以确保优化稳定。在多个动态空间推理基准测试中,4DThinker均显著优于现有基线模型。
针对长上下文处理效率问题,研究团队提出了通用预填充加速框架UniPrefill。该框架直接在令牌级别加速模型计算,适用于线性/全注意力混合、滑动窗口/全注意力混合等几乎所有架构。UniPrefill被实现为连续批处理算子,并扩展了vLLM的调度策略,原生支持预填充-解码协同处理与张量并行,从而能无缝集成到vLLM等现代推理引擎中。实验表明,该框架可将首令牌生成时间最高加速2.1倍,且加速效果随并发请求数量增加而愈发显著。
本研究提出列表式策略优化(LPO),为大语言模型可验证奖励强化学习提供新方法。现有分组策略梯度方法隐式地在响应单纯形上定义目标分布并进行一阶近似投影,LPO则将其显式化:先限制近端目标于单纯形以明确目标,再通过精确散度最小化投影策略。该框架能在列表目标上实现单调改进,其投影梯度有界、零和且自校正,并通过解耦的投影步骤灵活选择散度。实验表明,在相同目标下,LPO训练性能持续优于典型策略梯度基线,同时保持了优化稳定性与响应多样性。
EMO是一种新型混合专家模型,旨在实现模块化部署,允许独立使用和组合专家子集,而无需人工定义先验。其核心设计是让来自相似领域的token依赖相似的专家,仅利用文档边界即可在预训练中自发形成连贯的专家分组。研究团队使用1T token预训练了一个活跃参数1B、总参数14B的EMO模型。完整模型性能与标准MoE相当,但关键优势在于支持选择性使用专家:仅保留25%的专家仅导致1%的绝对性能下降,保留12.5%时下降3%,而标准MoE在相同设置下会失效。此外,EMO中的专家子集在语义层面(如数学、代码等领域)实现专业化,不同于标准MoE仅表现出的低层次句法专业化。这为大型稀疏模型的模块化、内存高效部署开辟了新路径。
SpaceX与Anthropic达成协议,后者将获得其大型AI超算Colossus 1的全部算力使用权。该超算配备超过22万颗英伟达H100、H200及下一代GB200 GPU。Anthropic将利用这些算力显著提升Claude付费订阅用户的服务容量,包括将Claude Code的五小时速率限制提高一倍、取消高峰时段限速,并大幅提高Claude Opus模型的API速率限制。此外,双方还计划合作开发吉瓦规模的轨道AI算力设施。
现有基准如VSI-Bench主要评估基础几何感知能力,但未能触及具身智能所需的高阶认知。为此,研究团队推出了空间功能智能基准SFI-Bench,该基准包含超过1700个问题,数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力,标志着对智能体空间认知的评估从几何层面迈向功能层面。
为确保 vLLM 从 0.8.5 到 0.18.1 的重大重写后,在线强化学习训练结果与 V0 参考运行一致,团队优先修复后端行为而非调整 RL 目标。关键修复包括:将日志概率模式设为 processed_logprobs 以匹配采样器分布;禁用 V1 特有的前缀缓存和异步调度等运行时默认值;调整权重更新路径以匹配 V0 的缓存保留行为;并确保 rollout 后端使用 fp32 精度的 lm_head 进行最终投影。这些措施消除了策略比率均值偏差,使 V1 在 KL 散度、熵等指标上与 V0 达成一致。
Just published an exclusive on LatePost. A few highlights: - Kimi (Moonshot AI) is closing a new $2B funding round at a ...
Google 为其 Gemma 4 开源模型家族发布了多令牌预测模块,可将文本生成速度提升高达三倍。该技术通过一个小型辅助模型一次性预测多个令牌,再由主模型单次检查完成验证,从而显著提高了推理效率。
2018年F1中国站,AMD CEO苏姿丰曾遭遇记者带有种族微歧视的提问。八年间,她将公司市值从濒临破产的30亿美元提升至6500亿美元。最新财报显示,其数据中心营收同比暴涨57%,股价大涨。她预判AI Agent的兴起将使CPU与GPU需求比例从1:8转向1:1,这为AMD的混合方案开辟道路,并挑战NVIDIA的垄断。凭借Zen架构与MI300系列,AMD在数据中心市场份额已从近乎为零升至40%,完成了最有力的反击。
$AMD reports First Quarter 2026 financial results. View non-GAAP financial measures reconciliation & cautionary statemen...
这个项目能让Gemma 4 推理提速到6倍 比谷歌的3倍还快,而且不损失质量 https://github.com/z-lab/dflash
一篇关于Claude Mythos和GPT-5.5的分析文章指出,两者在网络安全能力上基本持平,GPT-5.5可能更具成本效益。Mythos在部分通用基准和SWE-bench Pro上略微领先,但并未形成显著的能力突破。分析认为Mythos的性能符合既往趋势,并非偏离趋势的巨大飞跃。与此同时,OpenAI近期发布了多项出色产品,这反衬出Claude Mythos为何仍保持高度保密状态。
New post from @natalia__coelho on Mythos. She analyzes its capabilities using publicly reported benchmark results to det...
字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解,并能进行跨模态联合推理,在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译,多项基准测试优于Gemini-3.1-Pro。同时,其Agent、Coding与GUI能力升级,能更稳定处理长任务、胜任深度开发,并实现界面理解与操作执行的闭环。新版本已在火山方舟上线,旨在为企业提供高性价比的全模态任务部署方案。
Luma just released Uni-1, an image generation model that reasons first! The shift: image generation models typically wor...
AMD首席执行官苏姿丰在财报会议上宣布,已开始向核心客户送样Instinct MI450 GPU加速卡,并计划在下半年逐步提高Helios AI机架的出货量。客户需求强劲,已超出公司对2027年的内部预期,OpenAI等已签署大规模部署协议。MI450基于CDNA 5架构,其FP8算力较前代翻倍,并升级搭载了HBM4内存。该系列被AMD用来对标英伟达的竞品平台,其内存容量和横向扩展带宽具备优势。
AMD CEO苏姿丰在财报会议上指出,智能体AI正重塑服务器CPU市场。她表示,AI是增长核心驱动力,云服务商正扩展部署AMD霄龙处理器。智能体AI工作负载需要额外CPU算力进行任务编排和数据移动,这推动了CPU需求的强劲增长。苏姿丰预计,在智能体AI推动下,服务器CPU市场的年复合增长率可能达到35%。她强调CPU需求是对GPU市场的补充,并透露CPU与GPU的配比正从传统的1:4或1:8向1:1演进,在智能体密集场景中CPU数量甚至可能超过GPU。
MiniMax M2.7 is now running FASTEST on SambaCloud 🚀 Built for coding, OpenClaw, and self-evolving agent workflows. Avai...
OpenAI 已全量发布 GPT-5.5 Instant 模型,并将其设为 ChatGPT 的默认模型。此次升级显著提升了模型的实时准确性和日常任务处理能力,特别是在法律、金融和医学等领域有效降低了幻觉率。同时,模型在图片理解与文档解析方面表现更佳。其回答风格变得更加简洁、聚焦要点,并增强了清晰度、个性化以及温暖自然的语调。此外,GPT 引入了记忆来源功能,允许用户可视化查看并编辑记忆的来源。本次更新未包含 Codex 模型。
GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...
Google发布了Gemma 4系列模型的专用草稿模型,用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍,仅增加1G显存开销;Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB,专门优化后接受率高,相比之前使用非专用草稿模型(如gemma-4-E2B-it-UD-Q4_K_XL)提速更明显。作者呼吁Qwen尽快推出类似优化模型(如Qwen3.6-27B-assistant),以应对高性能需求。
MiniMax-M2.7 is now available across six inference providers on Artificial Analysis, with significant differentiation in...
Google通过为Gemma 4引入MTP drafters(多token预测草稿机),在不增加参数、不改变架构和模型质量的前提下,实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token,突破了传统自回归解码的串行瓶颈,极大提升了GPU利用率。这显著增强了本地部署的实时性,并使Agent、代码生成等场景受益,进一步放大了开源模型在性价比和本地运行方面的优势。
Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...
Google发布Gemma 4模型,采用创新的MTP drafters技术,实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token,突破传统自回归生成的串行瓶颈,极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持,用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性,使Agent、代码生成等场景受益,进一步放大开源模型在性价比和本地化运行方面的优势。
Gemma 4 现在最高能跑到 3倍速度,而且质量完全不变。 他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草稿机),让模型一次预测多个 token,彻底绕过了传统 autoregressiv...
OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant,重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域,幻觉声明较前代减少52.5%;在用户标记的事实错误测试中,不准确声明降低37.3%。回复内容更简洁,减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新,付费用户可继续使用GPT-5.3 Instant三个月。
地理空间推理模型通常依赖人工标注的边界框坐标进行监督,这限制了其在海量无标注遥感数据上的自我进化。为此,研究团队提出RemoteZero框架,它利用多模态大语言模型在判别区域语义方面的优势,以内在语义验证取代几何坐标监督,从而实现了无需边界框标注的训练。该框架支持迭代式自我进化,模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明,RemoteZero在定位任务上取得了与强监督方法相竞争的性能,展现了自验证训练在地理空间推理领域的潜力。
研究团队提出神经规则归纳器(NRI),一种用于零样本规则归纳的预训练模型。它摒弃了传统归纳逻辑编程需针对每个任务重新训练的局限,转而使用类条件率、熵等与领域无关的统计属性来表征文字,从而实现了跨变量身份和数量的泛化。模型包含统计编码器和平行槽式解码器,后者保持了逻辑析取的排列不变性。通过乘积T-范数松弛实现规则的可微分执行,支持仅基于预测准确性的端到端训练。评估表明,NRI在规则恢复、对噪声和虚假相关性的鲁棒性,以及在真实世界基准上的零样本迁移方面表现良好,为符号推理的基础模型开辟了新可能。
据报道,OpenAI正加速其首款AI智能体手机的开发,目标在2027年上半年量产。此举可能旨在强化其年底IPO的叙事,并将自身定位拓展至消费硬件平台。联发科有望成为独家处理器供应商,提供基于台积电N2P制程定制的天玑9600。关键硬件规格包括增强HDR管线的图像信号处理器,以提升AI视觉感知能力,以及双NPU架构、LPDDR6与UFS 5.0等。若按计划推进,2027至2028年总出货量可能达到约3000万台。
[Industry Check Update]OpenAI appears to be fast-tracking its first AI agent phone, with mass production targeted as ear...
OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%,在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁,用词和行数减少约30%。同时,模型增强了图像和STEM处理能力,并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示,此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。
GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...
Google为Gemma 4模型引入了多令牌预测生成器技术,显著提升了推理速度。该技术允许模型在单次前向传递中预测多个未来令牌,而非传统的逐个令牌生成。在代码生成等任务中,这一方法实现了高达3倍的推理加速,同时保持了输出质量。这项优化旨在降低大语言模型的部署成本,提高响应效率,适用于需要快速生成较长文本的场景。
Grok 4.3 is now live on the xAI API. It's our fastest, most intelligent model to date. It tops the @ArtificialAnlys lead...
Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...
MiniMax-M2.7模型已在六家推理服务商上线,各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先,比其他提供商快3倍以上,但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出,Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿:前者性价比高,后者则以高价换取极致速度。此外,各家的高速缓存折扣政策不同,这对缓存密集型工作负载的成本影响显著。因此,最优选择高度依赖于具体工作负载对延迟和成本的敏感度。