5月7日

08:00

HuggingFace Daily Papers（社区热门论文）

精选75

研究发现，强化学习改进大语言模型推理时，并非教授新策略，而是对基础模型已掌握的解决方案进行概率重分配。其有效影响仅集中在1–3%的高熵决策token上，且所提升的token始终位于基础模型前5个备选之中。基于此，研究者提出无需强化学习的ReasonMaxxer方法，仅在熵选通的决策点施加对比损失，仅需数百次基础模型推演且无需在线生成。在多个模型和数学推理基准测试中，该方法达到或超越了完整强化学习的性能，而训练仅需数十道题目、数分钟的单GPU时间，成本降低约三个数量级。

arXiv 推理数据/训练论文/研究

推荐理由：这篇论文直接挑战当前主流 RL 训练范式，认为 RL 只是在选择已有策略而非学习新能力，并给出千分之一成本就能追平的替代方案，做 reasoning 的同行可以认真读一下。

08:00

HuggingFace Daily Papers（社区热门论文）

浅层预填充与深层解码：通过层非对称KV可见性实现高效长上下文推理

研究团队提出SPEED方法，一种阶段非对称的KV可见性策略，以降低仅解码器语言模型的长上下文推理成本。该方法在预填充阶段，仅让非锚点的提示词KV状态在模型下层生成和缓存；而在解码生成阶段，则对所有令牌进行完整的深度计算。在Llama-3.1-8B的指令调优实验中，当仅使用75%的层处理提示词时，SPEED在基准测试中取得了与完整深度基线近乎持平的平均得分（51.2 vs. 51.4）。同时，它显著提升了推理效率：首令牌时间减少33%，每个输出令牌时间减少22%，并在128K上下文长度下将活跃KV内存降低25%。分析表明，该方法保留了完整深度模型中关键的提示词选择和表征稳定功能。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

4DThinker：利用4D心理意象进行动态空间理解

4DThinker是首个让视觉语言模型通过动态潜在心理意象进行“4D思考”的框架，使其能在连续隐藏空间内模拟场景演变。该研究提出了一个从原始视频合成4D推理数据的可扩展无标注流程，并设计了动态意象微调方法，通过联合监督文本标记与4D潜在表征来锚定模型的动态视觉语义。在此基础上，4D强化学习利用基于结果的奖励处理复杂推理任务，并将策略梯度限制于文本标记以确保优化稳定。在多个动态空间推理基准测试中，4DThinker均显著优于现有基线模型。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniPrefill：通过分块动态稀疏化实现通用长上下文预填充加速

针对长上下文处理效率问题，研究团队提出了通用预填充加速框架UniPrefill。该框架直接在令牌级别加速模型计算，适用于线性/全注意力混合、滑动窗口/全注意力混合等几乎所有架构。UniPrefill被实现为连续批处理算子，并扩展了vLLM的调度策略，原生支持预填充-解码协同处理与张量并行，从而能无缝集成到vLLM等现代推理引擎中。实验表明，该框架可将首令牌生成时间最高加速2.1倍，且加速效果随并发请求数量增加而愈发显著。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

列表式策略优化：基于分组的RLVR作为大语言模型响应单纯形上的目标投影

本研究提出列表式策略优化（LPO），为大语言模型可验证奖励强化学习提供新方法。现有分组策略梯度方法隐式地在响应单纯形上定义目标分布并进行一阶近似投影，LPO则将其显式化：先限制近端目标于单纯形以明确目标，再通过精确散度最小化投影策略。该框架能在列表目标上实现单调改进，其投影梯度有界、零和且自校正，并通过解耦的投影步骤灵活选择散度。实验表明，在相同目标下，LPO训练性能持续优于典型策略梯度基线，同时保持了优化稳定性与响应多样性。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EMO：为涌现模块化预训练混合专家模型

EMO是一种新型混合专家模型，旨在实现模块化部署，允许独立使用和组合专家子集，而无需人工定义先验。其核心设计是让来自相似领域的token依赖相似的专家，仅利用文档边界即可在预训练中自发形成连贯的专家分组。研究团队使用1T token预训练了一个活跃参数1B、总参数14B的EMO模型。完整模型性能与标准MoE相当，但关键优势在于支持选择性使用专家：仅保留25%的专家仅导致1%的绝对性能下降，保留12.5%时下降3%，而标准MoE在相同设置下会失效。此外，EMO中的专家子集在语义层面（如数学、代码等领域）实现专业化，不同于标准MoE仅表现出的低层次句法专业化。这为大型稀疏模型的模块化、内存高效部署开辟了新路径。

arXiv 推理论文/研究部署/工程

07:16

IT之家（RSS）

SpaceX 向 Anthropic 开放大型 AI 超级计算机 Colossus 1 使用权，包含超 22 万颗英伟达 GPU

SpaceX与Anthropic达成协议，后者将获得其大型AI超算Colossus 1的全部算力使用权。该超算配备超过22万颗英伟达H100、H200及下一代GB200 GPU。Anthropic将利用这些算力显著提升Claude付费订阅用户的服务容量，包括将Claude Code的五小时速率限制提高一倍、取消高峰时段限速，并大幅提高Claude Opus模型的API速率限制。此外，双方还计划合作开发吉瓦规模的轨道AI算力设施。

Anthropic 推理行业动态部署/工程

06:30

Apple Machine Learning Research（RSS）

精选73

从位置认知到功能理解：为多模态大语言模型设立空间功能智能基准

现有基准如VSI-Bench主要评估基础几何感知能力，但未能触及具身智能所需的高阶认知。为此，研究团队推出了空间功能智能基准SFI-Bench，该基准包含超过1700个问题，数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力，标志着对智能体空间认知的评估从几何层面迈向功能层面。

多模态推理论文/研究

推荐理由：Apple 自己搞的 SFI-Bench 把评估从几何定位推进到功能理解，这个方向很对，做具身智能和空间推理的团队该跟一下。

03:22

Hugging Face：Blog（RSS）

精选65

vLLM V0 到 V1：在线强化学习中优先确保后端行为正确性

为确保 vLLM 从 0.8.5 到 0.18.1 的重大重写后，在线强化学习训练结果与 V0 参考运行一致，团队优先修复后端行为而非调整 RL 目标。关键修复包括：将日志概率模式设为 processed_logprobs 以匹配采样器分布；禁用 V1 特有的前缀缓存和异步调度等运行时默认值；调整权重更新路径以匹配 V0 的缓存保留行为；并确保 rollout 后端使用 fp32 精度的 lm_head 进行最终投影。这些措施消除了策略比率均值偏差，使 V1 在 KL 散度、熵等指标上与 V0 达成一致。

Hugging Face 推理教程/实践部署/工程

推荐理由：vLLM V1迁移时踩的四个坑全在这里，从logprob语义到fp32投影头，修完才调RL目标，做在线RL的团队可以直接抄这份配置清单。

01:06

Epoch AI@EpochAIResearch

我们正在推出领域特定能力评分，使用与通用ECI相同的量表，追踪模型在软件工程和数学基准测试中的能力。我们还支持用户自定义创建ECI变体。链接如下！

推理编码评测/基准

01:06

Nathan Lambert@natolambert

精选76

作者盛赞访问Moonshot AI（月之暗面）的体验极佳。其旗下产品Kimi正以超200亿美元的投后估值完成新一轮约20亿美元融资，由美团龙珠领投。公司在2025年前六个月融资总额超39亿美元，估值较去年11月增长约4倍，成为中国累计融资额最高的AI初创公司。其年度经常性收入在短期内从1亿美元快速增长至超2亿美元，付费订阅和API使用量均在加速。

Manqi Cheng 程曼祺: Just published an exclusive on LatePost. A few highlights: - Kimi (Moonshot AI) is closing a new $2B funding round at a ...

DeepSeek 推理行业动态

推荐理由：月之暗面这轮融资直接把国内AI格局拉到了新高度，AR从三个月1亿跳到2亿美金，加上Nathan Lambert站台，这家公司不再是“中国另一家大模型”了。

01:03

François Chollet@fchollet

衡量智能时只有两个诚实的指标：新颖性和效率。解决已知问题不需要智能（仅需记忆）。通过蛮力解决问题也不需要智能。但要高效解决新颖问题，智能是唯一途径。

大佬观点推理

00:34

The Decoder：AI News（RSS）

Google 通过多令牌预测将 Gemma 4 提速三倍

Google 为其 Gemma 4 开源模型家族发布了多令牌预测模块，可将文本生成速度提升高达三倍。该技术通过一个小型辅助模型一次性预测多个令牌，再由主模型单次检查完成验证，从而显著提高了推理效率。

Google 产品更新推理

00:16

阿绎 AYi@AYi_AInotes

从被轻视到行业颠覆者：苏姿丰带领AMD的八年逆袭

2018年F1中国站，AMD CEO苏姿丰曾遭遇记者带有种族微歧视的提问。八年间，她将公司市值从濒临破产的30亿美元提升至6500亿美元。最新财报显示，其数据中心营收同比暴涨57%，股价大涨。她预判AI Agent的兴起将使CPU与GPU需求比例从1:8转向1:1，这为AMD的混合方案开辟道路，并挑战NVIDIA的垄断。凭借Zen架构与MI300系列，AMD在数据中心市场份额已从近乎为零升至40%，完成了最有力的反击。

AMD: $AMD reports First Quarter 2026 financial results. View non-GAAP financial measures reconciliation & cautionary statemen...

智能体推理现象/趋势

5月6日

23:20

Berryxia.AI@berryxia

一个名为dFlash的GitHub项目宣称，能将Gemma 4模型的推理速度提升至6倍。这一速度提升幅度超过了谷歌官方此前实现的3倍加速，并且据称在实现加速的同时没有损失模型输出的质量。该项目引发了社区关注，被认为展现了民间开发者在模型优化方面的强大能力。

铁锤人: 这个项目能让Gemma 4 推理提速到6倍比谷歌的3倍还快,而且不损失质量 https://github.com/z-lab/dflash

Google 开源/仓库开源生态推理

23:00

Chubby♨️@kimmonismus

Claude Mythos与GPT-5.5能力相近，未现性能飞跃

一篇关于Claude Mythos和GPT-5.5的分析文章指出，两者在网络安全能力上基本持平，GPT-5.5可能更具成本效益。Mythos在部分通用基准和SWE-bench Pro上略微领先，但并未形成显著的能力突破。分析认为Mythos的性能符合既往趋势，并非偏离趋势的巨大飞跃。与此同时，OpenAI近期发布了多项出色产品，这反衬出Claude Mythos为何仍保持高度保密状态。

Matthew Barnett: New post from @natalia__coelho on Mythos. She analyzes its capabilities using publicly reported benchmark results to det...

Anthropic OpenAI 推理编码

22:36

SenseTime@SenseTime_AI

精选71

🚀 SenseNova-U1 更新： ⚡ 开源8步蒸馏LoRA：100 NFE降至8 NFE，H100推理时间从23秒缩短至2秒 🧩 现已支持ComfyUI，提供文生图、图像编辑和交错生成的即用工作流试用链接 👇 https://github.com/OpenSenseNova/SenseNova-U1/

图像生成开源/仓库推理模型发布

推荐理由：从100步到8步，23秒压到2秒，商汤这个蒸馏LoRA把U1的推理成本打下来了，做实时图像应用的可以认真看看，ComfyUI一接就能跑。

22:16

IT之家（RSS）

精选71

豆包大模型家族首款全模态理解模型：字节跳动 Doubao-Seed-2.0-lite 升级

字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解，并能进行跨模态联合推理，在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译，多项基准测试优于Gemini-3.1-Pro。同时，其Agent、Coding与GUI能力升级，能更稳定处理长任务、胜任深度开发，并实现界面理解与操作执行的闭环。新版本已在火山方舟上线，旨在为企业提供高性价比的全模态任务部署方案。

智能体多模态推理模型发布

推荐理由：豆包Seed 2.0 lite把视频、音频、图片、文字原生塞进一个模型，还顺手强化了Agent和GUI操作，对需要全模态处理的企业来说，这可能是目前性价比最高的选择。

22:04

meng shao@shao__meng

Luma发布的Uni-1图像生成模型在提示词与像素生成之间引入了一个显式推理步骤，用于解读创意方向并消除歧义。这一关键推理层现已通过API对外可编程开放，使其不再是黑盒，允许开发者将Uni-1作为智能基础设施集成到生产流程中。主要应用模式包括嵌入产品作为创作引擎、构建自定义多阶段工作流或开发独立工具。API提供的核心能力涵盖基于参考图像的风格或角色约束生成、在模型层面强制保持视觉一致性，以及通过自然语言指令进行精准编辑。

Sumanth: Luma just released Uni-1, an image generation model that reasons first! The shift: image generation models typically wor...

图像生成推理模型发布

21:01

SemiAnalysis@SemiAnalysis_

锡安国家公园峡谷观景台 - MI355x在SGLang上针对DeepSeekv4 Pro的吞吐量自首发日以来已实现每GPU超过10倍的提升。来自@amd和@sgl_project的Hai团队工程师们取得了巨大胜利！@EmadBarsoumPi @AnushElangovan

DeepSeek 推理行业动态

14:16

IT之家（RSS）

苏姿丰称 AMD 已向核心客户送样 MI450 GPU，下半年提高 AI 机架 Helios 出货量

AMD首席执行官苏姿丰在财报会议上宣布，已开始向核心客户送样Instinct MI450 GPU加速卡，并计划在下半年逐步提高Helios AI机架的出货量。客户需求强劲，已超出公司对2027年的内部预期，OpenAI等已签署大规模部署协议。MI450基于CDNA 5架构，其FP8算力较前代翻倍，并升级搭载了HBM4内存。该系列被AMD用来对标英伟达的竞品平台，其内存容量和横向扩展带宽具备优势。

产品更新推理

13:16

IT之家（RSS）

AMD 苏姿丰：智能体 AI 重构算力格局，CPU 与 GPU 配比向 1：1 演进

AMD CEO苏姿丰在财报会议上指出，智能体AI正重塑服务器CPU市场。她表示，AI是增长核心驱动力，云服务商正扩展部署AMD霄龙处理器。智能体AI工作负载需要额外CPU算力进行任务编排和数据移动，这推动了CPU需求的强劲增长。苏姿丰预计，在智能体AI推动下，服务器CPU市场的年复合增长率可能达到35%。她强调CPU需求是对GPU市场的补充，并透露CPU与GPU的配比正从传统的1:4或1:8向1:1演进，在智能体密集场景中CPU数量甚至可能超过GPU。

推理现象/趋势部署/工程

12:30

SemiAnalysis@SemiAnalysis_

过去12年间，cuDNN一直完全闭源（除.h文件外），直到本周！超过20个MoE内核及NSA稀疏注意力内核已从cuDNN开源！感谢@manicely6005及团队其他成员的卓越工作，让我们看到英伟达的部分技术正朝着开放内核的方向迈进！开源内核驱动创新！（1/3） 🧵

开源/仓库开源生态推理

10:31

MiniMax (official)@MiniMax_AI

速度至关重要 🚀 很高兴看到 M2.7 在 SambaCloud 上运行最快 - 现已面向企业版和开发版提供。

SambaNova: MiniMax M2.7 is now running FASTEST on SambaCloud 🚀 Built for coding, OpenClaw, and self-evolving agent workflows. Avai...

智能体产品更新推理

10:20

歸藏(guizang.ai)@op7418

精选79

OpenAI 将 GPT-5.5 Instant 设为 ChatGPT 默认模型

OpenAI 已全量发布 GPT-5.5 Instant 模型，并将其设为 ChatGPT 的默认模型。此次升级显著提升了模型的实时准确性和日常任务处理能力，特别是在法律、金融和医学等领域有效降低了幻觉率。同时，模型在图片理解与文档解析方面表现更佳。其回答风格变得更加简洁、聚焦要点，并增强了清晰度、个性化以及温暖自然的语调。此外，GPT 引入了记忆来源功能，允许用户可视化查看并编辑记忆的来源。本次更新未包含 Codex 模型。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI 推理模型发布

推荐理由：GPT-5.5 Instant 成为默认模型，解决的是日常最痛的啰嗦和幻觉，记忆来源可视化也把黑盒变透明了，对普通用户是实实在在的提升。

09:34

karminski-牙医@karminski3

Google发布Gemma 4草稿专用模型，推理速度提升三倍

Google发布了Gemma 4系列模型的专用草稿模型，用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍，仅增加1G显存开销；Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB，专门优化后接受率高，相比之前使用非专用草稿模型（如gemma-4-E2B-it-UD-Q4_K_XL）提速更明显。作者呼吁Qwen尽快推出类似优化模型（如Qwen3.6-27B-assistant），以应对高性能需求。

Google 推理模型发布

09:01

MiniMax (official)@MiniMax_AI

MiniMax-M2.7模型已在六家推理服务提供商上线，性能与价格呈现明显差异。SambaNovaAI以每秒435个输出令牌的速度领先，是次快的FireworksAI_HQ（127令牌/秒）的3.4倍。在定价上，FireworksAI_HQ等四家提供商与官方API持平，而SambaNova价格高出约2倍。Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿。各提供商缓存折扣策略不同，部分提供80%折扣，这影响了缓存密集型工作负载的成本。最优选择取决于具体需求：SambaNova更适合延迟敏感型应用，而Fireworks则适用于对延迟不敏感的大规模任务。

Artificial Analysis: MiniMax-M2.7 is now available across six inference providers on Artificial Analysis, with significant differentiation in...

推理行业动态

08:17

Berryxia.AI@berryxia

Gemma 4借助MTP草稿机实现3倍速推理

Google通过为Gemma 4引入MTP drafters（多token预测草稿机），在不增加参数、不改变架构和模型质量的前提下，实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token，突破了传统自回归解码的串行瓶颈，极大提升了GPU利用率。这显著增强了本地部署的实时性，并使Agent、代码生成等场景受益，进一步放大了开源模型在性价比和本地运行方面的优势。

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google 开源生态推理模型发布

08:17

Berryxia.AI@berryxia

O社的 GPT-5.5 Instant 开始在 ChatGPT 中推出。这是一个重大升级，让你获得更智能、更清晰、更个性化的回答，语气更温暖、更自然。

OpenAI 推理模型发布

08:17

Berryxia.AI@berryxia

精选75

Google Gemma 4凭MTP实现3倍加速，vLLM零延迟提供支持

Google发布Gemma 4模型，采用创新的MTP drafters技术，实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token，突破传统自回归生成的串行瓶颈，极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持，用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性，使Agent、代码生成等场景受益，进一步放大开源模型在性价比和本地化运行方面的优势。

Berryxia.AI: Gemma 4 现在最高能跑到 3倍速度,而且质量完全不变。他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草稿机),让模型一次预测多个 token,彻底绕过了传统 autoregressiv...

Google 推理教程/实践

推荐理由：Google的MTP技术让Gemma 4提速3倍，vLLM当天就支持了，做本地Agent和实时应用的开发者现在一条Docker命令就能跑，开源模型性价比优势又拉大一截。

08:15

IT之家（RSS）

OpenAI ChatGPT 默认 AI 模型升至 GPT-5.5 Instant：幻觉最高减少 52.5%、回复更简洁

OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant，重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域，幻觉声明较前代减少52.5%；在用户标记的事实错误测试中，不准确声明降低37.3%。回复内容更简洁，减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新，付费用户可继续使用GPT-5.3 Instant三个月。

OpenAI 推理模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

RemoteZero：无需人工标注的地理空间推理

地理空间推理模型通常依赖人工标注的边界框坐标进行监督，这限制了其在海量无标注遥感数据上的自我进化。为此，研究团队提出RemoteZero框架，它利用多模态大语言模型在判别区域语义方面的优势，以内在语义验证取代几何坐标监督，从而实现了无需边界框标注的训练。该框架支持迭代式自我进化，模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明，RemoteZero在定位任务上取得了与强监督方法相竞争的性能，展现了自验证训练在地理空间推理领域的潜力。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

零样本逻辑规则归纳的基础模型

研究团队提出神经规则归纳器（NRI），一种用于零样本规则归纳的预训练模型。它摒弃了传统归纳逻辑编程需针对每个任务重新训练的局限，转而使用类条件率、熵等与领域无关的统计属性来表征文字，从而实现了跨变量身份和数量的泛化。模型包含统计编码器和平行槽式解码器，后者保持了逻辑析取的排列不变性。通过乘积T-范数松弛实现规则的可微分执行，支持仅基于预测准确性的端到端训练。评估表明，NRI在规则恢复、对噪声和虚假相关性的鲁棒性，以及在真实世界基准上的零样本迁移方面表现良好，为符号推理的基础模型开辟了新可能。

arXiv 推理论文/研究

07:27

Chubby♨️@kimmonismus

精选76

OpenAI加速开发AI智能体手机，瞄准2027年量产

据报道，OpenAI正加速其首款AI智能体手机的开发，目标在2027年上半年量产。此举可能旨在强化其年底IPO的叙事，并将自身定位拓展至消费硬件平台。联发科有望成为独家处理器供应商，提供基于台积电N2P制程定制的天玑9600。关键硬件规格包括增强HDR管线的图像信号处理器，以提升AI视觉感知能力，以及双NPU架构、LPDDR6与UFS 5.0等。若按计划推进，2027至2028年总出货量可能达到约3000万台。

郭明錤|Ming-Chi Kuo: [Industry Check Update]OpenAI appears to be fast-tracking its first AI agent phone, with mass production targeted as ear...

OpenAI 推理端侧行业动态

推荐理由：OpenAI 开始认真做手机了，而且冲着 IPO 去，这不是一个模型公司的副业，而是把自己变成消费硬件平台的关键一步，所有做 AI 硬件的都得重新看牌桌。

06:28

Rohan Paul@rohanpaul_ai

OpenAI将GPT-5.5 Instant设为ChatGPT默认模型，减少错误、缩短回答并增强个性化

OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%，在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁，用词和行数减少约30%。同时，模型增强了图像和STEM处理能力，并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示，此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI 多模态推理模型发布

05:31

Hacker News 热门（buzzing.cc 中文翻译）

加速 Gemma 4：利用多令牌预测生成器实现更快的推理

Google为Gemma 4模型引入了多令牌预测生成器技术，显著提升了推理速度。该技术允许模型在单次前向传递中预测多个未来令牌，而非传统的逐个令牌生成。在代码生成等任务中，这一方法实现了高达3倍的推理加速，同时保持了输出质量。这项优化旨在降低大语言模型的部署成本，提高响应效率，适用于需要快速生成较长文本的场景。

Google 推理教程/实践

03:57

Rohan Paul@rohanpaul_ai

GPT-5.5 与 Opus 4.7 在 ARC-AGI-3 上的得分低于 1%

Anthropic OpenAI 推理评测/基准

03:57

Elon Musk@elonmusk

精选83

Grok 4.3 【引用 @xai】：Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。它在 @ArtificialAnlys 排行榜的智能体工具调用和指令遵循方面位居榜首，并在 @ValsAI 的企业领域（如案例法和公司金融）中排名第一。 Grok 4.3 支持 100 万 token 的上下文窗口，定价为输入每百万 token 1.25 美元，输出每百万 token 2.50 美元。创建 API 密钥并开始构建：http://console.x.ai/team/default/api-keys

xAI: Grok 4.3 is now live on the xAI API. It's our fastest, most intelligent model to date. It tops the @ArtificialAnlys lead...

智能体 xAI 推理模型发布

推荐理由：Grok 4.3 把 agentic tool calling 和指令遵循两个榜单压在脚下，百万上下文配上亲民价格，对做自动化 agent 的团队是个够分量的信号。

03:32

TestingCatalog News 🗞@testingcatalog

Google为Gemma 4系列发布了多令牌预测（MTP）草稿模型。它在不损失性能的情况下带来了3倍的速度提升。期待在Mac Mini上测试带有MTP草稿模型的量化版Gemma 4！

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google 推理模型发布

02:57

Artificial Analysis@ArtificialAnlys

MiniMax-M2.7模型在六大推理服务商上线，速度与价格差异显著

MiniMax-M2.7模型已在六家推理服务商上线，各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先，比其他提供商快3倍以上，但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出，Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿：前者性价比高，后者则以高价换取极致速度。此外，各家的高速缓存折扣政策不同，这对缓存密集型工作负载的成本影响显著。因此，最优选择高度依赖于具体工作负载对延迟和成本的敏感度。

推理评测/基准部署/工程