5月27日

00:15

公众号：小米 MiMo

MiMo-V2.5 系列 API 永久降价，新定价最高降幅达 99%，不再区分上下文窗口长度，于北京时间 5 月 27 日 0 点生效。Token Plan 计费优化，用量提升至原来 5-8 倍，计费规则更清晰。百万亿 Token 创造者激励计划提前收官，100T Tokens 已全部发放。现有 Token Plan 用户额度于 5 月 27 日 0 点全量重置，按新规则执行。推理优化基于 SGLang HiCache 支持 SWA，KV Cache 搬运量降至近 1/7，可缓存 token 数量提升至近 5 倍。

产品更新推理部署/工程

5月26日

23:49

Nathan Lambert：Interconnects（RSS）

精选67

未来展望：2026年5月的一些想法

文章展望了截至2026年5月AI领域的动态。内容涉及 Gemini Flash 3.5 的发布、名为 Mythos 的新产品或项目、开源与闭源生态平衡（open-closed balance）的讨论、美国开源力量的显著增长（America's open-source surge），以及由此引发的新兴权力博弈（emerging power struggles）。

Anthropic Google 大佬观点开源生态

推荐理由：Nathan Lambert 对开源模型追赶闭源的周期判断、Gemini 在编码代理领域的缺位分析，以及美国开源模型崛起的观察，为理解当前鼎立格局提供了扎实的坐标，值得从业者细读。

11:35

公众号：面壁智能（MiniCPM）

面壁智能联合清华大学、OpenBMB发布端侧文本基座模型MiniCPM5-1B

面壁智能联合清华大学、OpenBMB开源社区发布并开源MiniCPM5-1B，一款1B参数的端侧文本基座大模型。其在AA-Index榜单得分17.9分，超越所有2B以下参数模型，包括Qwen3.5-2B（16.3分），验证了智能密度约每3.5个月翻一番的密度定律。INT4量化后权重仅0.5GB，可运行于手机、浏览器等终端。Base Model由AI训练框架ForgeTrain（全球首个完全由AI编写，训练速度比Megatron快10%）在华为昇腾上预训练完成。模型全面开源权重、训练数据集Ultra-FineWeb-L3及部署方案，支持Llama_factory、SGLang、vLLM等主流框架。

Hugging Face 开源生态推理模型发布

5月25日

11:35

公众号：面壁智能（MiniCPM）

面壁智能联合清华开源中国首个基于昇腾训练的1.58-bit端侧大模型 BitCPM-CANN

面壁智能联合清华大学正式开源中国首个基于昇腾训练的1.58-bit端侧大模型BitCPM-CANN，实现6倍显存效率提升，可将60B参数大模型封装进手机等端侧设备。

推理模型发布端侧

5月24日

12:00

公众号：腾讯混元

清华联合腾讯混元在MLSys 2026 MoE推理优化竞赛中夺冠，NPU推理提速4.1倍

在MLSys 2026 MoE模型推理优化竞赛中，清华联合腾讯混元获得冠军。针对MoE架构在异构芯片（NPU）上面临的推理性能挑战，其提出的优化方案在NPU上实现4.1倍推理速度提升。

推理论文/研究部署/工程

5月23日

08:16

Hugging Face：Blog（RSS）

精选63

NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

NVIDIA 发布 Nemotron-Labs Diffusion 系列，含 3B、8B、14B 文本模型和 8B 视觉-语言模型（VLM），均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散（逐块并行生成后逐步精炼）和自推测（扩散草拟候选 token 再自回归验证）三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%，扩散模式每次前向传递的 token 数（TPF）达自回归的 2.6 倍，自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调，代码与模型已发布于 HuggingFace 和 GitHub，推理将获 SGLang 支持。

多模态推理模型发布

推荐理由：自推测模式让文本生成速度飙到AR模型的4倍，而且输出质量无损。NVIDIA这次开源的不仅是个新模型，更是一套能直接用在现有流程里的加速方案。

00:30

Dwarkesh Patel：Podcast & Blog（RSS）

Reiner Pope - 从底层构建芯片设计

Reiner Pope 讲解了芯片设计如何从最基础的逻辑门开始，逐步构建并解释了GPU、TPU、FPGA以及人脑这几种计算架构在形态与功能上存在差异的根本原因。内容以自下而上的视角，剖析不同硬件的设计逻辑与演化路径。

推理教程/实践部署/工程

5月22日

09:41

公众号：智谱（GLM）

同事件精选63

智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版，推理速度达400 tokens/s，在顶尖模型中生成速度最快。

推理模型发布部署/工程

同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

推荐理由：智谱把GLM-5.1做到了400 tokens/s，虽然发布已半个月，但这是国产模型在推理速度上的新标杆，做实时应用的可以看看。

02:00

Gary Marcus：The Road to AI We Can Trust（RSS）

精选62

核算OpenAI和Anthropic最新动态背后的数学

OpenAI与Anthropic近期相继发布重要产品更新。Claude 3.5 Sonnet在多项基准测试中超越GPT-4o，同时宣布API价格下调50%。Anthropic披露其模型训练成本年均增长约3.2倍，而OpenAI被曝已通过企业服务实现单季度超10亿美元营收。两家公司在技术突破与商业化竞赛中，正通过精密的成本核算与性能权衡重塑行业格局。

Anthropic OpenAI 大佬观点推理

推荐理由：Gary Marcus觉得OpenAI的数学奇迹更可能是模型营销，Anthropic的盈利全靠SpaceX折扣，提醒你别急着下结论，AI的现实没那么简单。

5月21日

10:30

公众号：智谱（GLM）

下一代大模型推理网络架构：ZCube如何有效破解网络瓶颈？

智谱（GLM）提出ZCube，这是一种专为下一代大模型设计的推理网络架构，目标在于有效破解大规模模型推理时面临的网络瓶颈问题。

推理教程/实践部署/工程

06:44

智谱：研究（网页内嵌数据）

精选69

ZCube：超大规模大模型推理的网络优化

针对超大规模大模型推理，ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计，有效解决了推理网络的拥塞问题。该架构在集群实测中，实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%，同时将首token延迟的P99值大幅降低40.6%，在降低成本的同时显著提升了推理性能。

推理论文/研究部署/工程

关联讨论 1 条

推荐理由：千卡以上推理集群的团队该看一眼，智谱这个网络设计砍掉三分之一交换机成本，吞吐还涨15%，尾时延降四成，有实测数据不是白皮书。

03:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选88

OpenAI模型证伪了离散几何中的一个核心猜想

OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”，并由此推翻了离散几何领域的一个核心猜想。这一突破被视作人工智能驱动数学研究的里程碑事件，标志着AI在基础科学理论探索中取得了实质性进展。该模型通过创新算法处理复杂的几何问题，展示了机器在自动化发现与验证数学猜想方面的巨大潜力。

OpenAI 推理论文/研究

关联讨论 14 条

推荐理由：数学界等了80年的猜想被AI自己证伪了，而且用的是代数数论这种“跨界”手法，这个里程碑说明AI的创造性推理已经进入前沿研究。虽然实战还用不上，但作为能力信号，值得每个关心AI前沿的人看。

5月20日

20:00

OpenRouter：Announcements（RSS）

一个机器人正朝你奔来：你希望它运行在Claude还是Grok上？

一场涵盖11个大语言模型的30轮大逃杀式评测，花费482美元推理成本，得出了一个应改变读者阅读模型基准方式的关键发现。

推理评测/基准

10:49

Qwen：Blog Retrieval（API）

精选79

Qwen3.7-Max：面向智能体时代的最新专有模型

通义千问发布 Qwen3.7-Max，专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力，通过 MCP 和多智能体编排实现办公自动化，能自主执行超 1000 步工具调用（如 35 小时全自主内核优化）。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型：Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。

智能体推理模型发布编码

关联讨论 8 条

推荐理由：Qwen3.7-Max 把 agent 能力拉到了新高度，35 小时自主内核优化证明长程执行有真实生产力，做 coding agent 的团队该认真测一下。

07:33

Anthropic：Newsroom（网页）

精选65

拓宽关于前沿AI的对话

Anthropic为构建负责任的先进AI，正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者，旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受“外部良知”概念启发，团队开发并测试了伦理承诺提醒工具，初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域，以共同应对AI对社会结构的重塑。

Anthropic 安全/对齐推理

推荐理由：Anthropic在做一件少见的事——请神学家和哲学家帮忙塑造Claude的‘性格’，初步实验发现让模型在决策前暂停反思能降低偏差，做AI对齐的值得读一下。

02:18

Google Blog：AI（RSS）

精选83

Gemini 3.5：前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合，旨在提供更强的综合性能。作为 Google 最新推出的模型，它代表了其在大模型技术上的最新进展。

智能体 Google 多模态推理

推荐理由：Google 在 I/O 上甩出 Gemini 3.5，这次不只拼多模态，更强调‘行动’，是所有做 Agent 的团队必须对标的新基座。

5月17日

03:54

Dwarkesh Patel：Podcast & Blog（RSS）

RLVR 可能在科学领域格外糟糕

RLVR（强化学习与验证）在科学理论验证中可能表现出不成比例的缺陷。科学理论的验证循环周期长达数十年甚至数个世纪，且当前被视为更优的理论实际上常会做出更差的预测。这一矛盾揭示了基于短期反馈的强化学习范式与科学探索长期性、复杂性之间的根本冲突，凸显了现有AI方法在应对科学发现这类超长反馈周期任务时存在的结构性局限。

大佬观点推理

5月16日

03:19

Tomer Tunguz 博客（VC 分析）

精选72

推理的一阶导数：AI浪潮下的增长逻辑

AI推理是当今规模最大、增长最快的技术市场，预计七年内将达到2500亿美元。直接销售或转售推理服务的公司增长迅猛，如Anthropic和谷歌云。在AI时代前的软件公司中，Datadog和Twilio作为“推理的一阶导数”脱颖而出：Datadog的LLM可观测产品数据量近一季增长近两倍，其约20%的AI客户贡献了约80%的年度经常性收入；Twilio则通过AI重构的语音服务吸引客户。当前周期呈现高度集中特点，少数客户能驱动巨大收益。对于非AI原生公司，核心战略在于如何转售推理服务或从其客户的大量采购中获益。

大佬观点推理现象/趋势

推荐理由：Tomer 用「推理的第一导数」这个框架讲透了一件事，Twilio 和 Datadog 的暴涨不是偶然，而是买推理的衍生需求，pre-AI 公司想活就得问自己怎么沾上推理的光。

00:54

Dwarkesh Patel：Podcast & Blog（RSS）

精选55

Eric Jang - 从零开始构建 AlphaGo

文章以AlphaGo为例，阐述了智能的基本构成要素。AlphaGo至今仍是最清晰、最完整的范例，它融合了三大核心基础：搜索技术、从经验中学习以及自我对弈。这三大要素共同构成了其实现超越人类棋艺的关键路径。

DeepMind 大佬观点推理

推荐理由：Eric Jang 把 AlphaGo 的搜索、自对弈和价值网络拆解得非常通透，用现代工具复现让这个经典思路对今天的 RL 和自动研究都有直接启发，做 LLM 后训练的尤其该听听他对信用分配问题的解释。

5月15日

09:00

公众号：蚂蚁百灵（Ling）

Ring-2.6-1T 正式开源：为真实复杂任务打造的万亿级思考模型

Ring-2.6-1T 正式开源，这是为真实复杂任务打造的万亿级思考模型，Agent 执行能力全面增强，采用双档推理配置，兼顾效率、成本与能力上限。

开源生态推理模型发布

03:18

Tomer Tunguz 博客（VC 分析）

精选65

AI电子邮件的成本分析

使用顶尖AI模型处理邮件的月度成本约为22至130美元，中位数26美元。若软件公司以75%毛利率定价，年费可能高达350美元，加上托管服务后标价或达500美元，约为Google企业邮箱费用的两倍。采用小型模型可降低成本10至20倍，而通过本地运行利用用户GPU，更能将成本削减至接近零。结合基础启发式方法和技术优化，总成本有望降低100倍。这种针对不同工作负载匹配模型并进行成本分层的推理市场细分，将是未来一两年AI软件发展的关键。

推理现象/趋势部署/工程

推荐理由：Tunguz 给 AI 邮件算了一笔账，SOTA 模型月费 22-130 美元，但他更重要的判断是推理分割可以把成本压到百分之一，这对做 AI 软件的定价逻辑是个关键风向。

5月14日

23:31

蚂蚁 inclusionAI：HuggingFace 新模型

精选59

蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T，参数规模达万亿，面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”，在多步任务与工具协作中表现更优；支持 high/xhigh 两档推理强度，可灵活平衡效果与成本；采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中，high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32；xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K（YaRN），已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布

关联讨论 4 条

推荐理由：蚂蚁放出的万亿参数推理模型，Agent执行能力在PinchBench上超GPT-5.4，异步RL训练和可调推理强度对工程落地有参考价值，开源可试。

22:45

Hugging Face：Blog（RSS）

精选59

解锁连续批处理中的异步性

在连续批处理中，同步方式导致CPU与GPU交替工作，造成闲置浪费。测试显示，使用8B模型生成8K令牌时，GPU有24%的时间处于空闲状态。异步批处理通过分离工作负载，让CPU准备下一批次（N+1）的同时，GPU计算当前批次（N），从而消除闲置间隙。这可通过CUDA流实现操作并发，无需更改内核或模型，仅需协调硬件执行顺序。理论上，该方法可将总生成时间从300.6秒减少至228秒，实现24%的免费加速。相关技术已集成到transformers库的连续批处理中，显著提升推理性能。

Hugging Face 推理教程/实践部署/工程

推荐理由：文章手把手拆解了异步批处理如何用CUDA流和事件消除CPU与GPU的互相等待，把推理吞吐提升22%，搞推理优化的工程师值得细读。

19:58

公众号：龙猫LongCat（美团）

美团 LongCat 开源 General 365：树立推理评测新标尺

开源/仓库推理评测/基准

04:42

Berkeley RDI：Blog（AI 安全与评测）

同事件精选79

ExploitGym：AI智能体能否将安全漏洞转化为真实攻击？

由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队，发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞，要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示，前沿AI模型已能成功利用相当数量的漏洞，即使在启用ASLR等标准防御措施后，部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力，该技术具有双重用途：既可帮助防御者评估漏洞严重性，也可能降低攻击者的技术门槛。

智能体 Anthropic OpenAI 安全/对齐

同一事件，精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》

推荐理由：顶级 AI 模型已能自己把已知软件漏洞变成可运行攻击代码，连 ASLR 等标准防御都挡不住部分攻击，研究更发现模型会主动寻找更危险的意外漏洞。安全行业不能再把这当成假设性问题了。

5月12日

03:18

Tomer Tunguz 博客（VC 分析）

精选67

本地模型处理半数日常任务，响应速度优于云端

一项为期五周的实验发现，在总计约1400项日常工作任务中，约50%可由本地35B参数模型（如Qwen 3.6 35B）成功处理，涵盖邮件、日程、总结和行政事务等类别。性能对比显示，本地模型在常规代理任务上的平均响应时间为2.8秒，比云端Claude Opus 4.5快2.1倍，尽管后者在复杂推理上仍领先约20%。本地模型输出更简洁，云端模型则在结构和代码规范性上更优。随着本地模型性能提升，将计算负载转向本地以应对云端成本已成为必然趋势。

大佬观点推理端侧

推荐理由：Tunguz用数据告诉你，本地35B模型延迟只有Opus的一半且能完成半数任务，对极致追求响应速度的产品思路冲击很大，本地优先可能会从边缘变成主流。

5月9日

09:00

公众号：蚂蚁百灵（Ling）

Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型，引入可调节的 Reasoning Effort 机制，支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流，xhigh 面向数学、科研等复杂任务。评测中，high 模式 PinchBench 得分 87.60，Tau2-Bench Telecom 95.32；xhigh 模式 ARC-AGI-V2 得分 77.78，AIME 26 得分 95.83，GPQA Diamond 88.27。模型已上线 OpenRouter，近期将开源。

智能体推理模型发布

01:27

BAIR：Berkeley AI Research Blog

精选64

自适应并行推理：高效推理扩展的新范式

自适应并行推理是一种新范式，它让大语言模型能够自主决定何时分解任务、并行处理多少子任务以及如何协调结果，以应对序列推理中因探索路径增长而导致的延迟增加和“上下文腐化”问题。近期研究如ThreadWeaver和Multiverse通过动态控制并行线程，在数学与代码推理基准上取得了显著性能提升，同时大幅降低了延迟。这标志着从固定并行策略到自适应智能控制的转变，为复杂任务的推理提供了高效且可扩展的解决方案。

推理现象/趋势部署/工程

推荐理由：模型自己决定何时并行、开几个线程，这篇BAIR博客把Multiverse和ThreadWeaver的系统设计掰开了讲，做推理系统和RL的同学应该看看。

5月8日

02:30

OpenAI：Alignment 研究博客（RSS）

精选72

研究强化学习中意外对思维链（CoT）评分的影响

研究发现，部分已发布的模型存在有限的意外对思维链（CoT）进行评分的情况。团队已修复受影响的奖励通路，并确认没有明确证据表明模型的可监控性因此下降。这表明当前强化学习训练中对CoT的意外评分影响有限，且修复后未对监控能力产生负面影响。

OpenAI 安全/对齐推理论文/研究

推荐理由：OpenAI 对齐团队发现部分模型 CoT 意外被奖励信号污染，已修复且确认没有引发监控降级。这件事不大，但对研究 RLHF 可扩展监督的人来说值得一瞥，提醒奖励模型工程比想象中更易出错。

5月7日

15:00

公众号：昆仑万维（天工）

口袋里的AI专家：Opera安卓浏览器深度思考功能全面升级

Opera安卓浏览器对其深度思考功能进行了全面升级，该功能旨在为移动端用户提供AI驱动的智能辅助体验。此次升级的具体技术细节与版本号尚未披露。

产品更新推理

08:30

Apple Machine Learning Research（RSS）

精选64

SpecMD：关于推测性专家预取的综合研究

研究团队开发了SpecMD，这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型，这类模型虽然实现了稀疏专家激活，但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略，但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白，系统性地评估缓存策略的交互影响与硬件适配性。

推理论文/研究部署/工程

推荐理由：MoE推理的缓存策略一直靠经验摸，Apple给的标准化框架能系统比较不同策略，做分布式推理的可以省些心力。

06:30

Apple Machine Learning Research（RSS）

精选73

从位置认知到功能理解：为多模态大语言模型设立空间功能智能基准

现有基准如VSI-Bench主要评估基础几何感知能力，但未能触及具身智能所需的高阶认知。为此，研究团队推出了空间功能智能基准SFI-Bench，该基准包含超过1700个问题，数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力，标志着对智能体空间认知的评估从几何层面迈向功能层面。

多模态推理论文/研究

推荐理由：Apple 自己搞的 SFI-Bench 把评估从几何定位推进到功能理解，这个方向很对，做具身智能和空间推理的团队该跟一下。

03:22

Hugging Face：Blog（RSS）

精选65

vLLM V0 到 V1：在线强化学习中优先确保后端行为正确性

为确保 vLLM 从 0.8.5 到 0.18.1 的重大重写后，在线强化学习训练结果与 V0 参考运行一致，团队优先修复后端行为而非调整 RL 目标。关键修复包括：将日志概率模式设为 processed_logprobs 以匹配采样器分布；禁用 V1 特有的前缀缓存和异步调度等运行时默认值；调整权重更新路径以匹配 V0 的缓存保留行为；并确保 rollout 后端使用 fp32 精度的 lm_head 进行最终投影。这些措施消除了策略比率均值偏差，使 V1 在 KL 散度、熵等指标上与 V0 达成一致。

Hugging Face 推理教程/实践部署/工程

推荐理由：vLLM V1迁移时踩的四个坑全在这里，从logprob语义到fp32投影头，修完才调RL目标，做在线RL的团队可以直接抄这份配置清单。

5月6日

01:12

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选82

GPT-5.5 Instant：更智能、更清晰、更个性化

ChatGPT的默认模型已更新为GPT-5.5 Instant。新版模型能提供更智能、更准确的答案，并有效减少了幻觉现象。同时，用户获得了更强的个性化控制能力，使交互体验更贴合个人需求。此次升级标志着模型在理解精度与响应定制化方面取得了显著进步。

OpenAI 推理模型发布

推荐理由：ChatGPT默认模型替换为GPT-5.5 Instant，不只是变聪明，幻觉减少和个性化控制才是真改进，每个用户都能马上感觉到不同。

5月5日

23:03

Runway：News（网页）

精选55

60倍速冷启动：将同级GPU视为权重服务器

Runway平台团队开发的NCCLBack系统，通过P2P权重传输将模型冷启动时间从数分钟缩短至数秒。其核心创新在于让新启动的GPU推理节点直接从集群内已加载权重的同级GPU获取模型参数，而非从云存储重复下载。该系统利用GPU互连（如InfiniBand、NVLink）高达200-400 Gbps的带宽，相比传统存储下载的2-10 Gbps实现了数量级提升。通过Redis协调与NCCL广播原语，NCCLBack确保了数据传输的效率和正确性，使得大规模集群部署新模型时，冷启动时间不随节点数量线性增长，基本保持恒定。

推理教程/实践部署/工程

推荐理由：Runway 工程师把 GPU 冷启动从分钟压到秒级，原理是让已加载权重的 GPU 直接「喂」给新同伴，而不是各自从存储下载。做大规模推理部署的团队值得细读。

07:30

Apple Machine Learning Research（RSS）

精选66

PORTool：基于奖励树和重要性感知的策略优化方法，用于多工具集成推理

研究团队提出PORTool算法，以解决多工具集成推理中仅依靠结果奖励导致的信用分配模糊问题。该方法通过重要性感知策略优化，在结果级监督下强化智能体的工具使用能力，同时实现步骤级奖励分配。PORTool生成奖励树来明确关键决策步骤，从而更精确地引导模型学习有效的工具调用序列，提升复杂任务解决的效率和可靠性。

智能体推理论文/研究

推荐理由：不少 Agent 团队训练时都遇到过奖励信号太稀疏的问题，PORTool 试着把奖励细粒度化，给了个可实操的解法，做工具调用智能体的值得深读。

00:54

Google Developers Blog（RSS）

精选66

在谷歌TPU上实现3倍加速：UCSD利用扩散式推测解码优化LLM推理

加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash，一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈，通过单次前向传播并行“绘制”整个候选令牌块，而非逐个预测。系统平均实现了3.13倍的推理加速，峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统，通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测，显著优化了TPU硬件的利用效率。

Google 开源生态推理论文/研究

关联讨论 1 条

推荐理由：把扩散式的 speculative decoding 在 TPU 上跑出了 3 倍推理加速，峰值快到 EAGLE-3 的两倍，还直接集成了 vLLM，做推理优化的赶紧试一下。

00:11

Tomer Tunguz 博客（VC 分析）

精选63

每日仅需8条广告，广告支持型AI的经济可行性分析

基于开源模型和商用GPU的广告支持型AI在经济上可行。计算表明，一个由4块B200 GPU组成的集群服务300名用户时，每小时成本约18美元。通过广告收入即可覆盖成本：在内容网络中每3分钟展示一条广告（CPM 3.12美元），或在搜索广告中每39分钟展示一条（CPM 38.40美元），这一广告频率已与常见的移动和网页应用相当。对于代码代理等高强度任务，可采用混合盈利模式：用户每月支付10美元订阅费并每日观看8条广告，即可支持约200万token的用量，这证明了该模式的实用性。

开源生态推理现象/趋势

推荐理由：Tunguz 用一页纸的算账说清了广告支持 AI 的经济账，一天看 8 条广告就能换两百万 token，这对做免费 AI 产品的团队是个真正有说服力的模型。

5月4日

08:00

OpenRouter：Announcements（RSS）

GPT-5.5 涨价：实际成本如何

OpenAI 将 GPT-5.5 的每 token 价格翻倍，但模型输出更简洁。实际使用测量显示净成本影响取决于用户场景。

OpenAI 推理行业动态

5月1日

14:09

公众号：腾讯混元

腾讯混元发布CL-Bench Life，精准衡量模型在现实生活中的 "上下文学习" 能力

推理论文/研究