5月6日

02:02

Yuchen Jin@Yuchenj_UW

一切都是技能-md问题。

大佬观点推理

02:00

宝玉@dotey

精选75

Google为Gemma 4发布MTP草稿模型，推理速度最高提升3倍

Google为其开源模型Gemma 4推出MTP drafter（多token预测草稿模型），采用推测解码技术，能在保持输出质量不变的前提下，将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token，再由大模型并行验证，从而显著提高吞吐效率，尤其有利于缓解本地部署时的内存带宽瓶颈。例如，在Apple Silicon上运行26B MoE模型时，批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议，权重已开源，并获主流推理框架支持。

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google 开源生态推理模型发布

推荐理由：Gemma 4 的 MTP drafter 不是噱头，在 Apple Silicon 上实测能翻倍，且完全无损，本地跑开源模型的可以直接上，权重和框架都备好了。

02:00

宝玉@dotey

精选77

OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant

OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant，替换原有的 GPT-5.3 Instant，并向所有用户推送。新模型显著减少了事实幻觉，在医疗、法律等高风险领域的错误率大幅降低，并在多项基准测试中性能提升。回答风格更为简洁，减少冗余内容。同时增强了记忆功能，能主动利用用户历史聊天记录等数据提供个性化回答，并上线“记忆来源”功能供用户管理引用。免费用户即可使用新版模型，付费用户可保留旧版三个月。个性化记忆功能将逐步向各版本用户开放。

ChatGPT: GPT-5.5 Instant is starting to roll out to everyone in ChatGPT. Much more concise. Better memory. More personalized. And...

OpenAI 产品更新推理

推荐理由：默认模型直接换到 GPT-5.5 Instant，幻觉砍半、回答更简洁，还开始主动用你的聊天记录，日常对话的体验会有明显提升，值得看看具体变了什么。

01:27

AK@_akhaliq

MolmoAct2 面向现实世界部署的行动推理模型论文： https://huggingface.co/papers/2605.02881

智能体推理论文/研究

01:27

AK@_akhaliq

从上下文到技能语言模型能否巧妙地通过上下文学习？论文：https://huggingface.co/papers/2604.27660

arXiv 推理论文/研究

01:26

Chubby♨️@kimmonismus

精选83

OpenAI推出GPT-5.5 Instant作为ChatGPT新默认模型，实现显著升级

OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型，该模型在基准测试中表现大幅提升，变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能，能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文，并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出，个性化改进优先面向网页版Plus和Pro用户，移动版随后跟进；API版本为gpt-5.5-chat-latest。官方表示，升级后的模型能提供更智能、清晰、个性化的答案，语气温暖自然且更简洁。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI 多模态推理模型发布

推荐理由：ChatGPT默认模型直接换到GPT-5.5 Instant，个性化能力是代际跃迁，明天打开就能感受到不同。

01:12

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选82

GPT-5.5 Instant：更智能、更清晰、更个性化

ChatGPT的默认模型已更新为GPT-5.5 Instant。新版模型能提供更智能、更准确的答案，并有效减少了幻觉现象。同时，用户获得了更强的个性化控制能力，使交互体验更贴合个人需求。此次升级标志着模型在理解精度与响应定制化方面取得了显著进步。

OpenAI 推理模型发布

推荐理由：ChatGPT默认模型替换为GPT-5.5 Instant，不只是变聪明，幻觉减少和个性化控制才是真改进，每个用户都能马上感觉到不同。

00:58

xAI@xai

精选80

Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首，并在 @ValsAI 的企业领域（如判例法和公司金融）中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口，定价为输入每百万令牌 1.25 美元，输出每百万令牌 2.50 美元。创建 API 密钥并开始构建：http://console.x.ai/team/default/api-keys

智能体 xAI 推理模型发布

推荐理由：Grok 4.3 登顶 agentic tool calling 榜，定价有竞争力，做 agent 的值得认真看。虽然不算顶级发布，但 xAI 靠性能价格组合可能抢下不少性价比敏感开发者。

00:56

Rohan Paul@rohanpaul_ai

SubQ首发：1200万token上下文窗口，成本降低95%以上

SubQ模型发布，这是首个基于完全次二次稀疏注意力架构（SSA）的前沿LLM，拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍，成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制，通过稀疏注意力选择性聚焦重要关系，使长上下文处理的计算量减少近1000倍，显著改变了LLM的成本曲线和扩展方式。

Alexander Whedon: Introducing SubQ - a major breakthrough in LLM intelligence. It is the first model built on a fully sub-quadratic sparse...

推理模型发布

5月5日

23:25

elvis@omarsar0

智能体性能核心：将并行推理与审议内化为可训练技能

研究指出，驱动智能体性能的关键并非外部编排框架，而是一项核心内在技能：并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程，并通过强化学习与价值回归（RLVR）将其训练为可学习的模型内在能力。实验表明，该方法能显著提升模型性能：例如，GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%；R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明，当此类核心技能能被内化至模型中时，框架优势将转化为模型自身优势，长远来看，模型应原生具备此类能力。

智能体推理论文/研究

23:25

Deedy@deedydas

SWE-Bench 的创建者刚刚发布了一个非常简单的新基准测试，所有 LLM 都得 0 分。 ProgramBench 提出的问题是：模型能否在没有互联网的情况下从零开始重建真实可执行程序（ffmpeg、SQLite、ripgrep）？我们在模型质量上还远未饱和。

推理编码评测/基准

23:14

Berryxia.AI@berryxia

PageIndex颠覆传统RAG，以推理优先实现范式转变

PageIndex提出一种全新的RAG方法，摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引，让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率，超越了所有传统向量RAG方案，并且完全开源。这标志着一个范式级的转变：从“检索优先”转向“推理优先”，核心思路是让LLM先理解整体文档结构再回答问题，而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理

23:14

Berryxia.AI@berryxia

同事件精选75

Google联手UCSD推出DFlash，实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash，在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈，通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化，将重塑云端成本曲线，并使实时Agent、长上下文等应用更趋现实，同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google for Developers: Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...

Google 大佬观点推理部署/工程

同一事件，精选展示《在谷歌TPU上实现3倍加速：UCSD利用扩散式推测解码优化LLM推理》

推荐理由：Google 直接干掉自回归瓶颈，3.13 倍无损加速不是渐进优化，是推理范式的根变革，当「快三倍」成为新基线，所有实时 Agent 和长上下文应用都得重算一遍成本账。

23:03

Runway：News（网页）

精选55

60倍速冷启动：将同级GPU视为权重服务器

Runway平台团队开发的NCCLBack系统，通过P2P权重传输将模型冷启动时间从数分钟缩短至数秒。其核心创新在于让新启动的GPU推理节点直接从集群内已加载权重的同级GPU获取模型参数，而非从云存储重复下载。该系统利用GPU互连（如InfiniBand、NVLink）高达200-400 Gbps的带宽，相比传统存储下载的2-10 Gbps实现了数量级提升。通过Redis协调与NCCL广播原语，NCCLBack确保了数据传输的效率和正确性，使得大规模集群部署新模型时，冷启动时间不随节点数量线性增长，基本保持恒定。

推理教程/实践部署/工程

推荐理由：Runway 工程师把 GPU 冷启动从分钟压到秒级，原理是让已加载权重的 GPU 直接「喂」给新同伴，而不是各自从存储下载。做大规模推理部署的团队值得细读。

20:18

Rohan Paul@rohanpaul_ai

结构化提示如何让大语言模型更准确地理解代码语义

Meta研究发现，强制大语言模型（LLM）在分析代码时遵循检查清单、逐步展示推理证明，能将其代码补丁错误率降低近50%。常见错误源于模型过早识别熟悉名称（如“format”）并直接套用通用含义，而非实际检查项目文件，导致其依赖自信猜测而非深入分析。通过要求模型明确写出修改内容、追踪执行路径并用具体证据证明结论，这一方法迫使其实际阅读本地文件、遵循真实逻辑，从而将准确率提升至93%。该方法无需昂贵的新训练或复杂系统，仅通过基本的结构化提示即可实现高可靠性的代码验证，节省了运行软件测试的巨大计算成本。

Meta 推理编码论文/研究

17:57

meng shao@shao__meng

精选78

a16z创始人公开定制AI提示词，旨在关闭"讨好型人格"并强制对齐事实

a16z创始人@pmarca公开其定制AI系统提示词，旨在彻底改变大语言模型的默认行为模式。该提示词分为两部分：第一部分要求AI以世界级全领域专家身份运作，输出详尽、分步推理且自我验证的内容，不回避负面结论或政治正确，也无需顾及用户感受。第二部分针对性禁用当代模型的“谄媚”行为，包括禁止夸赞问题、验证用户前提，要求先提出最强反驳再支持观点，禁用客套话，并在用户反驳时坚守立场除非对方提供更强证据。其核心目标是强制AI对齐事实与独立判断，而非对齐用户情绪。

Marc Andreessen 🇺🇸: Current AI custom prompt: You are a world class expert in all domains. Your intellectual firepower, scope of knowledge, ...

推理教程/实践

推荐理由：pmarca 这份 personal prompt 几乎是对当前 LLM 讨好型人格的精确反击，尤其第二段那些‘不准夸我’的规则，需要直击真相时可以直接套用。

13:26

Ethan Mollick@emollick

提醒一下，告诉AI它是某个领域的专家已不再能有效提升它在该领域的能力。【引用 @emollick】：我们测试了一种最常见的提示技巧：赋予AI人格角色以提高其准确性我们发现，告诉AI"你是一位杰出的物理学家"并不会显著提高它回答物理问题的准确率，同样，"你是一名律师"也不会降低其准确性。

Ethan Mollick: We tested one of the most common prompting techniques: giving the AI a persona to make it more accurate We found that te...

推理教程/实践

12:17

HuggingFace Daily Papers（社区热门论文）

感知流网络：面向视觉推理的感知与推理解耦方法

大型视觉语言模型因优化目标无法约束视觉轨迹，易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督，但偏向几何精度且推理效用有限。为此，本研究提出感知流网络，通过解耦感知与推理建立自条件生成过程，并借助变分强化学习整合多维奖励与邻近几何塑造，从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证，在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数，创造了新的性能记录。

arXiv 多模态推理论文/研究

11:17

HuggingFace Daily Papers（社区热门论文）

精选70

T^2PO：面向稳定多轮智能体强化学习的不确定性引导探索控制框架

多轮强化学习训练常因探索效率低下而不稳定。为此，研究团队提出T^2PO框架，在细粒度层面实施不确定性引导的探索控制。在令牌级别，它监测不确定性动态，当边际变化低于阈值时触发思考干预；在轮次级别，它识别探索进展可忽略的交互并动态重采样，以避免无效计算。在WebShop、ALFWorld和Search QA等多个环境中的评估表明，T^2PO显著提升了训练稳定性与任务性能，并实现了更高效的探索。相关代码已开源。

智能体推理论文/研究

推荐理由：多轮 agent 训练最怕训着训着崩了，这篇从 token 和 turn 两级控制探索的思路很妙，直接把低效 rollout 砍掉，稳定性和效率都上去了，做 RLHF 或 agent RL 的可以认真看一下。