5月6日

03:32

TestingCatalog News 🗞@testingcatalog

Google为Gemma 4系列发布了多令牌预测（MTP）草稿模型。它在不损失性能的情况下带来了3倍的速度提升。期待在Mac Mini上测试带有MTP草稿模型的量化版Gemma 4！

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google 推理模型发布

02:57

Artificial Analysis@ArtificialAnlys

MiniMax-M2.7模型在六大推理服务商上线，速度与价格差异显著

MiniMax-M2.7模型已在六家推理服务商上线，各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先，比其他提供商快3倍以上，但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出，Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿：前者性价比高，后者则以高价换取极致速度。此外，各家的高速缓存折扣政策不同，这对缓存密集型工作负载的成本影响显著。因此，最优选择高度依赖于具体工作负载对延迟和成本的敏感度。

推理评测/基准部署/工程

02:02

Yuchen Jin@Yuchenj_UW

一切都是技能-md问题。

大佬观点推理

02:00

宝玉@dotey

精选75

Google为Gemma 4发布MTP草稿模型，推理速度最高提升3倍

Google为其开源模型Gemma 4推出MTP drafter（多token预测草稿模型），采用推测解码技术，能在保持输出质量不变的前提下，将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token，再由大模型并行验证，从而显著提高吞吐效率，尤其有利于缓解本地部署时的内存带宽瓶颈。例如，在Apple Silicon上运行26B MoE模型时，批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议，权重已开源，并获主流推理框架支持。

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google 开源生态推理模型发布

推荐理由：Gemma 4 的 MTP drafter 不是噱头，在 Apple Silicon 上实测能翻倍，且完全无损，本地跑开源模型的可以直接上，权重和框架都备好了。

02:00

宝玉@dotey

精选77

OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant

OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant，替换原有的 GPT-5.3 Instant，并向所有用户推送。新模型显著减少了事实幻觉，在医疗、法律等高风险领域的错误率大幅降低，并在多项基准测试中性能提升。回答风格更为简洁，减少冗余内容。同时增强了记忆功能，能主动利用用户历史聊天记录等数据提供个性化回答，并上线“记忆来源”功能供用户管理引用。免费用户即可使用新版模型，付费用户可保留旧版三个月。个性化记忆功能将逐步向各版本用户开放。

ChatGPT: GPT-5.5 Instant is starting to roll out to everyone in ChatGPT. Much more concise. Better memory. More personalized. And...

OpenAI 产品更新推理

推荐理由：默认模型直接换到 GPT-5.5 Instant，幻觉砍半、回答更简洁，还开始主动用你的聊天记录，日常对话的体验会有明显提升，值得看看具体变了什么。

01:27

AK@_akhaliq

MolmoAct2 面向现实世界部署的行动推理模型论文： https://huggingface.co/papers/2605.02881

智能体推理论文/研究

01:27

AK@_akhaliq

从上下文到技能语言模型能否巧妙地通过上下文学习？论文：https://huggingface.co/papers/2604.27660

arXiv 推理论文/研究

01:26

Chubby♨️@kimmonismus

精选83

OpenAI推出GPT-5.5 Instant作为ChatGPT新默认模型，实现显著升级

OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型，该模型在基准测试中表现大幅提升，变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能，能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文，并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出，个性化改进优先面向网页版Plus和Pro用户，移动版随后跟进；API版本为gpt-5.5-chat-latest。官方表示，升级后的模型能提供更智能、清晰、个性化的答案，语气温暖自然且更简洁。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI 多模态推理模型发布

推荐理由：ChatGPT默认模型直接换到GPT-5.5 Instant，个性化能力是代际跃迁，明天打开就能感受到不同。

00:58

xAI@xai

精选80

Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首，并在 @ValsAI 的企业领域（如判例法和公司金融）中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口，定价为输入每百万令牌 1.25 美元，输出每百万令牌 2.50 美元。创建 API 密钥并开始构建：http://console.x.ai/team/default/api-keys

智能体 xAI 推理模型发布

推荐理由：Grok 4.3 登顶 agentic tool calling 榜，定价有竞争力，做 agent 的值得认真看。虽然不算顶级发布，但 xAI 靠性能价格组合可能抢下不少性价比敏感开发者。

00:56

Rohan Paul@rohanpaul_ai

SubQ首发：1200万token上下文窗口，成本降低95%以上

SubQ模型发布，这是首个基于完全次二次稀疏注意力架构（SSA）的前沿LLM，拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍，成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制，通过稀疏注意力选择性聚焦重要关系，使长上下文处理的计算量减少近1000倍，显著改变了LLM的成本曲线和扩展方式。

Alexander Whedon: Introducing SubQ - a major breakthrough in LLM intelligence. It is the first model built on a fully sub-quadratic sparse...

推理模型发布

5月5日

23:25

elvis@omarsar0

智能体性能核心：将并行推理与审议内化为可训练技能

研究指出，驱动智能体性能的关键并非外部编排框架，而是一项核心内在技能：并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程，并通过强化学习与价值回归（RLVR）将其训练为可学习的模型内在能力。实验表明，该方法能显著提升模型性能：例如，GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%；R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明，当此类核心技能能被内化至模型中时，框架优势将转化为模型自身优势，长远来看，模型应原生具备此类能力。

智能体推理论文/研究

23:25

Deedy@deedydas

SWE-Bench 的创建者刚刚发布了一个非常简单的新基准测试，所有 LLM 都得 0 分。 ProgramBench 提出的问题是：模型能否在没有互联网的情况下从零开始重建真实可执行程序（ffmpeg、SQLite、ripgrep）？我们在模型质量上还远未饱和。

推理编码评测/基准

23:14

Berryxia.AI@berryxia

PageIndex颠覆传统RAG，以推理优先实现范式转变

PageIndex提出一种全新的RAG方法，摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引，让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率，超越了所有传统向量RAG方案，并且完全开源。这标志着一个范式级的转变：从“检索优先”转向“推理优先”，核心思路是让LLM先理解整体文档结构再回答问题，而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理

23:14

Berryxia.AI@berryxia

同事件精选75

Google联手UCSD推出DFlash，实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash，在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈，通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化，将重塑云端成本曲线，并使实时Agent、长上下文等应用更趋现实，同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google for Developers: Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...

Google 大佬观点推理部署/工程

同一事件，精选展示《在谷歌TPU上实现3倍加速：UCSD利用扩散式推测解码优化LLM推理》

推荐理由：Google 直接干掉自回归瓶颈，3.13 倍无损加速不是渐进优化，是推理范式的根变革，当「快三倍」成为新基线，所有实时 Agent 和长上下文应用都得重算一遍成本账。

20:18

Rohan Paul@rohanpaul_ai

结构化提示如何让大语言模型更准确地理解代码语义

Meta研究发现，强制大语言模型（LLM）在分析代码时遵循检查清单、逐步展示推理证明，能将其代码补丁错误率降低近50%。常见错误源于模型过早识别熟悉名称（如“format”）并直接套用通用含义，而非实际检查项目文件，导致其依赖自信猜测而非深入分析。通过要求模型明确写出修改内容、追踪执行路径并用具体证据证明结论，这一方法迫使其实际阅读本地文件、遵循真实逻辑，从而将准确率提升至93%。该方法无需昂贵的新训练或复杂系统，仅通过基本的结构化提示即可实现高可靠性的代码验证，节省了运行软件测试的巨大计算成本。

Meta 推理编码论文/研究

17:57

meng shao@shao__meng

精选78

a16z创始人公开定制AI提示词，旨在关闭"讨好型人格"并强制对齐事实

a16z创始人@pmarca公开其定制AI系统提示词，旨在彻底改变大语言模型的默认行为模式。该提示词分为两部分：第一部分要求AI以世界级全领域专家身份运作，输出详尽、分步推理且自我验证的内容，不回避负面结论或政治正确，也无需顾及用户感受。第二部分针对性禁用当代模型的“谄媚”行为，包括禁止夸赞问题、验证用户前提，要求先提出最强反驳再支持观点，禁用客套话，并在用户反驳时坚守立场除非对方提供更强证据。其核心目标是强制AI对齐事实与独立判断，而非对齐用户情绪。

Marc Andreessen 🇺🇸: Current AI custom prompt: You are a world class expert in all domains. Your intellectual firepower, scope of knowledge, ...

推理教程/实践

推荐理由：pmarca 这份 personal prompt 几乎是对当前 LLM 讨好型人格的精确反击，尤其第二段那些‘不准夸我’的规则，需要直击真相时可以直接套用。