6月4日

21:18

StepFun@StepFun_ai

同事件精选77

阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型（VLM），含 196B 语言骨干和 1.8B 视觉编码器，从设计之初优化推理效率，采用硬件友好架构与 MTP 辅助解码，速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力，面向真实智能体工作负载，采用 Apache 2.0 开源许可。

Fireworks AI: Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B sparse MoE VLM designed b...

多模态推理模型发布

同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》

推荐理由：198B稀疏MoE加MTP解码把速度推到400 tok/s，还开源Apache 2.0，这规格做agent的大脑正合适，做实时应用的可以试试手。

20:52

LMSYS：Blog（Chatbot Arena 团队）

SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型，总参数 550B、激活参数 55B，采用混合 Transformer-Mamba 架构的 MoE，支持最长 1M token 上下文。针对长运行自主智能体优化，具备工具调用、编码、深度研究与编排能力，后训练使用多环境强化学习（NeMo RL）。SGLang 提供高性能推理，支持 NVFP4 和 BF16 精度，NVFP4 检查点可在 Blackwell GPU 运行；Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先，成本节省高达 30%。

智能体开源生态推理模型发布

关联讨论 9 条

20:36

HuggingFace Daily Papers（社区热门论文）

IR3DE：大语言模型的线性路由器

IR3DE是一个基于岭回归的线性路由器，为每个提示选择最合适的领域专家大语言模型。在两个因果语言建模（CLM）任务中，IR3DE性能与其他基线相当；在推理任务中，归一化性能达到98.4%，超越其他方法。该路由器支持动态添加或移除领域专家，无需重新训练，代码已开源。

推理论文/研究部署/工程

20:00

OpenRouter：Announcements（RSS）

同事件精选58

OpenRouter 横评 11 款 LLM 机器人冲刺对决：Claude 与 Grok 谁更胜一筹？

OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型，共耗 482 美元推理成本。结果指向一个发现：应该重新审视模型 benchmark 的解读方式。

智能体 Anthropic xAI 推理

同一事件，精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔》

推荐理由：第一次看到对齐税被游戏化量化，Grok能赢是因为它没被训练成好人，Claude总想组队则拖后腿，怎么选模型得看你想要哪种人。

19:42

Hugging Face：Blog（RSS）

精选68

Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中，任务种子合成数据生成（Task-Seeded SDG）使 MMLU-Pro 提升 1.8 分，平均代码提升 1.9 分，常识理解提升 1.6 分，GPQA 提升 11.1 分，数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务（约 700 子任务）的训练集作为种子，生成新示例并补充推理和上下文，经过格式校验、去重和答案验证后得到精选合成数据集，用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由：NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论，用 70 个公开任务训练集做种子生成新题目，100B token 实验把 GPQA 拉高 11 个点，做预训练的人值得看看他们怎么造的数据。

17:42

X.PIN@thexpin

Anthropic不是唯一赚钱的。字节跳动也是。火山引擎2026年MaaS收入预期在4月上调至约22亿美元，而2025年底约为15亿美元。知情人士表示，仅Seedance 2.0每月就能带来约1.5亿美元收入，而其API甚至尚未在海外全面上线。

推理行业动态

12:17

StepFun@StepFun_ai

阶跃星辰发布开源 Step 3.7 Flash（Apache 2.0），采用 MoE 架构（198B 总参/11B 活跃参），配备 MTP 辅助解码（3 个预测头），输出速度超 400 tokens/s，是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6，较 Step 3.5 Flash 提升 4 分。智能体能力明显增强：GDPval-AA Elo 升至 1298，TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器，MMMU-Pro 得分 75.3%。上下文窗口 256K tokens，提供 BF16、FP8、NVFP4 版本。缺点：AA-Omniscience 准确率仅 25.4%，幻觉率 84.4%。

Artificial Analysis: StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...

智能体多模态推理模型发布

12:10

Hacker News 热门（buzzing.cc 中文翻译）

它们是用哑铃做的

一篇来自 maxleiter.com 的博文，标题为“它们是用哑铃做的”。正文内容极为简短，仅包含一张图片和一句声明“They're made out of weights”（中文翻译为“它们是用哑铃做的”），未提供任何上下文或技术细节。该博文在 Hacker News 上获得 113 个点赞。由于缺少具体说明，读者无法得知所指对象以及“哑铃”的真实含义。

推理现象/趋势

11:52

Artificial Analysis@ArtificialAnlys

StepFun 开源 Step 3.7 Flash 模型，性能与速度并进

StepFun 开源 Step 3.7 Flash（Apache 2.0），总参数 198B、激活 11B（MoE），上下文 256K。在 Artificial Analysis 智能指数上得分 42.6，较 Step 3.5 Flash 提升 4 分，输出速度超 400 tokens/s，通过 Multi-Token Prediction（3 个 token）加速。新增 1.8B 视觉编码器支持原生多模态，MMMU-Pro 得分 75.3%。代理能力提升：GDPval-AA Elo 从 1070 升至 1298，TerminalBench Hard 达 35.6%，AA-LCR 63.7%。知识/幻觉仍弱：AA-Omniscience 准确率 25.4%，幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

多模态开源生态推理模型发布

11:42

HuggingFace Daily Papers（社区热门论文）

ThoughtFold：通过内省偏好学习折叠推理链

Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习（RLVR）下取得进展，但长思维链中的试错和冗余探索被强化，导致过度思考。ThoughtFold 提出细粒度偏好学习框架：通过内省策略识别正确轨迹中的冗余段，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤，从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%，同时保持 SOTA 准确率。

推理数据/训练论文/研究

11:10

IT之家（RSS）

AMD 高管回应英伟达 RTX Spark 入局：欢迎竞争，自家 Strix Halo 系列足以应对

AMD 客户端业务高级副总裁拉胡尔·蒂库在 2026 台北国际电脑展上回应英伟达推出 RTX Spark 入局 AI PC 处理器市场，表示欢迎竞争，认为大容量本地内存对 AI 智能体工作负载至关重要。AMD 的 Strix Halo 及后续 Gorgon Halo 足以与 RTX Spark 竞争，Gorgon Halo 采用 Zen 5 CPU 和 RDNA 3.5 GPU，统一内存最高 192GB。软件生态方面，AMD 主推 ROCm，称 CUDA 的壁垒影响已较三年前下降，开发者迁移难度较低。

推理端侧行业动态

10:42

HuggingFace Daily Papers（社区热门论文）

精选73

StreamMA：多智能体推理中的流式通信

StreamMA 采用“流式通信”范式，每个推理步骤生成后立即流式传输给下游智能体，通过流水线相邻智能体降低端到端延迟。该方法还提升了效果，因为早期步骤更可靠，可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上，使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型，及 Chain、Tree、Graph 三种拓扑，StreamMA 平均优于基线 +7.3 个百分点，在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”：增加每智能体步骤数可同时提升效果与效率。

智能体推理论文/研究

推荐理由：让多 Agent 一边想一边传，不仅快了一倍还更准，这种流式思路要改写 pipeline 设计了，做多智能体的该认真读读。