6月30日

16:38

The Decoder：AI News（RSS）

Deepseek推出DSpark推理框架，采用推测解码技术，由小模型生成候选答案、大模型批量验证，并一次生成多个token而非单个，使每用户响应速度提升60–85%。系统基于置信度动态调整验证深度，减少无效计算。DSpark与Deepseek-V4-Pro模型（与北京大学联合开发）已在HuggingFace和GitHub以MIT许可证开源。高效推理降低对高端芯片需求，有助于中国与欧盟在芯片受限下获取更多AI性能，短期构成战略优势。

DeepSeek 开源/仓库开源生态推理

16:37

Hacker News 热门（buzzing.cc 中文翻译）

Moondream Photon 通过流水线解码消除 GPU 气泡，提升 35% 吞吐量

Moondream 推理引擎 Photon 在 NVIDIA B200 上实现约 33ms 近实时 VLM 推理。其利用流水线解码技术，将 GPU 计算与 CPU 任务重叠，消除传统循环中 GPU 空闲等待的“GPU 气泡”，使解码吞吐量提升高达 35%。文章详述三种关键机制：乒乓缓存槽位避免缓冲冲突、前向计算与采样解耦实现受约束解码、以及已结束请求的清理流程（zombies）。

推理教程/实践部署/工程

15:56

🚨 AI News | TestingCatalog@testingcatalog

美团推出LongCat-2.0，总参数1.6T（MoE架构，活跃参数约48B），支持1M上下文窗口。训练与部署完全基于AI ASIC超算集群，已以Owl Alpha名称在OpenRouter上线测试。模型专为智能体编码设计：LongCat Sparse Attention（LSA）高效处理百万级token；Zero-Compute Experts每个token动态激活33B-56B参数，零浪费计算；MOPD机制含三种任务门控专家组（Agent/Reasoning/Interaction）。基准测试：Terminal-Bench 2.1得70.8，SWE-bench Pro 59.5（同期GPT-5.5为58.6），SWE-bench Multilingual 77.3，FORTE 73.2，RWSearch 78.8，BrowseComp 79.9。

Meituan LongCat: Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...

智能体推理模型发布编码

关联讨论 6 条

15:37

Hacker News 热门（buzzing.cc 中文翻译）

LongCat-2.0 开源：1.6T 总参数、48B 活跃参数的 MoE 模型

LongCat-2.0 正式开源，总参数 1.6 万亿，每 token 激活约 480 亿参数，采用 MoE 架构。新引入 LongCat Sparse Attention（LSA）和 N-gram Embedding 模块，支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练，消耗超 35 万亿 tokens，训练全程无回滚。在编码和智能体任务上表现优异，深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。

智能体开源生态推理模型发布

关联讨论 6 条

15:02

IT之家（RSS）

AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

普林斯顿大学发布 CEO-Bench 基准测试，模拟创业公司 500 天经营，启动资金 100 万美元，评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中，Claude Fable 5 期末现金达 4715 万美元，是唯一多次运行均高于初始余额的模型；Claude Opus 4.8 为 2778 万美元，GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天，DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。

智能体 Anthropic 推理评测/基准

14:36

karminski-牙医@karminski3

SGLang DSpark实测：1.81倍加速，预测3个token

SGLang的DSpark在PR中放出实测数据，可预测3个token（数学类3.37，日常对话3，代码3.52）。1K长度prompt下加速比达1.81倍，8卡B200速度297 token/s（无DSpark为164 token/s）。单并发提升最高，超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms，延迟可忽略。该PR（#29538）尚未合并。

开源/仓库推理部署/工程

12:29

meng shao@shao__meng

美团发布LongCat-2.0，全链路国产化Agent+Coding模型

美团发布LongCat-2.0，1.6T参数MoE架构，激活参数~48B，上下文窗口1M（最大输出128K），使用5-6万张国产加速卡训练，训练推理全程零英伟达依赖。核心技术包括N-gram Embedding降低路由通信开销、稀疏注意力+跨层索引支撑长上下文、自研底层算子弥补国产芯片生态。定位Agent+Coding优先，非通用对话。Benchmark：Terminal-Bench 2.1 70.8，SWE-bench Pro 59.5（超GPT-5.5的58.6），SWE-bench Multilingual 77.3，FORTE 73.2等。与DeepSeek V4参数规模相近但路径不同：DeepSeek开源+双栈，LongCat强调全链路国产化。

Meituan LongCat: Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...

智能体推理模型发布编码

关联讨论 6 条

12:02

IT之家（RSS）

寒武纪成科创板首支万亿市值股，年初至今涨超75%

寒武纪今日盘中涨幅扩大至7%，总市值突破1万亿元，成为科创板首支万亿市值个股，位居A股第9位，年初至今累计上涨超75%。一季度报告显示，公司营收28.85亿元，同比增长159.56%；归母净利润10.13亿元，同比增长185.04%；扣非净利润9.34亿元，同比增长238.56%；基本每股收益2.40元/股，同比增长182.35%。董事长陈天石表示，互联网企业自研芯片主要围绕主营业务或特定场景，寒武纪提供云边端一体、软硬件协同、训练推理融合的系列化智能芯片产品与平台系统。

推理行业动态

12:02

IT之家（RSS）

微软全面推出 Anthropic Claude 模型 Azure 云服务，基于英伟达 GB300

英伟达宣布，微软在 Microsoft Foundry 平台正式推出托管于 Azure 云服务的 Anthropic Claude 模型。硬件基于 NVIDIA GB300 NVL72 机架，采用 Quantum-X800 InfiniBand 互联。首批提供 Claude Opus 4.8 和 Claude Haiku 4.5，核心功能包括提示缓存和扩展思维，支持编程、代理式工作到复杂推理等用例。该服务原生集成 Azure 云控制功能，可将 Claude 模型接入 Azure 生态系统。英伟达还提供了智能体技能和安全智能体工作区参考设计。

Anthropic Microsoft 产品更新推理

11:53

SiliconFlow@SiliconFlowAI

硅基流动 SiliconFlow 夏日冲刺 - GLM 5.2 周活动

硅基流动 SiliconFlow 推出 GLM 5.2 周活动。6 月 29 日 20:30 至 7 月 6 日 20:30（PDT），用户在其平台运行 GLM 5.2，在 X 发布用例并填写登记表即可参与。按运行量排名，TOP 1 可获本周 GLM 5.2 消费等额券返还（上限 $1000）、额外 $50 券、作品被官方 X 展示及专属 Discord 称号“GLM 5.2 Token Legend”。此外还设有早鸟奖（早发用例得额外券）和幸运抽奖。

推理行业动态

11:26

HuggingFace Daily Papers（社区热门论文）

精选77

Agents-A1：35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能

研究人员提出 Agents-A1，一个 35B 参数的 Mixture-of-Experts 智能体模型，通过扩展智能体 horizon（长轨迹与异构能力两个视角）达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施，生成平均 45K token 的智能体轨迹，并采用三阶段训练：全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏（含显著词汇对齐）。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro，Agents-A1 在 SEAL-0（56.4）、IFBench（80.6）、HiPhO（46.4）、FrontierScience-Olympiad（79.0）和 MolBench-Bind（56.8）上领先，并在 SciCode（44.3）、HLE（47.6）和 BrowseComp（75.5）上保持强竞争力。

智能体推理论文/研究

推荐理由：用35B模型追平1T参数模型，这条“扩展智能体视野”的路比无脑堆参数务实得多，做Agent和长程推理的团队必须认真读。

11:02

IT之家（RSS）

美团发布万亿参数大模型 LongCat-2.0，五万卡国产算力训练并开源

美团今日发布万亿参数大模型 LongCat-2.0，总参数 1.6T，平均激活约 48B（动态 33B~56B），从零预训练，原生支持 1M 超长上下文，是业界首个在五万卡国产算力集群上完成全流程训练与推理的模型。预览版已在 OpenRouter 及 longcat.ai 开放，月调用量跻身 OpenRouter 全球前三。预训练数据超 30T tokens，通过 HCCL 异常处理等将月均日故障率降低 70% 以上，训练 MFU 提升 1.5 倍，稳态日吞吐超 1T tokens/day。推理采用 LSA 稀疏注意力和零计算专家实现 token 级动态激活。在 SWE-bench Pro 上获 59.5，领先 Gemini 3.1 Pro、GPT-5.5 和 Claude Opus 4.6；在其他多项评测中达到或接近前沿闭源模型水平。

开源生态推理模型发布编码

关联讨论 6 条

09:55

Ethan Mollick@emollick

大语言模型最奇特的一点是它们如此通用。一个在编码方面更强的更大LLM，在构思、伦理建议、医学和数学方面也更强。这并非对所有事情都成立，又是不规则性（看看虚构写作！），但它在很大程度上是正确的。

大佬观点推理编码

09:35

elvis@omarsar0

Qwen 新研究：编码智能体奖励设计的"地平线"问题

Qwen 发布关于强化学习编码智能体的新工作，指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹，发现每种信号都存在一个“地平线”：超出该界限后，信号不再跟踪真实正确性，而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题，指标的选择不如它能持续跟踪正确性的时长重要。

智能体 arXiv 推理论文/研究