6月29日

01:49

OpenRouter@OpenRouter

提示：OpenRouter 持续在大多数开源权重模型上运行 GPQA 和 TAU-Bench 评测，并公开发布结果。这些结果用于构建我们的 AutoExacto 元基准，在路由工具调用时默认使用。以下，@Parasail_io 和 @Zai_org 排名第一：https://openrouter.ai/z-ai/glm-5.2#performance

MCP/工具产品更新推理

00:23

Berryxia.AI@berryxia

DeepSeek 开源 DSpark 投机解码框架

DeepSeek 开源 DSpark，一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构，消除后缀衰减；并引入置信度 head 和负载感知调度器，动态控制验证数量。在 DeepSeek-V4 生产系统中，单用户生成速度比 MTP-1 基线快 60-85%，吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 DeepSeek-V4-Pro-DSpark/Flash-DSpark checkpoint，以及 MIT 协议的 DeepSpec 训练代码，与北京大学联合开发。

Dmytro Dzhulgakov: DSpark from @deepseek_ai ingeniously integrates many speculative decoding ideas to achieve 1.5x to 5x higher throughput ...

DeepSeek 开源/仓库推理部署/工程

6月28日

20:01

IT之家（RSS）

马斯克：Grok 4.5 已在 SpaceX 和特斯拉内部测试，性能接近 Opus 模型

Grok 4.5 基于自研 1.5 万亿参数 V9 基础大模型打造，并引入 Cursor 数据完成补充训练，已在 SpaceX 和特斯拉内部开启测试。早期评测显示其性能接近甚至有望超越 Opus 模型。基于人类反馈的强化学习持续提升模型能力，Grok 配套调度框架每日迭代优化。马斯克还透露，SpaceX 今年每个月将推出一批完全从零开始训练的全新模型。

推理行业动态

19:51

🚨 AI News | TestingCatalog@testingcatalog

Grok 4.5 基于 1.5T V9 基础模型，补充训练引入了 Cursor 数据，现已在 SpaceX 与 Tesla 进入私人测试阶段。早期评估显示其性能接近甚至超越 Opus。RL 持续显著提升模型能力，Grok Build 工具链每日改进。今年 SpaceX 将每月发布完全从头训练的新模型。

Elon Musk: Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta...

xAI 推理模型发布

16:10

The Decoder：AI News（RSS）

精选70

新浪开源VibeThinker-3B：推理可压缩，事实知识不能

新浪发布仅3B参数的VibeThinker-3B，在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型，LiveCodeBench超越所有20B以下模型，LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B，经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”：逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。

Hugging Face 开源生态推理模型发布

推荐理由：VibeThinker-3B 用 3B 参数在数学编程上匹敌百倍大模型，推理可压缩而知识不能的假设值得深思。对做推理应用的人来说是个信号。

15:03

Hacker News 热门（buzzing.cc 中文翻译）

两节点 AMD Strix Halo RDMA 集群设置指南

本文介绍如何配置两节点 AMD Strix Halo 集群，通过 Intel E810 (RoCE v2) 网卡实现 RDMA 互联，用于分布式 vLLM 推理（Tensor Parallelism）。硬件采用两块 Framework Desktop 主板（AMD Ryzen AI MAX+ "Strix Halo"，128GB 统一内存）及 E810-CQDA1 100GbE 网卡，直连无需交换机。软件栈基于 Fedora 43，使用 Ray 编排集群、RCCL 通信。RDMA 延迟约 5µs（TCP/IP 为 70‑100µs）。涵盖 BIOS 设置、网络配置、工具箱安装及启动集群的详细步骤。

推理教程/实践部署/工程

13:21

Ethan Mollick@emollick

针对AI研究论文因同行评审周期长导致结果过时的问题，一篇医疗AI论文开源其评估框架（GitHub： health-ai-readiness-eval）。@yishan 用该框架在最新模型上复现测试：GPT-5.5 Pro 在放射影像解读中得分79/100，优于论文原始最佳模型（69/100），但未达到论文设定的"适合可靠医疗使用"标准（需抗扰动、识别信息不足、给出临床合理推理）。@yishan 未能完整复现定性评估，但基本测试表明最新模型虽有提升，尚不足以可靠用于临床。他呼吁所有AI论文开源实验框架，以便社区持续验证。

Yishan: A big problem with research studies on AI models is that given how long the peer review process is, the results are alwa...

OpenAI 多模态推理评测/基准

11:26

Rohan Paul@rohanpaul_ai

Sakana Fugu 技术报告

Sakana Fugu 发布技术报告，提出智能正从模型转移到其周围系统。Fugu 是一个编排器，由数据训练的管理器动态选择最合适的专家模型，而非简单规则（如投票或固定分工）。Regular 版快速选出单个 worker 模型；Ultra 版则能针对每个任务实时设计工作流，例如让一个模型求解、另一个检查、第三个从不同角度求解，再综合最佳答案。工作流非预设，而是根据任务实时构建。

智能体推理论文/研究

11:00

IT之家（RSS）

精选76

四大顶级AI对决《文明VI》：Claude核平法国仍输，暴露感知与执行短板

英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具，将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时，因法国文化胜利逼近，花50回合研发核弹核平图卢兹，但法国最终以外交胜利获胜。Wilkinson发现：AI主动检查全局状态仅占1-2%（感知盲区），计划后10回合内执行率仅48-66%（知行差距）。结论是智商非瓶颈，感知与执行才是关键。

智能体推理现象/趋势

推荐理由：前首相府数据科学家让 Claude、GPT 等打《文明 VI》，揪出了 AI 的「感知盲区」和「知行差距」——更聪明的大脑解决不了睁不开眼、伸不出手的问题，做智能体的必须直面这两个工程瓶颈。