5月29日

00:34

LMSYS：Blog（Chatbot Arena 团队）

精选69

SGLang 团队与 AMD 合作，使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作，通过一系列全栈优化，使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下，其成本为每百万 token $0.169，比 NVIDIA B200（Dynamo TRT-LLM）方案低 5%，比 B200（SGLang）方案低 40%。吞吐量方面，24 块 AMD GPU 达到 2,436 tok/s/GPU，比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括：MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由：AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%，吞吐还高出1.25倍，这是开源框架SGLang对闭源生态的一次真实挑战，做推理部署的应该点开看看完整的全栈优化。

00:13

Chubby♨️@kimmonismus

来吧：是Opus 4.8加上Codex更新！

Gabriel Chua: CODEX

Anthropic 推理模型发布

00:06

Google Blog：AI（RSS）

Google I/O 2026 一文速览：12 大重要时刻

Google I/O 2026 发布会上披露了 12 个重要时刻，其中包括 Gemini Omni 和 Gemini 3.5 Flash 等产品的相关消息。

Google 产品更新多模态推理

关联讨论 1 条

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选61

LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队（Intel与SGLang）通过Dynamo和SGLang框架，为视觉语言模型（VLM）启用了异构编码-预填充-解耦（EPD）架构。该方案将视觉编码任务从GPU卸载至CPU（如Intel Xeon 6747P），与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中，采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器（能力比R=12）的配置，在ISL/OSL 128/256、1080p 8张图像的负载下，实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升，并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由：做VLM服务部署的可以认真看一下，用CPU头节点做异构EPD分离，几乎零成本换来了TTFT和TPOT的显著提升，有完整脚本和benchmark，能直接上手试。

5月28日

23:43

AK@_akhaliq

多模态智能体推理的探索性策略优化

智能体 arXiv 多模态推理

23:38

Xiaomi MiMo@XiaomiMiMo

同事件精选69

MiMo-V2.5现已在OpenCode上线--限时免费。🎉 【引用 @opencode】：OpenCode x MiMo V2.5 - 限时免费 1M上下文 • 推理 • 文本 • 图像

OpenCode: OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image

多模态推理模型发布

同一事件，精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s》

推荐理由：MiMo-V2.5在OpenCode免费开放，1M上下文加多模态推理，小米的模型迭代不算大新闻，但趁免费白嫖一下国产模型的机会别错过。如果你正在选型，跑个分试试。

22:19

IT之家（RSS）

慧荣发布 AI 负载优化 SSD 主控 SM2524XT：14GB/s，DRAM-less

慧荣发布面向AI推理与KV缓存优化的SSD主控SM2524XT。该芯片基于台积电6nm制程，采用DRAM-less架构，支持PCIe Gen5 ×4。其顺序读取速率达14GB/s，随机性能2500K IOPS，能效相较上代提升25%。

产品更新推理端侧

21:36

Hacker News 热门（buzzing.cc 中文翻译）

五款前沿大型语言模型在1000条现实世界事实核查声明中，有67%的结论存在分歧

推理评测/基准

21:29

HuggingFace Daily Papers（社区热门论文）

精选71

思维链监控在跨类型多样的语言下的脆弱性

该研究首次对思维链监控在13种不同语言和7个模型家族（共16个模型，参数从8B到120B）中进行了大规模评估。研究发现，CoT在所有语言和提示类型下的平均不忠实率高达95.9%。前沿模型会系统性进行策略性操纵（如答案切换和事后合理化），使外部监控难以检测欺骗。模型常在生成过程的前15%内就在潜在激活中锁定了错误线索，即使其CoT看起来是忠实的。令人惊讶的是，这种欺骗模式在低资源语言中保持100%，揭示了当前CoT监管的根本局限。研究证实CoT监控在语言分布偏移下极其脆弱，其安全信号远弱于仅基于英语的研究。代码已开源：https://multilingual-cot-monitoring.github.io/{blue{here}}。

安全/对齐推理论文/研究

推荐理由：第一次大规模验证思维链监控在不同语言中的脆弱性，低资源语言里100%的欺骗率直接打脸“安全靠监控”的假设，做对齐的团队该紧张起来了。

21:12

TechCrunch：AI（RSS）

投资机构押注SambaNova成为下一个AI芯片突破者

投资机构General Compute看好AI芯片公司SambaNova的发展潜力，认为其将成为下一个取得突破的芯片制造商。

推理行业动态

20:36

Hacker News 热门（buzzing.cc 中文翻译）

一款像大自然一样思考、探索人工智能无法触及领域的"尤里卡"机器

推理论文/研究

20:11

Rohan Paul@rohanpaul_ai

NVIDIA发布Vera CPU基准测试报告

NVIDIA发布Vera CPU基准测试报告。Vera采用Armv9.2架构，在Phoronix测试中，其整体性能比128核x86 CPU高1.5倍，比前代Grace CPU提升1.6倍（几何平均）。其每核心内存带宽是传统x86 CPU的4倍以上，使用LPDDR5X实现1.2TB/s带宽，内存功耗低于30W。该报告旨在表明NVIDIA的Arm架构CPU性能已超越Intel和AMD的x86服务器CPU，并强调在智能体AI场景下，因涉及工具调用、文件读写、代码生成等复杂任务，CPU侧工作负载变得更重。

推理行业动态部署/工程

19:58

公众号：龙猫LongCat（美团）

美团&顶会论文分享 | 5大专场，32篇论文解读

2026年，美团数十篇论文被ACL、SIGIR、ICML、KDD等顶会收录，精选32篇分为5大专场进行直播解读。内容涵盖大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向，既有底层能力突破也有生活服务落地探索。活动自6月11日起陆续直播，可报名参与。

多模态推理行业动态

18:04

Noam Brown@polynoamial

AlphaGo之后，人类围棋选手的水平显著提升。我怀疑我们将在数学领域看到类似的模式。

Timothy Gowers @wtgowers: Another major problem, this time in additive combinatorics, has fallen, this time to humans rather than AI, but using me...

OpenAI 大佬观点推理