5月30日

06:16

Rohan Paul@rohanpaul_ai

本期简报要点如下：Anthropic发布了Claude Opus 4.8模型，并宣布完成650亿美元融资，投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能：使用8块AMD MI300X GPU时处理速度达3000 tokens/s，使用8块NVIDIA H200 GPU时达2100 tokens/s（FP16精度，无推测解码），模型参数为20亿。此外，Datacurve推出了更具挑战性的编程基准测试DeepSWE，旨在更清晰地评估顶尖模型的性能差异。

Anthropic 推理模型发布行业动态

05:40

Hacker News 热门（buzzing.cc 中文翻译）

精选70

Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型，该模型采用混合专家（MoE）架构，在包含 38T token 的数据集上训练完成。

智能体推理模型发布端侧

推荐理由：Liquid AI 把推理和工具调用塞进了消费级硬件，笔记本上跑 250 token/s，边缘 Agent 有了一个能打的离线选项。性能不算顶尖，但‘全本地’这个特性，对隐私敏感的场景是真卖点。

05:16

Rohan Paul@rohanpaul_ai

陶哲轩：AI让"疯狂实验"不再昂贵

陶哲轩指出，研究过程中存在大量“认知摩擦”——例如验证想法、排除错误路径、将直觉转化为计算等试错环节，占据了主要时间。AI正在将这些摩擦成本降至零，使研究者能更自由地尝试“更疯狂的想法”。推文强调，许多非常规路径并非被证伪，而是被高昂的验证成本所阻碍。AI降低这一成本，让原本因“不便”而被放弃的弱信号得以被审视，这往往是发现的起点。

OpenAI: AI can give researchers the freedom to pursue "crazier" ideas. For Terence Tao, AI creates more room to experiment, test...

OpenAI 大佬观点推理

05:16

TechCrunch：AI（RSS）

英伟达200亿美元"非收购雇佣"后，AI芯片初创公司Groq据报道正融资6.5亿美元

AI芯片初创公司Groq计划进行一轮6.5亿美元的内部融资。该公司正从硬件制造转型，将业务重心更多地转向AI推理服务。

推理行业动态

04:49

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

2026年。AI正在真正发明新的数学，而记者们还在发布这种明显错误的内容。 99%的人不知道即将发生什么，因为记者们辜负了他们。

AI Notkilleveryoneism Memes ⏸️: I'm old enough to remember when everyone thought AI solving ONE novel math problem would be a front page story around th...

推理现象/趋势

03:16

TechCrunch：AI（RSS）

你听过这些AI术语但一知半解？让我们来弄清楚

AI的兴起带来了大量新术语与行话。文章提供了一份术语表，对其中最重要的一些词汇和短语进行了解释。

推理教程/实践

03:15

Yuchen Jin@Yuchenj_UW

我问 Opus 4.8 Anthropic 是如何实现这个的。它告诉我 @ClaudeDevs 不是 Anthropic 的官方账号。真正的 AGI。😂

ClaudeDevs: With Opus 4.8, you can add system instructions mid-conversation without breaking the prompt cache. More cache hits means...

Anthropic 大佬观点推理

02:15

François Chollet@fchollet

爱因斯坦谈（不）用自然语言进行发明："书面或口头的语言文字，在我的思维机制中似乎不起任何作用"

大佬观点推理

02:09

宝玉@dotey

推文对比了AI模型的两种推理模式。主张选择Reasoning Max模式，认为多花时间进行深入推理，反而能减少后续验证时间，即"慢就是快"。而Speed Fast模式虽快，但性价比不高，除非预算充足。被引用的推文进一步支持"选择Max"，并指出这样能最大化利用用户宝贵的时间。

Rainman: @MomoseReina 选择Max 挽弓当挽强、用人当用长,你的时间比什么都宝贵

推理教程/实践

02:00

OpenRouter：Announcements（RSS）

精选77

OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7

一组预算模型通过OpenRouter平台进行模型融合，在包含100个复杂研究任务的评估中，得分超过了GPT-5.5与Claude Opus 4.7。

智能体产品更新推理搜索

关联讨论 1 条

推荐理由：OpenRouter 的 Fusion 功能把模型融合做成了 API 调用，实测用便宜模型组合就能逼近 Fable 5 的性能，成本却只有一半，这对做复杂推理和深度研究的开发者来说是个很实用的新工具。

01:45

TechCrunch：AI（RSS）

继英伟达200亿美元交易后，AI芯片初创公司Groq据称将融资6.5亿美元

AI芯片初创公司Groq计划融资6.5亿美元，将业务重心从硬件制造转向AI推理，专注于优化AI模型响应提示请求的过程。

推理行业动态

01:19

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

半个国家的人认为AI很蠢且没有进步，然而……它们即将抢走所有人的工作？搞什么？

推理现象/趋势

01:15

Rohan Paul@rohanpaul_ai

精选76

亲测为实：难以置信的推理速度

Kog团队在标准数据中心GPU上实现了极高的单用户推理速度，在8× AMD MI300X GPUs上达到3,000 tokens/s，在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度（约100-300 tokens/s），实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题，通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构，消除了传统流程的阻塞点。

大佬观点推理部署/工程

推荐理由：Rohan亲自测完Kog AI的3000 token/s，把单用户推理速度拉高了10-30倍，这套monokernel设计可能改写低延迟推理的玩法，做实时AI产品的团队必须盯紧。

5月29日

23:10

Hacker News 热门（buzzing.cc 中文翻译）

在标准GPU上进行实时大语言模型推理：单次请求生成速度达3k tokens/s

该技术成果展示了在标准GPU硬件上实现大语言模型实时推理的可能性。核心性能指标为单次请求的生成速度可达到3000个tokens每秒（3k tokens/s per request）。这一结果表明，对于特定场景或模型配置，即使在非专用集群的常规计算设备上，也能实现高速的模型输出，对于降低大语言模型的使用门槛和成本具有参考意义。

推理教程/实践部署/工程

23:09

X.PIN@thexpin

华为提出τ定律应对芯片制程瓶颈

由于美国出口管制，华为在芯片先进制程竞赛中面临困难。为此，华为于2026年5月提出“τ（Tau）定律”，旨在为后摩尔时代的芯片性能提升提供新框架。该定律的核心是优化有效RC时间常数（τ）以提升信号传播速度。其方法是不完全依赖制程微缩，而是从晶体管、电路、芯片互连及系统架构四个层次进行优化，以压缩τ值。华为将其描述为中国公司首次提出具有全球影响力的后摩尔扩展框架。

推理现象/趋势端侧部署/工程

22:45

Chubby♨️@kimmonismus

字节跳动自研推理芯片曝光，设计旨在绕过美国限制

据报道，字节跳动正在开发基于 Groq LPU 架构的自研推理芯片。该架构将模型保存在片上 SRAM 中，跳过了受美国对华出口管制最严格限制的组件——高带宽内存。字节跳动的内存合作伙伴 InnoStar 在台积电的成熟制程节点进行生产，这些节点也处于管制之外。这一系列设计选择均旨在规避美国的限制，而正是同一架构，Nvidia 刚刚花费约200亿美元获得了其授权。

推理行业动态部署/工程