6月1日

13:36

SemiAnalysis@SemiAnalysis_

演讲被评为黄仁勋最差之一，AI数据中心方面未发布新内容。仅宣布Windows on NVIDIA ARM CPU，但该转型被认为难以成功。NVIDIA笔记本芯片已比原计划延迟6-8个月，开发中因高速连接干扰导致视频输出完全故障。据报道，笔记本厂商被告知禁止开机或运行基准测试，暗示硬件不成熟。

大佬观点部署/工程

12:05

SemiAnalysis@SemiAnalysis_

突发新闻：黄仁勋刚刚宣布，微软已与其ODM合作伙伴富士康完成了首台Rubin VR200 NVL72机架的验证工作。黄仁勋还宣布晶圆级量产已启动。但需注意，机架级量产尚未开始，目前仍处于工程/质量样品阶段。

Microsoft 行业动态部署/工程

12:03

IT之家（RSS）

英伟达黄仁勋称"AI 减少岗位是胡说八道"，软件工程师数量在增加

英伟达 CEO 黄仁勋在台北电脑展表示，AI减少岗位的说法是胡说八道，实际上软件工程师数量正在增加。他认为“有用”的AI时代已至，token是新的利润单位，AI是GDP生成器。同时，黄仁勋称下一代超级AI芯片Vera Rubin是其最雄心勃勃的产品，由4万名工程师参与研发，将于今年下半年推出，他预计其将比Grace Blackwell更加成功。

推理行业动态部署/工程

09:28

IT之家（RSS）

戴尔向 CoreWeave 交付全球首套可运行的 NVIDIA Vera Rubin NVL72 系统

推理行业动态部署/工程

08:41

Berryxia.AI@berryxia

GitHub开源项目挑战付费订阅模式

该推文指出，许多付费的AI工具和专业软件（如Bloomberg）是资本维持收入的机制。GitHub上已有10个开源项目可替代它们，提供免费、功能强大且支持自托管的选项。示例包括：AutoHedge（自主交易代理）、Vibe-Trading（金融技能与代理系统）、Fincept Terminal（Bloomberg替代品）、LibreChat（多模型聊天）以及Open Higgsfield AI（电影工作室）等。这些项目让用户能完全掌控自己的数据和控制权，将原本昂贵的订阅服务免费提供给普通人。

Harman: 10 GitHub repos so good they shouldn't be free. 1. AutoHedge An autonomous hedge fund built in Python with four AI agent...

智能体多模态开源/仓库部署/工程

08:28

Hacker News 热门（buzzing.cc 中文翻译）

奥德修斯--自主托管的 AI 工作区

奥德修斯是一个自主托管的 AI 工作区项目，其源代码已在 GitHub 上公开。

GitHub 开源/仓库开源生态部署/工程

08:00

OpenRouter：Announcements（RSS）

同事件精选77

OpenRouter 五月发布亮点：语音API、模型融合、企业控制及20个新模型上架

OpenRouter 推出语音与转录 API、模型融合（Model Fusion）、私有模型部署和企业级工作空间控制功能。平台同时新增 20 个模型，其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。语音 API 支持实时语音识别与合成，模型融合允许用户组合多个模型的输出结果。企业工作空间提供更细粒度的权限管理与审计日志。

智能体产品更新部署/工程

同一事件，精选展示《OpenRouter 5月发布亮点》

推荐理由：OpenRouter五月更新不只是加模型，护栏、语音、模型融合全打包成API，开发团队读完就能用。月流量破百亿token还拿了1.13亿融资，平台稳定性会更强。

08:00

OpenRouter：Announcements（RSS）

同事件精选71

OpenRouter 5月发布亮点：语音与转录API、模型融合及20款新模型

OpenRouter 发布5月更新，推出语音与转录API、模型融合功能、私有模型支持和企业工作区控制，并新增20款模型，包括Gemini 3.5 Flash和Claude Opus 4.8。

智能体产品更新部署/工程

同一事件，精选展示《OpenRouter 5月发布亮点》

推荐理由：OpenRouter 这次月度发布把安全护栏、多模型融合和语音 API 全补上了，Model Fusion 和 Pareto Code Router 对做 agent 的团队尤其实用，成本控制与质量权衡变得更直接。

08:00

HuggingFace Daily Papers（社区热门论文）

金融LLM智能体新架构：交互原生知识束（InKH）

金融AI智能体常因用户需反复陈述目标、风险偏好、投资组合和市场假设而失败。研究人员提出InKH架构，将用户、市场、组合和工具事件转化为结构化知识，采用被动知识注入、时间图记忆、wiki审计面及带成熟度与失效的背景提取。在46,080次评估中，InKH平均任务质量0.815（900ms延迟）。相比agent驱动的wiki-walk记忆，延迟降低82.95%，token成本降低82.29%，过时知识使用减少96.58%，质量提升0.108。验证了系统吸收复杂性而非转嫁用户的理念。

智能体论文/研究部署/工程

07:28

Rohan Paul@rohanpaul_ai

对于轨道数据中心，太空有大量能源，但散热很难。没有对流，热量只能辐射出去，这需要很大的表面积。但这是可以解决的，因为"太空里有很多空间" ~ Nvidia CEO Jensen Huang

大佬观点部署/工程

04:25

SemiAnalysis@SemiAnalysis_

好奇L11诊断是什么意思吗？让我们把它拆解成两个部分：L11和诊断。（1/5）

Michael Dell 🇺🇸: We have the first @DellTech + @nvidia Vera Rubin NVL72 @CoreWeave. Here we go! 🚀

教程/实践部署/工程

00:15

Hacker News 热门（buzzing.cc 中文翻译）

精选70

我花200英镑把一台数据中心级GPU装进了我的游戏电脑

一名用户以200英镑的价格购入了一块数据中心级GPU，并将其成功安装到自己的游戏电脑中。文章记述了这一非标准硬件改装过程、遇到的技术挑战以及最终实现本地运行大语言模型的体验。

教程/实践端侧部署/工程

推荐理由：一个200英镑的二手 V100 加适配器，就让游戏电脑用上了 32GB 显存，跑 Qwen3.6-27B 达到 32 tok/s，噪音问题也解决了。对于想低成本本地跑大模型的人，这篇 DIY 手记很实用。

5月31日

16:47

The Decoder：AI News（RSS）

软银计划在法国投资750亿欧元建设AI数据中心

软银计划在法国建设最高5吉瓦容量的AI数据中心，总投资额最高达750亿欧元，这是其在欧洲最大的AI基础设施投资。计划到2031年，在法国北部三个地点建成价值450亿欧元的设施。不过，软银在全球宣布的诸多类似项目至今尚未完全落地。

行业动态部署/工程

15:48

Rohan Paul@rohanpaul_ai

一些很酷的视觉效果。戴尔向CoreWeave交付全球首个Nvidia Vera Rubin NVL72机架。它包含72个Rubin GPU、36个Vera CPU、3.6 exaFLOPS的FP4推理性能、75 TB的快速内存和260 TB/s的NVLink带宽。

Michael Dell 🇺🇸: We have the first @DellTech + @nvidia Vera Rubin NVL72 @CoreWeave. Here we go! 🚀

推理行业动态部署/工程

15:16

StepFun@StepFun_ai

同事件精选80

阶跃星辰发布了Step 3.7 Flash，这是一款198B参数的视觉模型，旨在DGX Spark等桌面设备上运行。用户实测表明，128GB统一内存是运行门槛，模型占用约104GB。部署无需官方专用llama.cpp分支，主线版本即可。在上下文长度上存在权衡：启用视觉功能时，基于q8 KV cache的64K为上限；若要使用最高256K上下文，则需禁用视觉并切换至q4 KV cache，此时模型与缓存共占约114GB内存。该模型是推理模型，思考过程可能消耗大量max_tokens，需注意设置。

Sudo su: i am running stepfun's new step 3.7 flash on a dgx spark right now. 198b vision model, on a box that sits on a desk. her...

多模态教程/实践部署/工程

同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》

推荐理由：把 198B 的视觉模型塞进一台桌面盒子，还跑通了，这本身就是个小里程碑。更关键的是，这篇实战直接帮你绕开了三个大坑，省下的三小时够你喝杯咖啡慢慢试了。