5月29日

01:52

Replit ⠕@Replit

如何用四步保障你的vibecoded应用安全 🔒 速度若无安全加持，便是隐患。以下是使用Replit发布应用时，如何避免留下后门的方法。 🧵展开阅读 ↓

教程/实践部署/工程

00:34

LMSYS：Blog（Chatbot Arena 团队）

精选69

SGLang 团队与 AMD 合作，使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作，通过一系列全栈优化，使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下，其成本为每百万 token $0.169，比 NVIDIA B200（Dynamo TRT-LLM）方案低 5%，比 B200（SGLang）方案低 40%。吞吐量方面，24 块 AMD GPU 达到 2,436 tok/s/GPU，比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括：MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由：AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%，吞吐还高出1.25倍，这是开源框架SGLang对闭源生态的一次真实挑战，做推理部署的应该点开看看完整的全栈优化。

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选61

LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队（Intel与SGLang）通过Dynamo和SGLang框架，为视觉语言模型（VLM）启用了异构编码-预填充-解耦（EPD）架构。该方案将视觉编码任务从GPU卸载至CPU（如Intel Xeon 6747P），与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中，采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器（能力比R=12）的配置，在ISL/OSL 128/256、1080p 8张图像的负载下，实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升，并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由：做VLM服务部署的可以认真看一下，用CPU头节点做异构EPD分离，几乎零成本换来了TTFT和TPOT的显著提升，有完整脚本和benchmark，能直接上手试。

5月28日

23:42

The Decoder：AI News（RSS）

Google Cloud 以平台应对 AI 加速的网络攻击，旨在分钟级弥合安全缺口

Google Cloud 推出“AI Threat Defense”平台，可自动发现、评估并修补企业系统中的安全漏洞。该平台整合了 Google 部分通过收购获得的技术，旨在快速响应由 AI 加速的网络攻击。

Google 产品更新部署/工程

23:05

OpenRouter@OpenRouter

精选69

提示：您可以为支持的模型（OpenAI、Google Vertex 等）使用 Flex 和 Priority 层级。定价信息请查看各模型页面。文档：https://openrouter.ai/docs/guides/features/service-tiers

Google OpenAI 教程/实践部署/工程

推荐理由：OpenRouter 这个 Flex/Priority 层级用法看似细枝末节，但你如果同时调 OpenAI 和 Vertex，知道怎么分层能免掉很多无谓的速率限制和成本焦虑。

22:42

Rohan Paul@rohanpaul_ai

Musk澄清SpaceX与Anthropic的Colossus租约实为短期协议

Elon Musk向投资者澄清，SpaceX为Anthropic提供AI算力的Colossus并非长期锁定租赁，而是一份为期180天的租约，并附带90天的取消路径。此前外界认为该交易价值约每月12.5亿美元并持续至2029年5月，但Musk解释称，SpaceX选择短期条款是因为考虑到AI算力未来可能变得稀缺，不宜长期外租。他强调，Colossus并非闲置资产，同一套计算基础设施将用于训练xAI模型、支持内部AI系统，或可能在未来发展为付费云服务，因此SpaceX需要保持运营灵活性。

Anthropic xAI 行业动态部署/工程

22:42

TechCrunch：AI（RSS）

在 TechCrunch Disrupt 2026 大会上：Databricks 联合创始人谈什么会搞砸企业 AI 交易

企业AI正进入一个新阶段。企业不再评估AI技术是否令人兴奋，而是重点评估其是否能够安全、大规模地部署。这一转变标志着市场对AI的关注点已从概念验证转向实际应用与规模化落地。

大佬观点部署/工程

22:39

ginobefun@hongming731

阿里 ATA 这篇文章有点骚，把 Claude Code 从本地 CLI 工具部署到云端、通过魔改 SDK 实现 HTTP 流式调用，并利用沙箱实现多用户隔离。

Anthropic MCP/工具教程/实践部署/工程

22:00

OpenRouter：Announcements（RSS）

OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 完成 1.13 亿美元 B 轮融资，由 CapitalG 领投，多家机构跟投，现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续参与。

行业动态部署/工程

22:00

OpenRouter：Announcements（RSS）

同事件精选63

OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 宣布获得 1.13 亿美元 B 轮融资，由 CapitalG 领投，NVentures、ServiceNow Ventures 等多家机构参投，现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续跟投。

行业动态部署/工程

同一事件，精选展示《OpenRouter 获得1.13亿美元B轮融资》

推荐理由：OpenRouter融了1.13亿美元，领投方CapitalG，跟投名单里几乎全是云计算巨头，这不是一家公司的钱，是基础设施层的一次战略布局，开发者选模型的路由成本可能因此改写。