5月28日

06:07

Rohan Paul@rohanpaul_ai

The Grid推出新的LLM推理平台，用实时供需市场定价取代传统的固定费率。它按任务难度分层：简单任务（如分类）用“standard”，常规生产任务（如RAG、智能体步骤）用“prime”，高难度任务（如长上下文推理）用“max”。应用将请求发送至The Grid，平台会自动匹配该层级当前最便宜的可用供应商。开发者仍使用单一API，但后端模型可动态切换。新账户享受前200 million tokens免费额度。文中以Hermes Agent集成为例，展示了如何通过“agent-prime”层级处理工单。

产品更新推理部署/工程

04:38

TechCrunch：AI（RSS）

对亚马逊而言又一利好消息，Snowflake与AWS签署60亿美元AI CPU芯片协议

Snowflake与AWS签署了一项为期五年、价值60亿美元的协议，以确保其AI工作负载所需的CPU芯片供应。此举为Amazon带来了显著利好，并可能对Nvidia在AI芯片领域的市场地位构成压力。

推理行业动态部署/工程

04:08

Ars Technica：AI（RSS）

Nvidia CEO 希望台湾成为"AI革命"的中心，而非美国

Nvidia CEO 表示，Nvidia 将每年投资 1500 亿美元，旨在将台湾打造为“AI中心”。

数据/训练行业动态部署/工程

04:08

TechCrunch：AI（RSS）

薪资初创公司 Remote 称，其每位员工收入增长50%，且未增加员工数量

薪资服务商 Remote 近期年经常性收入（ARR）突破3亿美元，并实现现金流转正。这一增长得益于采用AI技术，使该公司每位员工产生的收入提升了50%，且此过程中未扩充团队规模。

数据/训练行业动态部署/工程

02:31

小互@xiaohu

OpenRouter完成1.13亿美元B轮融资，周交易量激增5倍

OpenRouter 完成了 1.13 亿美元 B 轮融资在过去 6 个月里，OpenRouter 的每周交易量从 5T Tokens 增长到 25T Tokens... Token 专卖看来是个大生意... 中转的也赚的很厉害

OpenRouter: Today we're announcing our $113M Series B led by @CapitalGVC. Over the last 6 months, weekly volume on OpenRouter grew f...

行业动态部署/工程

02:00

Hao AI Lab@haoailab

精选70

🚀仅需7秒即可生成30秒1080p视频！我们开源了FastVideo Dreamverse：基于单张NVIDIA B200 GPU和LTX-2模型，实现实时视频生成的氛围引导工具。 Repo： https://github.com/hao-ai-lab/FastVideo/tree/main/apps/dreamverse Blog： https://haoailab.com/blogs/fastvideo-dreamverse-release/

GitHub 开源/仓库视频部署/工程

推荐理由：7秒钟出30秒1080p视频，而且完全开源，视频生成速度被拉到实时边缘，虽然B200不是人人有，但路线值得所有做视频产品的同行研究。

01:53

swyx@swyx

Railway推出"代理原生云"，宣称拥有3M用户、每周10万注册量，其编码智能体上的支出超20万美元。创始人阐述了AI智能体为何需要新型云环境：Railway已将大部分工作负载迁移至自有的裸机数据中心，智能体使得CLI（命令行界面）比仪表盘更重要，而传统的Git/PR/CI/CD循环开始失效。文章还介绍了如何通过生产分支和功能开关使AI SRE更安全，并引用其观点："如果你还在手动写代码，那你就是做错了。"

Latent.Space: 🆕Railway's Agent-Native Cloud: 3M users, 100K signups/week, $200K+ coding agent spend, production forks, & the death of...

智能体大佬观点部署/工程

00:52

OpenRouter@OpenRouter

很荣幸入选 @Redpoint 的 2026 InfraRed 100 榜单！

行业动态部署/工程

5月27日

23:59

Perplexity@perplexity_ai

精选68

我们开源了重新构建的Unigram分词器，可将CPU占用降低5-6倍。小型重排序器和嵌入模型在GPU上运行时间仅为个位数毫秒，使得CPU分词成为总延迟的重要组成部分。 http://github.com/perplexityai/pplx-garden

开源/仓库部署/工程

推荐理由：Perplexity 开源的这个 tokenizer 能把 CPU 利用率砍掉五六倍，做实时推理的团队值得立马试试，对延迟敏感的场景是实打实的优化。

23:53

Claude@claudeai

Claude Marketplace 新增成员：@augmentcode、@boltdotnew、@coderabbitai、@hebbia 和 @WeAreLegora。您现有的 Anthropic 消费承诺可用于购买其 Claude 驱动的产品。了解更多：http://claude.com/platform/marketplace

Claude: Introducing the Claude Marketplace, a way for enterprises to simplify their procurement of AI tools. Now in limited prev...

Anthropic 产品更新部署/工程

23:27

Berryxia.AI@berryxia

Warp支持合盖自动切换Agent至云端运行

Warp最新版解决AI智能体跨夜运行痛点：用户合上笔记本电脑后，当前智能体会自动无缝切换到云端继续执行任务，上下文完整保留。设置路径为Agents -> Warp Agent -> Cloud Handoff。此前用户需保持电脑开机以维持智能体运行，此次更新将“离线连续执行”设为默认能力，使智能体工作流更接近实用工具，支持离线后云端持续推进项目状态。

Warp: You can now close your laptop to automatically send agent conversations to the cloud. Live in the latest version (yes, r...

智能体产品更新部署/工程

23:14

IT之家（RSS）

SpaceX 坦言 AI 芯片供给不足，TeraFab 项目可能无法取得成功

SpaceX 在 IPO 前提交的 S-1 文件中坦言，当前可调配的 AI 芯片数量远不能满足其推进轨道人工智能规模化的需求。公司所有 GPU 均依赖采购订单临时采购，未与供应商签订长期协议。为缓解供应链风险，SpaceX 与特斯拉、英特尔计划在得克萨斯州联合建设专属半导体生产基地 TeraFab，采用英特尔 14A 制程，但该项目存在失败风险，且特斯拉与英特尔均无长期参与义务。

xAI 行业动态部署/工程

22:34

Ethan Mollick@emollick

Token 从一年前无人问津到如今成为编程的绝对必需品，这引发了焦虑，而非 AI 无用。没人知道谁该获得 Token，该获得多少，以及如何控制。

推理现象/趋势部署/工程

22:20

Hugging Face：Blog（RSS）

精选61

TRL 新增 Delta Weight Sync：通过 Hub Bucket 传输权重变化，每步从 1.2 GB 降至 20-35 MB

异步强化学习中，训练器每步需将完整模型权重（如1T参数checkpoint约1 TB）传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点，仅将变化的权重编码为稀疏safetensors文件，上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上，每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景：训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中，权重通过单个Hub bucket流动，无需共享集群、RDMA或VPN。

Hugging Face 教程/实践数据/训练部署/工程

推荐理由：异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了，带宽直接省了两个数量级，还给了可运行的TRL分支，做RL训练的可以直接上手试。

22:05

Rohan Paul@rohanpaul_ai

Uber COO：AI"tokenmaxxing"尚未证明能可靠创造成功功能

Uber首席运营官Andrew Macdonald对当前AI应用热潮中的“tokenmaxxing”现象提出质疑。他指出，当公司高调宣称上季度25%的代码提交由AI驱动或token使用量显著增长时，这些亮眼数据并未转化为实际的产品成功。他询问资深工程负责人是否有原本搁置的项目因此得以推进，得到的答复是否定的。这与Uber CEO Dara Khosrowshahi此前描绘的乐观图景形成对比：后者曾表示90%的工程师使用AI，其中头部30%的用户生产力获得前所未有的提升，并预测未来AI智能体和GPU算力的投资回报率将超越人类工程师。

Rohan Paul: Uber CEO Dara Khosrowshahi said earlier that currently, 90% of Uber's engineers use AI, but the top 30% (power users) ar...

大佬观点部署/工程

21:11

Fuli Luo@_LuoFuli

MiMo API价格调整背后的技术逻辑

本次价格调整源于模型架构与推理框架带来的结构性成本优势。推理框架层面，对SWA的层级KV cache优化使缓存容量提升5倍，相当于缓存成本降低80%，再结合混合模型中多个Full Attention模块的缓存读取重叠，进一步降低了实际成本。模型架构层面，MiMo-V2.5-Pro实现了极端的1:7 Full:SWA稀疏比例，其预填充计算量极低，使得原始推理成本远低于行业平均。因此，输入（缓存命中）价格最高降幅达99%，输入（缓存未命中）和输出价格降幅为60%-80%。此番调整是将效率提升直接让利给开发者，而非亏损运营。

大佬观点推理部署/工程

20:27

Berryxia.AI@berryxia

OpenRouter完成B轮融资，token处理量大幅增长

OpenRouter宣布完成1.13亿美元B轮融资，由CapitalG领投，a16z、NVIDIA的NVentures等跟投。过去6个月，其平台每周处理的token量从5T增长至25T。该平台提供统一API，可切换包括50多个免费模型在内的500多个大语言模型，并提供私有聊天功能。此轮融资和增长数据反映了市场对其多模型时代基础设施价值的认可。

OpenRouter: Today we're announcing our $113M Series B led by @CapitalGVC. Over the last 6 months, weekly volume on OpenRouter grew f...

行业动态部署/工程

18:35

Chubby♨️@kimmonismus

DeepSeek与小米MiMo大模型降价的技术根源

DeepSeek V4-Pro宣布永久降价75%，小米MiMo V2.5降价高达99%。此次降价核心是架构革新带来的成本结构性降低。DeepSeek V4通过混合注意力架构大幅压缩了长上下文推理的KV缓存，使其在100万token时仅为V3.2的10%，单token推理FLOPs降至27%。小米MiMo团队则通过SGLang HiCache实现滑动窗口注意力，将KV缓存跨内存数据传输量减少至约1/7。这些架构优化使V4-Pro定价降至$0.87/百万输出token，MiMo V2.5-Pro约为$3/百万，两者均为拥有百万上下文窗口的前沿级模型。降价源于推理与缓存成本的实质性下降。

DeepSeek 大佬观点推理部署/工程

18:14

IT之家（RSS）

Waymo自动驾驶汽车半路"撂挑子"，客服建议乘客改打 Uber 或 Lyft

本月，一名乘客在旧金山乘坐Waymo自动驾驶出租车，距离酒店仅约0.48公里时车辆突然停止并拒绝前进。Waymo客服称前方存在“巨大阻塞”，并建议乘客改用Uber或Lyft。Waymo事后解释，因获悉当地有“计划中的抗议活动”而对车辆设置了限制。该乘客最终步行返回酒店，其妻子因残障步行不便，Waymo退还了车费。乘客认可Waymo技术表现，但此次经历让他怀疑该服务在纽约等更复杂城市的推广能力。此前，Waymo还曾因车辆误入积水区域而发布召回并暂停了部分城市的服务。

具身智能行业动态部署/工程

16:14

IT之家（RSS）

首批第三方 PCIe Gen6 SSD 将至：十铨 T-CREATE MASTER Ai I6E 顺序读可达 28GB/s

十铨科技将在Computex 2026展出一系列存储器新品。核心产品是面向AI训练、超大规模推理等高性能计算场景的T-CREATE MASTER Ai I6E固态硬盘。作为首批第三方PCIe Gen6 SSD，它采用EDSFF E1.S规格，顺序读取速度可达28GB/s。面向消费市场，将发布以碳纤维设计为核心的CARBON STYLE系列，涵盖DELTA RGB DDR5、XTREEM DDR5内存及基于群联E37T主控的Z54E固态硬盘。此外，整合微型风扇与水冷系统的T-FORCE LIQUID II SSD散热器、CQDIMM版本的T-CREATE EXPERT AI内存条等新品也将亮相。

产品更新数据/训练部署/工程

15:37

MarkTechPost（RSS）

认识 EAGLE 3.1：修复 LLM 推理中注意力偏移的投机解码算法

EAGLE团队与vLLM、TorchSpec联合发布EAGLE 3.1，旨在修复大语言模型推理过程中的投机解码算法不稳定性问题。

开源/仓库推理部署/工程

14:14

IT之家（RSS）

年产 1533 亿 Gb DRAM 内存芯片，三星越南首座半导体测试工厂有望明年投产

三星计划在越南太原省投资约100.23亿元人民币，建设其首座芯片测试工厂。该厂已动工，目标2027年11月投产，年测试产能规划为1533亿Gb DRAM芯片与2556亿Gb NAND芯片。此举旨在应对成熟存储芯片因产能转向AI相关领域而出现的短缺，提升芯片交付链条的出货效率与供应稳定性。

行业动态部署/工程

14:14

IT之家（RSS）

全球首次实现：我国突破超大规模AI药物筛选技术，千亿级分子库秒级检索

国家超级计算天津中心与清华大学团队联合发布了面向超大规模药物发现的人工智能虚拟筛选平台GalaxyVS。该平台依托新一代天河超算系统，在全球范围内首次实现对近千亿级可合成化合物空间的秒级虚拟筛选。实测数据显示，系统单次检索千亿分子库几十秒内即可完成，平均单个靶点口袋检索用时不到1秒，日吞吐量达约16万亿次分子对接。该平台旨在破解传统药物研发难题，为肿瘤、罕见病等领域的先导分子发现提供新路径。

产品更新部署/工程

13:13

IT之家（RSS）

华为发布"韬定律"引发全球热议

华为董事何庭波发布“韬（τ）定律”，提出通过“逻辑折叠”等系统级创新对冲传统制程限制。摩根士丹利将其视为“AI与高速光通信产业的超级催化剂”；彭博社称其为对美国制裁的“系统级反绞杀宣言”。《EE Times》指出华为过去6年量产了381款系统级芯片，新款麒麟芯片晶体管密度将大幅提升。SemiAnalysis认为其核心优势在AI算力集群的高速互联。TechInsights则质疑其垂直堆叠带来的严重散热挑战。

行业动态部署/工程

12:03

Alibaba Cloud@alibaba_cloud

面临Agent混乱的困扰？🌪️ 阿里云全新的Agent Infra解决了5个关键痛点： 🛠️ AgentRun：一站式构建与部署 🤝 AgentTeams：安全的多Agent治理 📈 AgentLoop：可观测性与优化飞轮 🚀 STAROps：自主AI运维专注于成果，而非工程。阅读完整解析！👇 https://int.alibabacloud.com/m/1000413461/ #AI #云计算 #DevOps

智能体产品更新部署/工程

11:35

公众号：面壁智能（MiniCPM）

精选64

AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学、OpenBMB发布ForgeTrain，全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。在英伟达H100上训练速度超越Megatron 10%，节省10%算力；在华为昇腾上完整跑通预训练，并训出MiniCPM5-1B模型，综合性能在AA榜单2B规模以下Top1。框架及Agent Harness工具链一并开源。

开源/仓库数据/训练部署/工程

关联讨论 1 条

推荐理由：面壁这波把 AI 写代码从玩具推进到了生产车间，ForgeTrain 跑得比英伟达 Megatron 还快 10%，而且直接在昇腾上训出了 MiniCPM5-1B，国产算力跟 AI 自举这两条线在这一刻交汇了，做训练的可以认真看看。

11:07

SemiAnalysis@SemiAnalysis_

下一代Cerebras CS4将继续采用5nm工艺。原因何在？因为转向3nm并不能神奇地解决SRAM扩展已完全停滞的事实。

现象/趋势部署/工程

10:52

swyx@swyx

AI基础设施正在走向垂直整合

swyx: everyone in ai infrastructure* is finally getting filthy rich and it is so nice to see them succeed *not the sexy ai res...

现象/趋势部署/工程

10:19

HuggingFace Daily Papers（社区热门论文）

MUSE-Autoskill：通过技能创建、记忆、管理与评估实现智能体的自我进化

MUSE-Autoskill 提出了一个以技能为核心的智能体框架，使智能体能够通过统一的技能生命周期（创建、记忆、管理、评估与精炼）持续提升任务解决能力。该框架支持按需创建技能、跨任务存储与重用，并借助单元测试和运行时反馈进行持续改进。它还引入了技能级记忆，用于为每个技能积累跨任务经验。在 SkillsBench 上的初步实验表明，经过生命周期管理的技能可以提升任务成功率、效率、重用性及跨智能体迁移能力，突显了将技能作为长期、可感知经验且可测试的资产的重要性。

智能体 MCP/工具论文/研究部署/工程

10:13

IT之家（RSS）

台积电2026H2将调升3nm报价，AI需求强劲

消息称，受AI服务器领域强劲需求驱动，台积电将于2026年下半年再次上调3nm晶圆代工报价，涨幅最高达15%，并在2027年仍有5~10%的增长空间。其主力3nm厂区Fab18产能利用率维持高位，月产能已从年初约13万片提升至本季度的16~17.5万片。产业链同时指出，当前AI芯片供应瓶颈主要在前端晶圆产能。

行业动态部署/工程

09:39

凡人小北@frxiaobei

Claude Code 新插件 security-guidance：一个写代码，另一个独立的 Claude 实例审查

Claude Code 推出新插件 security-guidance，通过一个写代码的 Claude 实例和一个审查代码的独立 Claude 实例进行协作。两个实例完全隔离，拥有全新上下文和独立提示词。审查过程分三层：每次编辑进行正则匹配、对话轮次结束时审查 diff、在提交/推送时进行读取调用链的智能体审查。任何一层都不直接阻断写入，审查结果会反馈给写代码的实例进行自我修正。关键创新在于审查实例因无“路径依赖”，能发现原实例的盲点。该插件基于 hooks 实现并公开源码，同时支持通过 claude-security-guidance.md 文件添加组织特定策略。

ClaudeDevs: You can add org-specific rules in a claude-security-guidance.md file. Drop it in your repo or distribute via MDM. The pl...

Anthropic 产品更新编码部署/工程

09:30

meng shao@shao__meng

基于 Claude AI、Claude Code、Claude Cowork 三款产品工程实践对 Agent 安全的实战总结

Anthropic 基于 Claude AI、Claude Code 和 Claude Cowork 的工程实践，系统总结了构建安全 AI 智能体的经验。核心原则是防御应随智能体能力演进，并优先使用沙箱来限制破坏性动作。文章详述了三层防御架构（环境层、模型层、外部内容层）及三款产品的隔离模式：Claude AI 使用短暂容器，Claude Code 采用人机协同沙盒，Claude Cowork 则部署密封虚拟机。关键数字包括：Claude Opus 4.7 在 Gray Swan Agent 红队基准上单次攻击成功率约 0.1%，100 次尝试后约 5-6%；Claude Code 自动模式拦截约 83% 的过度积极行为。通过真实攻击案例，强调了环境层防御（如出站阻断）的关键性。

Anthropic: New on the Engineering Blog: The access and permissions we grant agents should evolve with their capabilities. In our ow...

智能体 Anthropic 安全/对齐部署/工程

09:13

IT之家（RSS）

精选70

消息称高通与字节跳动达成 AI ASIC 芯片合作，采购量在数百万颗级别

行业动态部署/工程

关联讨论 1 条

推荐理由：字节跳动数百万颗的采购量，意味着自研芯片落地不只是PPT，高通在ASIC定制上的生意也正式开张了，这会加速大厂从通用GPU转向定制芯片的浪潮。

08:00

HuggingFace Daily Papers（社区热门论文）

将混合专家模型剪枝蒸馏为密集语言模型

提出首个将已训练MoE模型转换为标准全密集架构的系统性框架：对专家进行评分、选择和分组，拼接为密集前馈网络并通过知识蒸馏精炼。在Qwen3-30B-A3B、DeepSeek-V2-Lite和GPT-OSS-20B上评估了7种评分、5种分组和2种幅度缩放方法共350种配置。新提出的多样性感知评分方法一致优于此前方法。在同等参数量下，MoE转密集相比密集到密集剪枝，经过约4B token蒸馏后平均下游准确率提升6.3个百分点，训练速度提升1.6倍。

开源生态论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

FRAPPE：全输入、残差输出自编码器与投影追踪编码器

针对现有媒体压缩标准在率失真复杂度权衡上的瓶颈，研究者提出了一种名为FRAPPE的新型自编码框架。该框架利用投影追踪编码器从全输入预测残差输出，实现了零开销的变速率编码。基于此构建的FRAPPE-Image可变速率RGB图像编解码器，在高压缩比（约0.1 bpp）下，其感知质量优于AVIF，且编码速度提升47倍，能够仅依靠CPU实现实时1080p 30fps的编码。相关代码与预训练模型已开源。

论文/研究部署/工程

07:37

MarkTechPost（RSS）

使用 ZeroEntropy Zerank-2 Reranker 设计高精度检索-重排流水线

介绍如何使用基于 Qwen3、参数规模为 4B 的交叉编码器重排器 Zerank-2 Reranker 构建检索-重排流水线。该流水线先通过快速双编码器检索候选文档，再由 Zerank-2 进行重排以提升检索精度。

检索增强教程/实践部署/工程

07:33

ginobefun@hongming731

Agent系统工程三要：隔离、容错与上下文管理

Anthropic披露三种Claude隔离架构，发现93%权限弹窗被无脑通过，因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级，涵盖模型重试容错、三级权限判断系统和结构化上下文管理，其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案，配合Mermaid图谱，将超长Session的Token消耗降低61%，任务通过率提升52%。三者共同指向智能体工程落地的关键：可靠的隔离边界、稳定的容错机制以及高效的状态管理。

智能体 Anthropic 教程/实践部署/工程

07:33

ginobefun@hongming731

AI Agent系统工程实践聚焦稳定性

早报聚焦Agent系统工程，介绍三篇实践。Anthropic披露Claude的三种隔离架构，并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱，将超长Session的Token消耗降低60%，任务通过率提升52%。三者共同强调，Agent时代的核心在于支撑稳定运行的工程基础。

智能体教程/实践部署/工程

07:13

IT之家（RSS）

小米 MiMo-V2.5 系列 API 永久降价：降幅 57%-99%，Token Plan 计费体系优化、用量提升至原来的 5-8 倍

小米宣布对 MiMo-V2.5 系列 API 进行永久降价，降幅达 57%-99%，且不再区分上下文窗口长度。同时，Token Plan 计费体系优化，套餐用量提升至原 5-8 倍，计费规则更清晰。所有有效套餐用户的 Credits 额度已于 5 月 27 日按新规则全量重置。

产品更新部署/工程

07:07

SemiAnalysis@SemiAnalysis_

PDOOM警报🚨：约48%的端到端LLM延迟是预填充，约52%是解码。预填充本身分为两个操作： 🟠 预填充扩展（缓存写入）--摄入新上下文/文件，写入新的KV token 🟠 缓存读取--重用先前轮次的现有KV缓存

推理现象/趋势部署/工程