4月20日

15:44

Chubby♨️@kimmonismus

据报道，Google 正在与 Marvell Technology 洽谈共同开发两款新的 AI 芯片，包括一款旨在与 Google TPUs 配对的内存处理单元，以及一款专为运行 AI 模型而优化的新型 TPU。此举凸显了 Google 加强其硬件堆栈并将 TPUs 定位为 Nvidia 主导 GPUs 的更有力替代品的更广泛努力。

Google 行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

LLM Safety From Within：利用内部表征检测有害内容

研究团队提出了一种名为SIREN的轻量级防护模型，通过利用大型语言模型内部各层的安全相关特征来检测有害内容。该方法采用线性探测识别安全神经元，并通过自适应层加权策略整合信息，无需修改底层模型。评估显示，SIREN在多项基准测试中显著优于当前最优的开源防护模型，且可训练参数数量仅为后者的1/250。该模型对未见过的基准测试具有优异的泛化能力，支持实时流式检测，并比生成式防护模型大幅提升了推理效率。

安全/对齐论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Flash-SemiCRF 流式结构化推理

Flash-SemiCRF 通过流式计算突破半马尔可夫条件随机场（semi-CRFs）的内存瓶颈，实现超长序列精确推理。该方法用前缀和数组即时计算替代存储边势张量，内存占用随片段长度与标签数量乘积大幅降低；采用流式前向-后向传递与检查点边界归一化，保持工作内存亚线性增长，可处理超过10万位置的基因组序列。方案融合为Triton内核，解决了传统方法在大状态空间下的不可行问题。

论文/研究部署/工程

05:37

Hacker News 热门（buzzing.cc 中文翻译）

内存短缺可能持续数年

内存市场面临严重的供应短缺危机，且这一状况预计将持续数年。需求激增与产能扩张之间的结构性失衡导致供应链持续紧张，可能对全球数据中心建设、人工智能训练及消费电子产业造成长期影响。行业分析师警告，短期内难以缓解的短缺态势将推高内存产品价格，并制约下游科技制造业的发展。

现象/趋势部署/工程

00:00

Anthropic：Newsroom（网页）

Anthropic与Amazon扩大合作，承诺投入超千亿美元获取5吉瓦算力

Anthropic与Amazon签署十年协议，承诺向AWS投入超1000亿美元以获取高达5吉瓦算力，用于Claude训练与部署。Amazon追加投资50亿美元（未来可达200亿美元），新容量包括上半年上线的Trainium2及2026年底前部署的近1GW Trainium2与Trainium3。Claude Platform将直接集成AWS，目前超10万客户通过Bedrock使用Claude，Anthropic年化收入已突破300亿美元。

Anthropic 行业动态部署/工程

4月19日

23:07

Hacker News 热门（buzzing.cc 中文翻译）

基于 Apple Silicon 的 WebAssembly 零拷贝 GPU 推理

教程/实践端侧部署/工程

17:44

Rohan Paul@rohanpaul_ai

Prefill-as-a-Service：下一代模型KV Cache可跨数据中心

新一代混合注意力模型通过压缩KV Cache，使Prefill-as-a-Service架构成为可能。该方案将重计算的Prefill阶段卸载至远程集群，仅回传轻量KV Cache至本地解码，短请求则本地处理。配合智能路由与带宽感知调度，可在普通以太网高效传输。实测1T参数模型显示，50%请求远程处理时跨集群流量仅13Gbps，吞吐量提升54%，打破长上下文AI局限于单一数据中心的瓶颈。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

自回归视频生成的推测解码

本文提出SDVG框架，首次将推测解码应用于自回归视频生成。通过图像质量路由器替代token验证：1.3B draft模型生成候选块，经VAE解码后采用ImageReward worst-frame评分，高于阈值tau的块被接受至14B目标模型。关键设计包括强制拒绝首块以稳定场景构成，以及通过单一阈值平衡质量与速度。在832x480分辨率下，实现1.59倍加速（保留98.1%质量）至2.09倍加速（保留95.7%），无需训练即可集成到现有流程。

arXiv 视频论文/研究部署/工程

07:07

SemiAnalysis@SemiAnalysis_

Positron AI 想要在单台服务器上运行 16 万亿参数模型。

行业动态部署/工程

03:37

SemiAnalysis@SemiAnalysis_

在 GTC 2024 上，Jensen 表示 GB200 NVL72 比 Hopper 快 35 倍。没人相信，认为这是经典的 fake Jensen Math。当我们测试其性能时，它不仅快了 35 倍，即使面对采用了 MTP、Disagg prefill、wideEP 等所有推理优化组合的强大 Hopper 基线，也快了 50 倍以上。在 InferenceX.com 查看详细结果。

评测/基准部署/工程

02:06

Hacker News 热门（buzzing.cc 中文翻译）

Opus 4.7 至 4.6 版本的通胀率约为 45%

监测数据显示，Opus 4.7版本相较4.6版本的token"通胀率"高达45%，即新版本生成内容时消耗的token数量较上一版本大幅增加，直接导致API调用成本上升。该数据来自tokens.billchambers.me的模型对比排行榜，在Hacker News上获得133个赞。

Anthropic 评测/基准部署/工程

02:05

OpenAI Developers@OpenAIDevs

运行代码的 Agents 需要在工作开始时准备好受控的工作空间。 @modal 分享了为何规模对使用 Agents SDK 构建的长时间运行 Agents 至关重要。

智能体 OpenAI 教程/实践部署/工程

4月18日

23:44

Chubby♨️@kimmonismus

Meta 投资者一直担心的裁员即将到来，约 8，000 个岗位将从 5 月 20 日开始裁撤，约占其 79，000 名员工总数的 10%。主要是为了腾出数十亿美元用于 AI 基础设施，将资源从人力成本转向数据中心、芯片和先进模型，正如 Mark Zuckerberg 所强调的那样。

Meta 行业动态部署/工程

16:36

The Decoder：AI News（RSS）

据报道扎克伯格以人力换算力，Meta准备裁员10%以资助AI基础设施

Meta计划于5月20日裁撤约8000名员工，并将在今年晚些时候启动第二波裁员，总计可能削减超过20%的 workforce。此举旨在通过大幅降低人力成本来抵消公司在AI基础设施上的巨额支出，标志着扎克伯格正推动资源从人员配置向计算能力转移的战略转型。

Meta 行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

确定性幻觉：解耦在线策略蒸馏中的能力与校准

研究发现在线策略蒸馏（OPD）在提升任务准确率的同时，会系统性导致模型过度自信，形成"错误校准的缩放定律"。该问题源于训练时教师模型的特权上下文与部署时信息的不匹配。为此提出 CaOPD 框架，通过模型 rollout 估计经验置信度，并以学生基础目标替代自报告置信度进行蒸馏。实验表明，CaOPD 在保持模型竞争力的同时实现帕累托最优校准，且在分布外和持续学习场景下稳健泛化。

arXiv 数据/训练论文/研究部署/工程

07:58

Hacker News 热门（buzzing.cc 中文翻译）

超大规模科技公司的支出已超过美国大多数知名大型项目

超大规模科技公司（Hyperscalers）的资本支出总额已超过美国历史上多数标志性大型工程。这些企业在数据中心、云计算及AI基础设施上的投入规模，累计超越了阿波罗登月计划、州际公路系统等传统巨型项目。这一对比凸显了科技巨头在数字基础设施建设上的巨额资本配置，其年度支出水平正重塑全球投资格局，标志着私人部门技术投资已进入超越传统公共工程时代的新阶段。

现象/趋势部署/工程

07:44

Epoch AI@EpochAIResearch

2025年，OpenAI 宣布了 Stargate，一项 5000 亿美元的数据中心计划。我们调查了全部 7 个美国站点，发现每个都有可见的进展。前路漫漫，但该项目似乎有望在 2029 年达到 9+ GW--相当于纽约市的峰值电力需求。🧵

OpenAI 行业动态部署/工程

07:30

Greg Brockman@gdb

Stargate 是迈向满足算力驱动型经济需求的一步。

Epoch AI: In 2025, OpenAI announced Stargate, a $500 billion data center initiative. We surveyed all 7 US sites and found visible ...

OpenAI 行业动态部署/工程

03:44

Chubby♨️@kimmonismus

即使经过通胀调整，如今全球年度数据中心资本支出大致相当于每年 5-7 个 Manhattan Project（约 2500-3000 亿美元，而 Manhattan Project 按今日美元计算约为 250-300 亿美元）。

Fin Moorhouse: The hyperscalers have already outspent the most famous US megaprojects

现象/趋势部署/工程

4月17日

22:28

Hacker News 热门（buzzing.cc 中文翻译）

科技巨头如何将保密条款写入欧盟法律，以掩盖数据中心对环境造成的破坏

科技巨头通过游说将保密条款植入欧盟法律，使企业得以商业机密为由隐瞒数据中心的环境影响数据。Investigate Europe的调查揭示，这些条款阻碍了公众获取能耗、碳排放及水资源消耗等关键信息，让科技行业能够掩盖其数字基础设施对环境的实际破坏，规避有效监管与气候问责。

政策/监管部署/工程

21:05

Cloudflare Blog

Agent Readiness 评分正式发布：你的网站是否已做好 agent 准备？

Cloudflare 推出 Agent Readiness 评分体系，帮助网站所有者量化评估其网站对 AI agent 的支持能力。该体系建立全新技术标准，并基于 Radar 数据监测分析。Cloudflare 通过重构文档站点，将其打造为全网对 agent 最友好的网站，为行业提供了可复现的优化范例，推动网站基础设施向 AI 代理友好型架构升级。

智能体产品更新部署/工程

21:02

Cloudflare Blog

共享字典：适应代理式网络的压缩技术

技术团队预告了共享压缩字典功能的上线计划，这项压缩技术专为适应代理式网络的发展需求而设计，能够显著缩短页面加载时间并提升传输效率。该功能目前处于预览阶段，具体的 beta 测试开放时间即将公布，用户很快就能亲自体验这项新技术。

智能体产品更新部署/工程

21:00

Cloudflare Blog

推出 Flagship：面向 AI 时代的功能标志服务

Cloudflare 发布原生功能标志服务 Flagship，直接构建于其全球网络之上，旨在消除第三方供应商的延迟。该服务利用 KV 和 Durable Objects 技术，实现亚毫秒级的 flag 评估速度，满足 AI 时代对实时性能的需求，为开发者提供低延迟的功能开关能力。

产品更新部署/工程

21:00

Cloudflare Blog

Unweight：我们如何在不牺牲质量的情况下将 LLM 压缩 22%

Cloudflare 发布无损推理时压缩系统 Unweight，可在不牺牲模型质量的前提下，将大语言模型（LLM）的占用空间减少 22%。该系统针对 GPU 内存带宽进行优化，使推理速度更快、成本更低，解决了在网络边缘大规模部署 LLM 时的内存效率挑战，实现了模型体积与计算资源的高效平衡。

论文/研究部署/工程

15:53

HuggingFace Daily Papers（社区热门论文）

TRACER：面向LLM分类的基于轨迹的自适应成本效益路由

开源系统TRACER利用LLM生产日志训练轻量级替代模型，通过设置一致性阈值α作为部署门控，仅在替代模型与教师模型（如Sonnet 4.6）一致率达标时激活，实现近零边际成本的推理。系统生成可解释性产物明确能力边界。在77类意图识别基准测试中，替代模型覆盖率达83%-100%；在150类任务中完全替代教师模型；而在自然语言推理任务中，系统正确识别嵌入表示不足并拒绝部署。

Hugging Face 数据/训练论文/研究部署/工程

10:28

SemiAnalysis@SemiAnalysis_

在SemiAnalysis，我们已厌倦近来随处可见的极简风格网页应用和落地页。今天，我们在inferencex dot com推出Minecraft模式，让你在了解最新加速器性能的同时，逃回童年。

产品更新部署/工程

09:58

karminski-牙医@karminski3

Unsloth发布2bit量化Qwen3.6，工具调用能力暴增

Unsloth团队发布Qwen3.6-35B-A3B 2bit动态量化版本，模型体积仅12.3GB且激活内存仅需1GB，可在32GB Mac上流畅运行。测试显示该版本支持30余次工具调用，相较之下前代Qwen3.5-35B-A3B的8bit版本仅能完成4-5次调用即出现性能衰减。这一突破意味着大模型在端侧设备上的实用性和多步骤任务处理能力获得显著提升。

智能体开源/仓库端侧部署/工程

09:44

Rohan Paul@rohanpaul_ai

白宫部署Anthropic Mythos模型强化网络防御

白宫拟向主要联邦机构提供Anthropic Mythos模型，用于主动猎捕软件漏洞。该模型可在攻击者之前识别操作系统、浏览器及服务器中的安全缺陷，加速修复进程。此举体现美国政府将AI网络防御视为关键战略能力，既承认其不可替代的防御价值，又强调必须通过严格管控防止技术滥用。

Anthropic 编码行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

及时止损！面向高效并行推理的早期路径剪枝学习

针对并行推理中早期错误导致无效路径的高成本问题，研究团队提出首个路径剪枝系统化分类框架，并开发了基于可学习内部信号的STOP（Super TOken for Pruning）方法。在1.5B至20B参数的大型推理模型评估中，该方法在固定计算预算下将GPT-OSS-20B在AIME25基准的准确率从84%提升至近90%，有效性与效率均优于现有基线。研究同时提供了形式化的经验部署指南。

推理论文/研究部署/工程

07:47

TestingCatalog News 🗞@testingcatalog

Google 正在 AI Studio 上推出对 Google AI 计划的支持！ > 在 AI Studio 中访问一系列模型、更高的限额，以及更多跨 Google 产品的功能 > 按请求付费选项提供对"All models & agents"的访问，而 Google AI 订阅则不提供。 AI Studio 上的 Agents？👀

智能体 Google 产品更新部署/工程

07:28

SemiAnalysis@SemiAnalysis_

NVIDIA vLLM NVL72 优势：与 B200 相比，GB200 NVL72 在 @Kimi_Moonshot 的 Kimi K2.5 上性能提升高达 3 倍。这得益于 GB200 的纵向扩展网络，支持前沿推理优化，如宽专家并行。向 @rogerw0108 @NVIDIAAIDev @vllm_project @inferact @simon_mo_ 致敬，出色的工作！🚀 不仅 SGLang 针对分解+宽专家并行进行了优化，vLLM 也进行了优化！

产品更新推理部署/工程

06:58

SemiAnalysis@SemiAnalysis_

FlashInfer开源近1400个高性能GPU内核

FlashInfer开源近1400个TRT-LLM-Gen高性能GPU内核，针对LLM推理优化。以W4A16量化GEMM为例，采用INT4权重与BF16激活，通过3级流水线及Warp专精化（加载、反量化、MMA、Epilogue）提升并行效率。因INT4反量化需CUDA核心处理寄存器，MMA被迫使用TS模式而非TMEM，导致SMEM带宽瓶颈。方案借鉴Cursor设计，通过流水线隐藏CUDA与Tensor Core计算差距，缓解吞吐量损失。

Alex Zhurkevich: Trtllmgen kernels are now open. Fastest prefill and decode kernels for our target workloads. We wrote these to win Infer...

开源/仓库部署/工程

04:57

SemiAnalysis@SemiAnalysis_

NVIDIA 拥有垄断地位。Thomas Sohmers 不为所动。 @JordanNanos 与 @Positron_AI 的联合创始人兼 CTO 坐下来讨论 FPGA 推理、LPDDR 内存，以及在单个设备上运行 16T 参数模型。 @trsohmers 收看：https://youtu.be/B8O3pLcX2w4

行业动态部署/工程

04:27

Hacker News 热门（buzzing.cc 中文翻译）

Artifacts：支持 Git 的版本化存储

Cloudflare 发布 Artifacts 测试版，这是一个原生兼容 Git 协议的版本化存储服务，专为 AI Agent 设计。开发者可直接使用标准 Git 命令管理代码、配置和模型文件的版本历史，支持分支、合并等完整操作。该服务提供与 Git 完全兼容的接口，无需额外工具适配。项目在 Hacker News 获得 101 个赞，目前处于 Beta 阶段，技术细节已在官方博客公布。

智能体产品更新部署/工程

01:44

Epoch AI@EpochAIResearch

勘误：昨天，我们发现我们对芯片持有者的部分估算数据已过时--Oracle 的 Nvidia 算力未按预期从"其他"类别中扣除。这使得"其他"类别虚增了约100万 H100e，占总体总量的5%。在我们修正后的数据中，超大规模云服务商持有全球 AI 算力的71%。【引用 @EpochAIResearch】：五家公司--Google、Microsoft、Meta、Amazon 和 Oracle--目前控制着全球约三分之二的算力，较2024年初的约60%略有上升。许多 AI 实验室（包括 OpenAI 和 Anthropic）几乎完全依赖这些超大规模云服务商来获取算力。

Epoch AI: Five companies - Google, Microsoft, Meta, Amazon, and Oracle - now control about two-thirds of the world's compute, up s...

Google Microsoft 现象/趋势部署/工程

00:44

宝玉@dotey

马斯克xAI变身GPU出租商，首个客户是编程工具Cursor

xAI计划向Cursor出租数万GPU用于训练Composer 2.5，标志其从模型开发向云计算服务转型。内部备忘录显示，xAI的GPU利用率仅11%（行业正常35-45%），20万块Nvidia GPU大量闲置，出租旨在回血。双方关系微妙，xAI刚挖走Cursor两位高管。Cursor面临激烈竞争，此前Composer 2基于Moonshot AI模型，现借xAI算力寻求突破。

X Daily News: NEWS: xAI plans to supply tens of thousands of GPUs to coding startup Cursor to train its upcoming Composer 2.5 AI model...

xAI 编码行业动态部署/工程

4月16日

22:05

Cloudflare Blog

Cloudflare AI 平台：专为智能体设计的推理层

Cloudflare 将 AI Gateway 重构为统一的 AI 推理层，开发者可通过单一接口调用 14 家以上提供商的模型。新版本集成 Workers AI 绑定功能，并扩充了多模态模型目录，专为 AI 智能体优化设计。该平台旨在简化跨服务商的模型调用流程，降低多模型集成的技术门槛。

智能体产品更新部署/工程

22:00

Cloudflare Blog

构建超大型语言模型运行基础架构

Cloudflare 针对超大型语言模型推理需求打造了专属技术栈，通过在其全球基础设施上部署定制化高性能 AI 推理系统，实现了大模型的低延迟运行。该方案深入剖析了工程权衡与技术优化路径，解决了超大规模模型部署中的性能瓶颈，使企业无需自建复杂基础设施即可获取高性能 AI 推理能力。

产品更新部署/工程

21:49

Satya Nadella@satyanadella

我们位于 Wisconsin 的 Fairwater 数据中心提前上线。作为全球最强大的 AI 数据中心，它将把数十万台 GB200 整合进一个无缝集群。祝贺所有促成此事的团队！【引用 @satyanadella】：如果智能是计算的对数……那它始于大量计算！这就是为什么我们扩展 GPU 集群的速度比任何人都快。仅去年一年，我们就增加了超过 2 吉瓦的新容量--大约相当于 2 座核电站的输出。今天我们更进一步，宣布全球最强大的 AI 数据中心，位于 Wisconsin 东南部。 Fairwater 是一个由数十万台 NVIDIA GB200 组成的无缝集群，连接所需的光纤足以绕地球 4.5 圈。它将提供当今世界最快超级计算机 10 倍的性能，实现前所未有的 AI 训练和推理工作负载。对于 AI 训练工作负载，你需要指数级规模的计算。这就是为什么我们将数据中心、GPU 集群和网络设计为一个集成系统。这确保从第一天起，单个作业就能在数千个 GPU 上以指数级规模运行。 Fairwater 使用液冷闭环系统为 GPU 散热，建成后运营无需用水。而且我们将所有消耗的能源与可再生能源相匹配。当然，这只是我们在 70 多个区域启用的多个类似站点之一。除了已在全球 100 多个数据中心部署的 AI 基础设施外，我们还在美国其他地点建设多个相同的 Fairwater 数据中心，为全球规模的模型训练、测试时计算、RL 微调和实时推理提供动力。在这样的时期，人们常常随波逐流，事后才想，我们是怎么走到这一步的？通过 Fairwater，我们正在开辟一条新道路：做艰苦的工程工作，将计算、网络和存储整合到一个高度扩展的集群中，并设计闭环能源系统以满足现实世界的计算需求。并与当地社区合作，确保以可持续、创造新就业机会和扩大机会的方式深思熟虑地完成。我们很高兴看到这在 Wisconsin 落地，而我们才刚刚开始。

Satya Nadella: If intelligence is the log of compute... it starts with a lot of compute! And that's why we're scaling our GPU fleet fas...

Microsoft 行业动态部署/工程

21:09

Hacker News 热门（buzzing.cc 中文翻译）

仅13小时内，因Firebase浏览器密钥无限制访问Gemini API，损失激增5.4万欧元

一名开发者在Google AI开发者论坛披露，其Firebase项目的浏览器密钥因未设置API访问限制，短短13小时内被恶意调用Gemini API，导致账单激增5.4万欧元。该事件暴露了客户端API密钥配置不当可能引发的巨额成本风险，警示开发者需严格限制密钥权限。

Google 安全/对齐部署/工程