4月22日

13:39

Hacker News 热门（buzzing.cc 中文翻译）

CrabTrap：一款采用"大语言模型充当裁判"机制的 HTTP 代理，用于保障生产环境中的代理安全

Brex推出CrabTrap，一款采用"大语言模型充当裁判"机制的HTTP代理安全工具，用于防护生产环境中的AI代理。该系统利用LLM实时审查代理发出的HTTP请求，识别并拦截潜在恶意操作，为企业级AI应用提供安全屏障。目前该产品已正式发布并提供技术文档。

智能体开源/仓库部署/工程

11:10

HuggingFace Daily Papers（社区热门论文）

LoopCTR：解锁循环扩展能力以优化点击率预测

LoopCTR提出一种循环扩展范式，通过递归重用共享模型层将训练计算与参数增长解耦，采用三明治架构结合超连接残差与混合专家，并在各循环深度实施过程监督。该方法实现"训练多循环、推理零循环"策略，单次前向传播即可超越所有基线。实验在三个公开基准及工业数据集上达到SOTA性能，Oracle分析揭示0.02-0.04 AUC的优化空间，且少循环训练模型展现出更高的自适应推理潜力。

arXiv 论文/研究部署/工程

11:08

IT之家（RSS）

黄仁勋：英伟达生产昂贵 AI 硬件，但也生产全球成本最低 Token

英伟达CEO黄仁勋在Cadence Live 2026活动中阐述全栈AI战略，提出以"单位Token成本"替代最大吞吐量作为衡量AI系统的核心指标。尽管Blackwell及下一代Rubin平台硬件造价高达数百万美元，但依托CUDA软件栈深度优化，英伟达实现了全球最低的Token生成成本与Token/瓦特能效比，通过将高昂硬件成本分摊至海量Token产出，建立AI效率竞争壁垒。

大佬观点部署/工程

10:08

IT之家（RSS）

SpaceX IPO前警示：太空AI数据中心或"不可行"

SpaceX在IPO前向投资者发出警告，其太空AI数据中心及月球、火星定居点计划因依赖未经证实的技术，可能无法实现商业可行性。这与CEO马斯克近期"太空是放置AI最便宜的地方"的乐观表态形成鲜明对比。公司提交的S-1文件显示，该计划面临严酷太空环境带来的独特风险。SpaceX正寻求以约1.75万亿美元估值融资750亿美元上市，同时坦言对星舰项目存在严重依赖。

xAI 行业动态部署/工程

09:10

SemiAnalysis@SemiAnalysis_

使用新的 Vera Rubin 机架，可以比以往更快地生成 Toy Jensen 舞蹈教程的 AI 视频。视频生成推理是最受计算限制的工作负载之一。

行业动态视频部署/工程

09:00

公众号：蚂蚁百灵（Ling）

Ling-2.6-flash 发布：更快响应、更强执行、更高 Token Efficiency

模型发布部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

时间扩展混合专家模型

研究团队基于强化学习options框架提出时间扩展MoE架构，通过在每层添加控制器学习专家切换时机，解决传统MoE频繁切换导致的内存效率问题。在gpt-oss-20b上的实验表明，该方法结合低秩适配器与自蒸馏奖励，将专家切换率从50%以上降至5%以下，同时在MATH等基准测试中保持90%的基础模型准确率。这种轻量级方案使现有预训练模型可转换为内存高效的时间扩展MoE，在切换开销与模型能力间实现灵活权衡。

arXiv 论文/研究部署/工程

07:06

ClaudeDevs@ClaudeDevs

缓存对于客户降低成本和 TTFT 至关重要。我们在 Claude Developer Console 推出了新的仪表板，以提高可见性并帮助客户优化使用。在此查看：http://platform.claude.com/usage/cache

Anthropic 产品更新部署/工程

04:36

HuggingFace Daily Papers（社区热门论文）

River-LLM：基于KV共享的大语言模型无缝早退机制

River-LLM是一种无需训练的大语言模型加速框架，通过KV-Shared Exit River机制解决早退技术中的KV缓存缺失问题，使被跳过层缺失的历史状态能在退出过程中自然生成和保留，避免昂贵的重计算或精度损失。该方法利用解码器块内的状态转移相似性预测累积KV误差以指导退出决策，在数学推理和代码生成任务中实现1.71至2.16倍的实际推理加速，同时保持高生成质量。

论文/研究部署/工程

04:15

Rohan Paul@rohanpaul_ai

Opik推出Test Suites：将真实Agent失败trace转化为回归测试

Opik发布Test Suites功能，将生产环境中的真实失败trace转化为回归测试。通过人工编写assertion（如"回复简洁"或"先询问再行动"）定义期望行为，而非简单字符串匹配。团队可将测试集成至CI流程，在代码变更时自动检测行为退化。这种方法让AI代理质量评估从主观直觉转向基于真实证据的可重复验证，避免修复单问题时意外破坏其他场景。

Gideon M: We've worked with thousands of developers building agents. The truth is, no one has a great system for preventing regres...

智能体产品更新部署/工程

02:41

Hacker News 热门（buzzing.cc 中文翻译）

Show HN： GoModel--一个基于 Go 语言的开源 AI 网关

开源项目 GoModel 基于 Go 语言构建，提供 AI 网关功能，代码已发布至 GitHub。该项目于 4 月 21 日在 Hacker News 的 Show HN 板块亮相，获得 102 个赞。GoModel 旨在利用 Go 语言的高并发特性，为 AI 应用提供统一的模型接入和管理层，简化多模型服务的集成与调用流程。

开源/仓库部署/工程

01:19

SemiAnalysis@SemiAnalysis_

Cisco：GPU网络架构带宽需求为传统DCI14倍

Cisco首席架构师在OFC 2026提出scale-across网络架构，与传统DCI连接CPU的前端网络不同，scale-across通过后端网络连接GPU，支持无损同步数据流。超大规模数据中心采用深度缓冲交换机和主动拥塞控制管理带宽超配，其带宽需求约为传统DCI的14倍。这将带动800G相干可插拔光模块、深度缓冲交换机等数十亿美元市场机会，SemiAnalysis即将发布相关支出预测模型。

现象/趋势部署/工程

00:11

Hacker News 热门（buzzing.cc 中文翻译）

Anthropic从亚马逊获得50亿美元投资，并承诺投入1000亿美元用于云服务

Anthropic与亚马逊达成重大合作协议，获得50亿美元投资，并承诺未来在AWS上投入1000亿美元用于云服务。这笔交易凸显了AI公司对云计算算力的巨大需求，以及亚马逊通过战略投资锁定长期云支出的商业策略。50亿美元投资额与1000亿美元云支出承诺形成显著对比，反映出Anthropic对亚马逊云基础设施的深度依赖。

智能体 Anthropic 行业动态部署/工程

4月21日

22:11

IT之家（RSS）

英伟达 DLSS 4.5 SDK 发布，支持将动态多帧生成、光线重构等新技术接入游戏

英伟达正式发布 DLSS 4.5 SDK，基于第二代 Transformer AI 模型，支持开发者将动态多帧生成、光线重构、超分辨率及帧生成等技术整合进游戏。新 SDK 优化了框架结构，提供统一接入路径并支持按需选择，显著降低 AI 图形技术的接入门槛。《83》《原子之心》等游戏将在未来支持该技术，助力新一代 PC 游戏提升性能与画质。

产品更新图像生成部署/工程

20:00

Cursor Blog

精选55

保持 Cursor 应用稳定

Cursor 团队针对用户全天依赖应用、崩溃影响严重的问题，聚焦内存不足导致的崩溃。通过为多进程架构设计细粒度监控系统，实时追踪版本发布后的崩溃指标。采用双重调试策略：自上而下关联功能与崩溃数据，监控大消息负载；自下而上通过崩溃观察服务、堆快照等定位根本原因。自2月底以来，全版本会话OOM率下降80%，自3月1日起请求OOM率下降73%。具体措施包括处理大文件加载和修复资源泄漏，以应对突发与渐进性内存耗尽。

现象/趋势编码部署/工程

推荐理由：Cursor 把自家 OOM 问题的排查方法论完整公开了，自顶向下加自底向上的双线调试思路对做桌面端 Agent 产品的人有参考价值，但本质上是工程复盘而非行业事件。

18:49

The Decoder：AI News（RSS）

Anthropic 正组建首个美国以外的数据中心团队

Anthropic 正在欧洲和澳大利亚招聘数据中心合同专员，首次将基础设施团队扩展至美国以外地区。据 Data Center Dynamics 发现的招聘信息显示，该公司正积极招募具备大型数据中心项目经验的专业人才，以推进海外基础设施布局。这一举措标志着 Anthropic 全球业务扩张进入新阶段，旨在支撑其 AI 业务快速增长的算力需求。

Anthropic 行业动态部署/工程

18:19

The Decoder：AI News（RSS）

Amazon 向 Anthropic 注资 330 亿美元，后者承诺十年内将 1000 亿美元用于 AWS

Amazon 向 AI 公司 Anthropic 追加投资最多 250 亿美元，总投资额达 330 亿美元。作为回报，Anthropic 承诺未来十年在 AWS 基础设施上投入超过 1000 亿美元。这笔交易旨在缓解 Anthropic 的算力瓶颈，同时也体现了 AI 行业典型的资金循环模式——云厂商通过投资换取 AI 公司的云服务长期消费承诺。

智能体 Anthropic 行业动态部署/工程

17:11

IT之家（RSS）

TrendForce预测2026年全球AI光模块市场规模增长57.6%

TrendForce预测2026年全球AI光模块市场规模将达260亿美元（约1776亿元），同比增长57.6%。微软、谷歌、Meta等巨头加码AI算力基建驱动需求激增，但EML、CW-LD等关键元器件供应紧张形成产能瓶颈，英伟达等已转向长期合同锁定产能。技术路线加速向低功耗LPO和硅光子学演进，2026年还将迎来800G与1.6T ZR/ZR+相干光模块的新一波扩张。

行业动态部署/工程

15:39

Hacker News 热门（buzzing.cc 中文翻译）

一个《Roblox》作弊程序和一个AI工具导致Vercel平台瘫痪

一款流行的《Roblox》作弊程序与某AI工具意外引发连锁反应，导致Vercel整个云平台瘫痪。这一事件揭示了现代云基础设施中潜在的脆弱性，两个独立应用的高并发请求最终压垮了托管服务。该事件在技术社区引发广泛关注，相关报道在Hacker News上获得超过100个点赞。

行业动态部署/工程

15:11

IT之家（RSS）

英伟达发布 Jetson 内存优化指南：量化 Qwen3 8B AI 模型可节省约 10GB 内存

英伟达发布Jetson平台内存优化指南，通过系统层、内核层及推理流水线优化，最高可释放约12GB内存。具体措施包括禁用图形界面（省865MB）、裸机部署替代容器（省70MB）、Python迁移至C++（省84MB）及DeepStream优化（省258MB）。模型量化方面，Qwen3 8B从FP16量化至W4A16可节省约10GB。Reachy Mini机器人已在Jetson Orin Nano 8GB上通过4位量化实现端侧多模态AI部署。

教程/实践端侧部署/工程

12:11

IT之家（RSS）

2026 款华硕 ROG 幻 16 双屏版笔记本电脑开启预约，首发到手价 37999 元起

2026 款华硕 ROG 幻 16 双屏版已开启预约，将于 4 月 28 日开售，首发到手价 37999 元起。该机配备双 16 英寸 2880×1800 分辨率 120Hz OLED 触控屏，峰值亮度 1100nits，覆盖 100% DCI-P3 色域。搭载英特尔酷睿 Ultra 9 386H 处理器和 LPDDR5X-8533 内存，提供 RTX 5070 Ti（1TB）和 RTX 5090（2TB）两种显卡配置，性能释放可达 140W/150W。机身采用铝合金 CNC 工艺，内置 90Wh 电池，重 2.82kg。

产品更新端侧部署/工程

11:11

IT之家（RSS）

工信部：支持开展太空算力技术前瞻性研究，有序推动太空算力产业发展

工信部表示将支持太空算力技术前瞻性研究并有序推动该产业发展，同时引导算力基础设施按需建设，推进算力与绿色电力协同布局及自动化监测全域覆盖。数据显示，2026年一季度工业机器人产量同比增长33.2%，集成电路产量同比增长24.3%，无人机、AI眼镜等终端产品日益丰富。

政策/监管部署/工程

11:11

IT之家（RSS）

工信部回应存储器涨价：将多措并举保障产业链供应链稳定

工信部回应近期存储器涨价问题，明确将通过增强供给能力、促进供需对接、维护市场秩序等举措保障产业链供应链稳定。数据显示，2026年一季度工业经济稳中有进，34个行业增加值同比增长，10个工业大省规模以上工业增加值增速约7.2%，高技术制造业增加值同比增长12.5%。此外，工信部正开展算电协同政策研究，并将支持太空算力技术前瞻性研究，有序推动太空算力产业发展。

政策/监管部署/工程

11:11

IT之家（RSS）

存储芯片暴利时代：SK 海力士 10% 利润发员工，今年人均或超 300 万元

SK海力士因人工智能芯片需求暴涨迎来业绩爆发，取消奖金上限后承诺将年度营业利润10%作为绩效奖金发放。该公司员工今年人均奖金可达约7亿韩元（折合人民币约326万元），明年更有望突破13亿韩元（约605万元）。相比之下，三星电子因利润分配争议陷入劳资纠纷，工会拒绝管理层提出的10%利润分红方案，要求提高至15%，并威胁举行总罢工，过去四个月已有约200名员工跳槽至SK海力士。

行业动态部署/工程

10:10

IT之家（RSS）

RAG AI 测试：AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%

摩根士丹利基于开源 X3D RAG 基准测试显示，在 RAG AI 向量搜索场景中，AMD 3D V-Cache 处理器性能较非 X3D 型号最高提升 88%。10 万批量搜索中，Ryzen 3D V-Cache 芯片速度领先 88%；20 万规模下，Ryzen 7 9850X3D 较 9700X 提升超 50%，甚至超越 16 核的 9950X。大容量缓存显著优化 HNSW 图检索算法，使索引构建耗时在 10 万和 20 万规模下分别缩短 50% 和 39%。

检索增强评测/基准部署/工程

10:10

IT之家（RSS）

AMD AI 加速器 MI500 前瞻：CPO 封装、CDNA 6 架构、内存带宽将超 19.6 TB/s

AMD计划与格罗方德合作开发下一代Instinct MI500 AI加速器的共封装光学（CPO）解决方案，采用微环调制器（MRM）技术实现电光信号高效转换，以降低互连延迟并提升CPU与GPU间带宽。该加速器将基于台积电2nm工艺制造，采用CDNA 6架构并搭载HBM4E内存，内存带宽预计超越MI400的19.6 TB/s。格罗方德负责光子集成电路制造，日月光半导体负责封装。

行业动态部署/工程

09:13

SemiAnalysis@SemiAnalysis_

目前，InferenceX 基准测试显示的是这些芯片的实际最差性能。无前缀缓存，无多轮对话，全为随机数据。真正的提升甚至尚未测量。

评测/基准部署/工程

09:10

IT之家（RSS）

消息称谷歌本周发布 TPUv8 系列 AI 芯片：博通版专注高性能训练、联发科版主打高性价比推理

谷歌将于本周Cloud Next大会发布TPUv8系列AI芯片，采用双芯片策略全面取代TPUv7。其中TPUv8t（代号Sunfish）由博通设计，专注高性能训练；TPUv8i（代号Zebrafish）由联发科操刀，主打高性价比推理。新系列将集成基于Neoverse N3架构的Axion Arm CPU。值得注意的是，此前传闻参与的Marvell未出现在设计名单中，显示谷歌调整了合作伙伴策略。

Google 推理行业动态部署/工程

08:10

IT之家（RSS）

千亿美元十年长约和 250 亿美元投资，亚马逊和 Anthropic 深化双向合作

亚马逊与AI企业Anthropic达成十年深度合作协议。Anthropic承诺未来十年向AWS采购超1000亿美元算力资源，亚马逊则在此前80亿美元投资基础上追加至多250亿美元（其中50亿美元立即支付，剩余200亿美元视商业里程碑达成情况投入）。双方还将联合开发Trainium芯片，AWS将向Anthropic提供5GW多世代芯片算力容量。

Anthropic 行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

Sessa：选择性状态空间注意力

现代序列建模主要依赖Transformer和结构化状态空间模型，但两者在长上下文处理中均存在局限。Sessa提出一种新解码器架构，将注意力机制置于循环反馈路径内，从而构建多条基于注意力的历史信息传递路径。理论分析表明，在匹配条件下，Sessa可实现幂律记忆衰减O(ℓ^{-β})（0<β<1），其衰减速度慢于对应的Transformer与Mamba基线，并能实现灵活的选择性信息检索，包括影响力不随距离衰减的模式。实验证明，Sessa在长上下文基准测试中取得最强性能，同时在短上下文语言建模任务上保持竞争力。

推理论文/研究部署/工程

推荐理由：这篇论文在理论上证明了Sessa架构的长上下文记忆衰减比Transformer和Mamba更慢，并在实验中兑现了这一优势。对于关注下一代序列模型架构的研究者和开发者，这是个值得深挖的扎实信号。

08:00

HuggingFace Daily Papers（社区热门论文）

Expert Upcycling：推动 MoE 模型的计算效率边界

研究团队提出 expert upcycling 方法，在持续预训练期间通过复制现有专家并扩展路由器来逐步增加 MoE 模型容量，保持每 token 推理成本不变。该方法利用热初始化继承已学习的表示，显著降低初始损失，后续训练打破对称性以实现专家专业化。在 7B-13B 参数实验中，相比从头训练节省 32% GPU 小时，且基于梯度重要性分数的效用选择策略可将质量差距缩小三倍以上。

数据/训练论文/研究部署/工程

07:08

Hacker News 热门（buzzing.cc 中文翻译）

Kimi 供应商验证器--验证推理提供商的准确性

Kimi发布供应商验证器（Vendor Verifier），用于独立验证第三方AI推理提供商的输出准确性。该工具通过标准化测试方法，检测不同API供应商在模型推理质量上的一致性与可靠性，解决大模型服务中可能出现的输出偏差或性能波动问题。用户可借此评估各推理服务商的实际表现，确保获取符合预期的AI能力。目前该技术方案已在Kimi官网公开详细实现文档。

产品更新部署/工程

05:11

SemiAnalysis@SemiAnalysis_

Positron 在 18 个月内出货了他们的首款 AI 芯片，并在不到 3 年内拿下了 Oracle。芯片初创公司到 oracle 客户仅用 3 年。大多数公司需要比这长得多的时间。 #startup #chips #oracle #ai #tech #entrepreneur

行业动态部署/工程

05:06

Anthropic@AnthropicAI

我们正在扩大与 Amazon 的合作，以确保获得高达 5 吉瓦的算力用于训练和部署 Claude。算力容量本季度开始上线，预计到 2026 年底将有近 1 吉瓦。

智能体 Anthropic 行业动态部署/工程

4月20日

22:39

SemiAnalysis@SemiAnalysis_

GPU集群的真实成本究竟是多少？计算集群总拥有成本，停机时间的真实影响，有效吞吐量的宏大统一理论，以及ClusterMAX 2.1更新立即阅读：https://newsletter.semianalysis.com/p/how-much-do-gpu-clusters-really-cost?_gl=1*1uithfa*_ga*MTY1NDExMjk2Ny4xNzc2MTIzOTQ1*_ga_FKWNM9FBZ3*czE3NzY2OTU2ODAkbzEyJGcwJHQxNzc2Njk1NjgwJGo2MCRsMCRoMTAyODIzNDQ0OA..

现象/趋势部署/工程

21:39

The Decoder：AI News（RSS）

Google 计划部署近200万块新AI芯片，转向 Marvell 寻求定制设计

Google 正与芯片设计公司 Marvell 深入洽谈，计划为其数据中心开发两款新的专用AI芯片，预计部署总量接近200万块。据 The Information 援引两位消息人士报道，Google 正通过引入 Marvell 的定制设计能力，加速AI基础设施扩张，以满足日益增长的AI计算需求。

Google 行业动态部署/工程

21:00

Cloudflare Blog

我们基于对外交付平台构建的内部 AI 工程栈

该公司基于对外交付的同一产品平台构建了内部 AI 工程栈，实现真正的"自产自用"。该架构已通过 AI Gateway 路由 2000 万请求，处理 2410 亿 token，并依托 Workers AI 运行推理，为 3683 余名内部用户提供支持。这一实践验证了其平台在超大规模企业级场景下的稳定性与性能表现。

智能体教程/实践部署/工程

21:00

Cloudflare Blog

构建智能体云：Agents Week 2026 期间发布的所有产品

Agents Week 2026 活动正式收官，期间密集发布了构建智能体云的完整产品矩阵，涵盖计算基础设施、安全架构、智能体工具箱、平台开发工具及新兴智能体网络等关键领域，全面覆盖从底层算力到上层应用的工具链，系统性推进智能体云生态建设。

智能体产品更新部署/工程

18:20

IT之家（RSS）

三星晶圆代工合作伙伴 GAONCHIPS 完成 1XPU + 4HBM 先进封装验证

三星晶圆代工合作伙伴GAONCHIPS宣布完成1ASIC+4HBM异构集成技术验证，采用三星I-Cube S 2.5D封装技术（硅中介层架构），计划于今年夏季量产首款相关产品。此次验证涵盖初始设计定义、封装实现及电气验证全流程，标志着三星I-Cube生态取得实质性进展，可在CoWoS产能紧缺背景下为客户提供可行的先进封装替代方案。

行业动态部署/工程

17:52

IT之家（RSS）

消息称台积电推迟 CoPoS 先进封装，加码 SoIC 应对英伟达需求

台积电CoPoS先进封装量产时间推迟至2030年末，该工艺采用面板取代晶圆以提升封装面积和生产效率，但仍面临均匀性与翘曲等技术挑战。与此同时，台积电计划2027年将SoIC先进封装月产能从1万片大幅扩增至5万片，以应对英伟达的强劲需求，其中约10%产能将用于光电合封（CPO）技术。

行业动态部署/工程