4月21日

11:11

IT之家（RSS）

SK海力士因人工智能芯片需求暴涨迎来业绩爆发，取消奖金上限后承诺将年度营业利润10%作为绩效奖金发放。该公司员工今年人均奖金可达约7亿韩元（折合人民币约326万元），明年更有望突破13亿韩元（约605万元）。相比之下，三星电子因利润分配争议陷入劳资纠纷，工会拒绝管理层提出的10%利润分红方案，要求提高至15%，并威胁举行总罢工，过去四个月已有约200名员工跳槽至SK海力士。

行业动态部署/工程

10:10

IT之家（RSS）

RAG AI 测试：AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%

摩根士丹利基于开源 X3D RAG 基准测试显示，在 RAG AI 向量搜索场景中，AMD 3D V-Cache 处理器性能较非 X3D 型号最高提升 88%。10 万批量搜索中，Ryzen 3D V-Cache 芯片速度领先 88%；20 万规模下，Ryzen 7 9850X3D 较 9700X 提升超 50%，甚至超越 16 核的 9950X。大容量缓存显著优化 HNSW 图检索算法，使索引构建耗时在 10 万和 20 万规模下分别缩短 50% 和 39%。

检索增强评测/基准部署/工程

10:10

IT之家（RSS）

AMD AI 加速器 MI500 前瞻：CPO 封装、CDNA 6 架构、内存带宽将超 19.6 TB/s

AMD计划与格罗方德合作开发下一代Instinct MI500 AI加速器的共封装光学（CPO）解决方案，采用微环调制器（MRM）技术实现电光信号高效转换，以降低互连延迟并提升CPU与GPU间带宽。该加速器将基于台积电2nm工艺制造，采用CDNA 6架构并搭载HBM4E内存，内存带宽预计超越MI400的19.6 TB/s。格罗方德负责光子集成电路制造，日月光半导体负责封装。

行业动态部署/工程

09:10

IT之家（RSS）

消息称谷歌本周发布 TPUv8 系列 AI 芯片：博通版专注高性能训练、联发科版主打高性价比推理

谷歌将于本周Cloud Next大会发布TPUv8系列AI芯片，采用双芯片策略全面取代TPUv7。其中TPUv8t（代号Sunfish）由博通设计，专注高性能训练；TPUv8i（代号Zebrafish）由联发科操刀，主打高性价比推理。新系列将集成基于Neoverse N3架构的Axion Arm CPU。值得注意的是，此前传闻参与的Marvell未出现在设计名单中，显示谷歌调整了合作伙伴策略。

Google 推理行业动态部署/工程

08:10

IT之家（RSS）

千亿美元十年长约和 250 亿美元投资，亚马逊和 Anthropic 深化双向合作

亚马逊与AI企业Anthropic达成十年深度合作协议。Anthropic承诺未来十年向AWS采购超1000亿美元算力资源，亚马逊则在此前80亿美元投资基础上追加至多250亿美元（其中50亿美元立即支付，剩余200亿美元视商业里程碑达成情况投入）。双方还将联合开发Trainium芯片，AWS将向Anthropic提供5GW多世代芯片算力容量。

Anthropic 行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

Sessa：选择性状态空间注意力

现代序列建模主要依赖Transformer和结构化状态空间模型，但两者在长上下文处理中均存在局限。Sessa提出一种新解码器架构，将注意力机制置于循环反馈路径内，从而构建多条基于注意力的历史信息传递路径。理论分析表明，在匹配条件下，Sessa可实现幂律记忆衰减O(ℓ^{-β})（0<β<1），其衰减速度慢于对应的Transformer与Mamba基线，并能实现灵活的选择性信息检索，包括影响力不随距离衰减的模式。实验证明，Sessa在长上下文基准测试中取得最强性能，同时在短上下文语言建模任务上保持竞争力。

推理论文/研究部署/工程

推荐理由：这篇论文在理论上证明了Sessa架构的长上下文记忆衰减比Transformer和Mamba更慢，并在实验中兑现了这一优势。对于关注下一代序列模型架构的研究者和开发者，这是个值得深挖的扎实信号。

08:00

HuggingFace Daily Papers（社区热门论文）

Expert Upcycling：推动 MoE 模型的计算效率边界

研究团队提出 expert upcycling 方法，在持续预训练期间通过复制现有专家并扩展路由器来逐步增加 MoE 模型容量，保持每 token 推理成本不变。该方法利用热初始化继承已学习的表示，显著降低初始损失，后续训练打破对称性以实现专家专业化。在 7B-13B 参数实验中，相比从头训练节省 32% GPU 小时，且基于梯度重要性分数的效用选择策略可将质量差距缩小三倍以上。

数据/训练论文/研究部署/工程

07:08

Hacker News 热门（buzzing.cc 中文翻译）

Kimi 供应商验证器--验证推理提供商的准确性

Kimi发布供应商验证器（Vendor Verifier），用于独立验证第三方AI推理提供商的输出准确性。该工具通过标准化测试方法，检测不同API供应商在模型推理质量上的一致性与可靠性，解决大模型服务中可能出现的输出偏差或性能波动问题。用户可借此评估各推理服务商的实际表现，确保获取符合预期的AI能力。目前该技术方案已在Kimi官网公开详细实现文档。

产品更新部署/工程

4月20日

21:39

The Decoder：AI News（RSS）

Google 计划部署近200万块新AI芯片，转向 Marvell 寻求定制设计

Google 正与芯片设计公司 Marvell 深入洽谈，计划为其数据中心开发两款新的专用AI芯片，预计部署总量接近200万块。据 The Information 援引两位消息人士报道，Google 正通过引入 Marvell 的定制设计能力，加速AI基础设施扩张，以满足日益增长的AI计算需求。

Google 行业动态部署/工程

21:00

Cloudflare Blog

我们基于对外交付平台构建的内部 AI 工程栈

该公司基于对外交付的同一产品平台构建了内部 AI 工程栈，实现真正的"自产自用"。该架构已通过 AI Gateway 路由 2000 万请求，处理 2410 亿 token，并依托 Workers AI 运行推理，为 3683 余名内部用户提供支持。这一实践验证了其平台在超大规模企业级场景下的稳定性与性能表现。

智能体教程/实践部署/工程

21:00

Cloudflare Blog

构建智能体云：Agents Week 2026 期间发布的所有产品

Agents Week 2026 活动正式收官，期间密集发布了构建智能体云的完整产品矩阵，涵盖计算基础设施、安全架构、智能体工具箱、平台开发工具及新兴智能体网络等关键领域，全面覆盖从底层算力到上层应用的工具链，系统性推进智能体云生态建设。

智能体产品更新部署/工程

18:20

IT之家（RSS）

三星晶圆代工合作伙伴 GAONCHIPS 完成 1XPU + 4HBM 先进封装验证

三星晶圆代工合作伙伴GAONCHIPS宣布完成1ASIC+4HBM异构集成技术验证，采用三星I-Cube S 2.5D封装技术（硅中介层架构），计划于今年夏季量产首款相关产品。此次验证涵盖初始设计定义、封装实现及电气验证全流程，标志着三星I-Cube生态取得实质性进展，可在CoWoS产能紧缺背景下为客户提供可行的先进封装替代方案。

行业动态部署/工程

17:52

IT之家（RSS）

消息称台积电推迟 CoPoS 先进封装，加码 SoIC 应对英伟达需求

台积电CoPoS先进封装量产时间推迟至2030年末，该工艺采用面板取代晶圆以提升封装面积和生产效率，但仍面临均匀性与翘曲等技术挑战。与此同时，台积电计划2027年将SoIC先进封装月产能从1万片大幅扩增至5万片，以应对英伟达的强劲需求，其中约10%产能将用于光电合封（CPO）技术。

行业动态部署/工程

17:16

IT之家（RSS）

消息称国产推理 GPU 企业曦望完成超 10 亿元融资，估值超百亿成独角兽

国产AI推理GPU企业曦望完成新一轮超10亿元融资，估值突破百亿，成为首家纯推理GPU独角兽。该公司自2024年底从商汤分拆独立以来，一年多内已完成七轮融资，累计募资约40亿元。本轮为2026年AI推理落地潮以来国内GPU赛道最大单笔融资之一，资金将主要用于S3推理GPU规模化量产、软件生态建设及S4/S5芯片研发。

行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

LLM Safety From Within：利用内部表征检测有害内容

研究团队提出了一种名为SIREN的轻量级防护模型，通过利用大型语言模型内部各层的安全相关特征来检测有害内容。该方法采用线性探测识别安全神经元，并通过自适应层加权策略整合信息，无需修改底层模型。评估显示，SIREN在多项基准测试中显著优于当前最优的开源防护模型，且可训练参数数量仅为后者的1/250。该模型对未见过的基准测试具有优异的泛化能力，支持实时流式检测，并比生成式防护模型大幅提升了推理效率。

安全/对齐论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Flash-SemiCRF 流式结构化推理

Flash-SemiCRF 通过流式计算突破半马尔可夫条件随机场（semi-CRFs）的内存瓶颈，实现超长序列精确推理。该方法用前缀和数组即时计算替代存储边势张量，内存占用随片段长度与标签数量乘积大幅降低；采用流式前向-后向传递与检查点边界归一化，保持工作内存亚线性增长，可处理超过10万位置的基因组序列。方案融合为Triton内核，解决了传统方法在大状态空间下的不可行问题。

论文/研究部署/工程

05:37

Hacker News 热门（buzzing.cc 中文翻译）

内存短缺可能持续数年

内存市场面临严重的供应短缺危机，且这一状况预计将持续数年。需求激增与产能扩张之间的结构性失衡导致供应链持续紧张，可能对全球数据中心建设、人工智能训练及消费电子产业造成长期影响。行业分析师警告，短期内难以缓解的短缺态势将推高内存产品价格，并制约下游科技制造业的发展。

现象/趋势部署/工程

00:00

Anthropic：Newsroom（网页）

Anthropic与Amazon扩大合作，承诺投入超千亿美元获取5吉瓦算力

Anthropic与Amazon签署十年协议，承诺向AWS投入超1000亿美元以获取高达5吉瓦算力，用于Claude训练与部署。Amazon追加投资50亿美元（未来可达200亿美元），新容量包括上半年上线的Trainium2及2026年底前部署的近1GW Trainium2与Trainium3。Claude Platform将直接集成AWS，目前超10万客户通过Bedrock使用Claude，Anthropic年化收入已突破300亿美元。

Anthropic 行业动态部署/工程

4月19日

23:07

Hacker News 热门（buzzing.cc 中文翻译）

基于 Apple Silicon 的 WebAssembly 零拷贝 GPU 推理

教程/实践端侧部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

自回归视频生成的推测解码

本文提出SDVG框架，首次将推测解码应用于自回归视频生成。通过图像质量路由器替代token验证：1.3B draft模型生成候选块，经VAE解码后采用ImageReward worst-frame评分，高于阈值tau的块被接受至14B目标模型。关键设计包括强制拒绝首块以稳定场景构成，以及通过单一阈值平衡质量与速度。在832x480分辨率下，实现1.59倍加速（保留98.1%质量）至2.09倍加速（保留95.7%），无需训练即可集成到现有流程。

arXiv 视频论文/研究部署/工程

02:06

Hacker News 热门（buzzing.cc 中文翻译）

Opus 4.7 至 4.6 版本的通胀率约为 45%

监测数据显示，Opus 4.7版本相较4.6版本的token"通胀率"高达45%，即新版本生成内容时消耗的token数量较上一版本大幅增加，直接导致API调用成本上升。该数据来自tokens.billchambers.me的模型对比排行榜，在Hacker News上获得133个赞。

Anthropic 评测/基准部署/工程

4月18日

16:36

The Decoder：AI News（RSS）

据报道扎克伯格以人力换算力，Meta准备裁员10%以资助AI基础设施

Meta计划于5月20日裁撤约8000名员工，并将在今年晚些时候启动第二波裁员，总计可能削减超过20%的 workforce。此举旨在通过大幅降低人力成本来抵消公司在AI基础设施上的巨额支出，标志着扎克伯格正推动资源从人员配置向计算能力转移的战略转型。

Meta 行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

确定性幻觉：解耦在线策略蒸馏中的能力与校准

研究发现在线策略蒸馏（OPD）在提升任务准确率的同时，会系统性导致模型过度自信，形成"错误校准的缩放定律"。该问题源于训练时教师模型的特权上下文与部署时信息的不匹配。为此提出 CaOPD 框架，通过模型 rollout 估计经验置信度，并以学生基础目标替代自报告置信度进行蒸馏。实验表明，CaOPD 在保持模型竞争力的同时实现帕累托最优校准，且在分布外和持续学习场景下稳健泛化。

arXiv 数据/训练论文/研究部署/工程

07:58

Hacker News 热门（buzzing.cc 中文翻译）

超大规模科技公司的支出已超过美国大多数知名大型项目

超大规模科技公司（Hyperscalers）的资本支出总额已超过美国历史上多数标志性大型工程。这些企业在数据中心、云计算及AI基础设施上的投入规模，累计超越了阿波罗登月计划、州际公路系统等传统巨型项目。这一对比凸显了科技巨头在数字基础设施建设上的巨额资本配置，其年度支出水平正重塑全球投资格局，标志着私人部门技术投资已进入超越传统公共工程时代的新阶段。

现象/趋势部署/工程

4月17日

22:28

Hacker News 热门（buzzing.cc 中文翻译）

科技巨头如何将保密条款写入欧盟法律，以掩盖数据中心对环境造成的破坏

科技巨头通过游说将保密条款植入欧盟法律，使企业得以商业机密为由隐瞒数据中心的环境影响数据。Investigate Europe的调查揭示，这些条款阻碍了公众获取能耗、碳排放及水资源消耗等关键信息，让科技行业能够掩盖其数字基础设施对环境的实际破坏，规避有效监管与气候问责。

政策/监管部署/工程

21:05

Cloudflare Blog

Agent Readiness 评分正式发布：你的网站是否已做好 agent 准备？

Cloudflare 推出 Agent Readiness 评分体系，帮助网站所有者量化评估其网站对 AI agent 的支持能力。该体系建立全新技术标准，并基于 Radar 数据监测分析。Cloudflare 通过重构文档站点，将其打造为全网对 agent 最友好的网站，为行业提供了可复现的优化范例，推动网站基础设施向 AI 代理友好型架构升级。

智能体产品更新部署/工程

21:02

Cloudflare Blog

共享字典：适应代理式网络的压缩技术

技术团队预告了共享压缩字典功能的上线计划，这项压缩技术专为适应代理式网络的发展需求而设计，能够显著缩短页面加载时间并提升传输效率。该功能目前处于预览阶段，具体的 beta 测试开放时间即将公布，用户很快就能亲自体验这项新技术。

智能体产品更新部署/工程

21:00

Cloudflare Blog

推出 Flagship：面向 AI 时代的功能标志服务

Cloudflare 发布原生功能标志服务 Flagship，直接构建于其全球网络之上，旨在消除第三方供应商的延迟。该服务利用 KV 和 Durable Objects 技术，实现亚毫秒级的 flag 评估速度，满足 AI 时代对实时性能的需求，为开发者提供低延迟的功能开关能力。

产品更新部署/工程

21:00

Cloudflare Blog

Unweight：我们如何在不牺牲质量的情况下将 LLM 压缩 22%

Cloudflare 发布无损推理时压缩系统 Unweight，可在不牺牲模型质量的前提下，将大语言模型（LLM）的占用空间减少 22%。该系统针对 GPU 内存带宽进行优化，使推理速度更快、成本更低，解决了在网络边缘大规模部署 LLM 时的内存效率挑战，实现了模型体积与计算资源的高效平衡。

论文/研究部署/工程

15:53

HuggingFace Daily Papers（社区热门论文）

TRACER：面向LLM分类的基于轨迹的自适应成本效益路由

开源系统TRACER利用LLM生产日志训练轻量级替代模型，通过设置一致性阈值α作为部署门控，仅在替代模型与教师模型（如Sonnet 4.6）一致率达标时激活，实现近零边际成本的推理。系统生成可解释性产物明确能力边界。在77类意图识别基准测试中，替代模型覆盖率达83%-100%；在150类任务中完全替代教师模型；而在自然语言推理任务中，系统正确识别嵌入表示不足并拒绝部署。

Hugging Face 数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

及时止损！面向高效并行推理的早期路径剪枝学习

针对并行推理中早期错误导致无效路径的高成本问题，研究团队提出首个路径剪枝系统化分类框架，并开发了基于可学习内部信号的STOP（Super TOken for Pruning）方法。在1.5B至20B参数的大型推理模型评估中，该方法在固定计算预算下将GPT-OSS-20B在AIME25基准的准确率从84%提升至近90%，有效性与效率均优于现有基线。研究同时提供了形式化的经验部署指南。

推理论文/研究部署/工程

04:27

Hacker News 热门（buzzing.cc 中文翻译）

Artifacts：支持 Git 的版本化存储

Cloudflare 发布 Artifacts 测试版，这是一个原生兼容 Git 协议的版本化存储服务，专为 AI Agent 设计。开发者可直接使用标准 Git 命令管理代码、配置和模型文件的版本历史，支持分支、合并等完整操作。该服务提供与 Git 完全兼容的接口，无需额外工具适配。项目在 Hacker News 获得 101 个赞，目前处于 Beta 阶段，技术细节已在官方博客公布。

智能体产品更新部署/工程

4月16日

22:05

Cloudflare Blog

Cloudflare AI 平台：专为智能体设计的推理层

Cloudflare 将 AI Gateway 重构为统一的 AI 推理层，开发者可通过单一接口调用 14 家以上提供商的模型。新版本集成 Workers AI 绑定功能，并扩充了多模态模型目录，专为 AI 智能体优化设计。该平台旨在简化跨服务商的模型调用流程，降低多模型集成的技术门槛。

智能体产品更新部署/工程

22:00

Cloudflare Blog

构建超大型语言模型运行基础架构

Cloudflare 针对超大型语言模型推理需求打造了专属技术栈，通过在其全球基础设施上部署定制化高性能 AI 推理系统，实现了大模型的低延迟运行。该方案深入剖析了工程权衡与技术优化路径，解决了超大规模模型部署中的性能瓶颈，使企业无需自建复杂基础设施即可获取高性能 AI 推理能力。

产品更新部署/工程

21:09

Hacker News 热门（buzzing.cc 中文翻译）

仅13小时内，因Firebase浏览器密钥无限制访问Gemini API，损失激增5.4万欧元

一名开发者在Google AI开发者论坛披露，其Firebase项目的浏览器密钥因未设置API访问限制，短短13小时内被恶意调用Gemini API，导致账单激增5.4万欧元。该事件暴露了客户端API密钥配置不当可能引发的巨额成本风险，警示开发者需严格限制密钥权限。

Google 安全/对齐部署/工程

21:01

Cloudflare Blog

Artifacts：兼容 Git 的版本化存储

Artifacts 正式发布，这是一款专为智能体（agents）打造的版本化存储服务，完全兼容 Git 协议。该平台支持创建数千万个仓库，允许从任意远程仓库 fork，并可通过 URL 提供给任何 Git 客户端访问。Artifacts 旨在为智能体、开发者和自动化工具提供代码与数据的统一存储空间，实现大规模仓库管理与无缝的 Git 操作集成。

智能体产品更新部署/工程

15:08

Hacker News 热门（buzzing.cc 中文翻译）

停止使用Ollama

技术博客sleepingrobots.com发布文章《停止使用Ollama》，对本地大模型运行工具Ollama提出严厉批评并呼吁用户放弃使用。该文在Hacker News技术社区获得132个积分关注，反映出开发者社区对本地AI工具安全性与实践标准的重视。文章标题直指Ollama存在架构缺陷或安全隐患，建议用户寻找更可靠的替代方案来部署开源大语言模型。

教程/实践端侧部署/工程

14:38

Hacker News 热门（buzzing.cc 中文翻译）

Darkbloom - 在闲置的 Mac 上进行私有推理

Darkbloom 发布了一款工具，支持在闲置 Mac 电脑上执行私有 AI 推理，利用本地空闲算力完成机器学习计算，避免数据上传云端。该项目主打隐私保护，所有推理均在设备本地运行。该消息在 Hacker News 上获得 113 个点赞，详情见 darkbloom.dev。

开源/仓库端侧部署/工程

11:47

HuggingFace Daily Papers（社区热门论文）

Free Geometry：从自身长序列中精炼3D重建

Free Geometry框架通过自监督学习使前馈3D重建模型在测试时自我进化，无需3D真值标注。其核心洞察是：更多视图可产生更可靠的重建。通过掩码部分帧构建自监督任务，强制完整与部分观察的跨视图特征一致性，并采用LoRA实现快速重校准（单GPU不到2分钟）。在4个基准数据集上，该方法显著提升了Depth Anything 3和VGGT等模型的性能，相机位姿精度平均提升3.73%，点图预测精度提升2.88%。

数据/训练论文/研究部署/工程

04:47

HuggingFace Daily Papers（社区热门论文）

Parcae：稳定循环语言模型的缩放定律

研究团队提出稳定循环架构Parcae，通过将循环建模为非线性时变动力系统并约束注入参数的谱范数，解决了传统循环模型的残差爆炸与损失尖峰问题。该架构验证困惑度较先前模型降低6.3%，并建立了训练FLOPs与循环次数、数据量的可预测幂律关系。在13亿参数规模下，Parcae在固定预算下较Transformer基线在CORE和Core-Extended基准上分别提升2.99和1.18分，达到两倍规模Transformer模型87.5%的性能。

数据/训练论文/研究部署/工程