全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1386 条

全部一手资讯 X 论文

标签「部署/工程」清除

6月9日周二

03:02Hacker News 热门（buzzing.cc 中文翻译）62xAI看起来更像是一家数据中心房地产投资信托基金，而非前沿实验室

01:40The Decoder：AI News（RSS）62Intel重获新生：Google和Nvidia将其视为台积电AI芯片的备选

01:09MarkTechPost（RSS）66小米MiMo与TileRT推出MiMo-V2.5-Pro-UltraSpeed，万亿参数模型在8-GPU节点上解码超1000 tokens/s

01:01Hacker News 热门（buzzing.cc 中文翻译）74同事件精选小米 MiMo-v2.5-Pro-UltraSpeed 发布：1T 参数模型，每秒 1000 token同一事件，精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s》

6月8日周一

20:44Artificial Intelligence News（RSS）44Aviva 部署 AI 阻止 2.3 亿英镑复杂保险欺诈

20:00OpenRouter：Announcements（RSS）63同事件精选OpenRouter Agent SDK 推出 HITL 工具：满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求同一事件，精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能，可快速搭建个性化编码智能体》

19:20IT之家（RSS）51Arm 推出 AppReady for Windows：加速构建原生 WoA 应用

13:20IT之家（RSS）46OWC Stack AI 确认基于群联 aiDAPTIV，为外置式内存化闪存方案

13:20IT之家（RSS）36TrendForce：SpaceX IPO 将带动全球卫星产值 2027 年达 4470 亿美元，年增 14%

10:20IT之家（RSS）57英伟达与韩国斗山集团扩大合作，覆盖物理 AI、机器人及 AI 工厂基础设施

09:19IT之家（RSS）54SK电讯基于NVIDIA DSX平台建设GW级AI工厂云，2027年投运

6月7日周日

20:19IT之家（RSS）42富士康展示液冷版 RTX 6000 Blackwell GPU

17:04MarkTechPost（RSS）562026年最佳21款低代码与无代码AI工具盘点

08:19IT之家（RSS）40三峡集团首个无人机智能巡检管理体系投运，覆盖12座新能源场站

08:09Claude Code：GitHub Releases（RSS）31Claude Code v2.1.168 发布

07:56Hacker News 热门（buzzing.cc 中文翻译）75同事件精选谷歌将每月向SpaceX支付9.2亿美元，以获取xAI数据中心的计算能力同一事件，精选展示《SpaceX与Google达成云计算新协议》

06:34MarkTechPost（RSS）74同事件精选Google 发布 Colab CLI，开发者与 AI 智能体可在终端中远程调用 Colab GPU 与 TPU 运行 Python 代码同一事件，精选展示《Google Colab CLI 发布》

6月6日周六

21:53Hacker News 热门（buzzing.cc 中文翻译）69谷歌将每月向SpaceX支付9.2亿美元用于计算服务

21:17IT之家（RSS）70精选OpenCV 5 发布：升级全新 DNN 引擎、原生支持大模型

17:17IT之家（RSS）69SpaceX IPO获约1500亿美元认购，两倍超额认购

16:17IT之家（RSS）52英伟达 Rubin 机架内存配置被误读，美光市值蒸发逾 1000 亿美元

12:06Simon Willison 博客67Simon Willison 发布 micropython-wasm：基于 WebAssembly 的 Python 沙箱执行方案

09:07Claude Code：GitHub Releases（RSS）64同事件精选Claude Code v2.1.166 发布同一事件，精选展示《Claude Code v2.1.163 发布》

08:16IT之家（RSS）60月付 9.2 亿美元：谷歌租赁马斯克 SpaceX 的 AI 算力，约 11 万英伟达 GPU、CPU 等

08:00HuggingFace Daily Papers（社区热门论文）59CHIAR-Former：明暗注意力--在黑暗中分配计算

06:57MarkTechPost（RSS）57Qualcomm AI Hub实战教程：使用MobileNet-V2和YOLOv7进行分类、目标检测与硬件感知部署

06:47Hugging Face：Blog（RSS）74精选用Qwen2.5-3B构建多智能体经济体：工程报告

01:12Google Developers Blog（RSS）75精选Google Colab CLI 发布

6月5日周五

23:15IT之家（RSS）73同事件精选苹果新版 Siri 不会被宣传为完成品，内部将其标记为"Beta"版同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

22:30Cloudflare Blog71精选你的AI账单失控了。Cloudflare现在可以解决这个问题。

22:15IT之家（RSS）56华为云联合20余家模型厂商发布"百模千态，云聚共赢"生态合作计划

20:01Artificial Intelligence News（RSS）57C3 AI 智能体将帮助 Shell 实现预测性维护自动化

19:27MarkTechPost（RSS）61Microsoft Fara 教程：在 Google Colab 中使用模拟 OpenAI 兼容端点运行浏览器智能体

19:27MarkTechPost（RSS）62NVIDIA AI 发布 Dynamo Snapshot：基于 CRIU 的 Kubernetes AI 推理快速启动系统

19:22公众号：腾讯混元62精选腾讯混元提出Stem稀疏注意力算法，被ICML 2026收录

18:15IT之家（RSS）61消息称LG将引进1万块英伟达Blackwell GPU，为其迄今最大规模

18:15IT之家（RSS）58视觉内容社交平台 Pinterest 为 AI 服务导入亚马逊 AWS Trainium 芯片

17:48HuggingFace Daily Papers（社区热门论文）51SigmaScale：基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

15:15IT之家（RSS）54Meta 借鉴特斯拉，在帐篷里建造数据中心

10:48Hacker News 热门（buzzing.cc 中文翻译）51Transformer 需要三个投影吗？--对 QKV 变体的系统研究

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月9日

03:02

Hacker News 热门（buzzing.cc 中文翻译）

62

xAI看起来更像是一家数据中心房地产投资信托基金，而非前沿实验室

xAI在资产结构和运营模式上被比作数据中心REIT，而非传统的前沿AI实验室，这一观点来自martinalderson.com的分析文章。

Anthropic xAI 数据/训练现象/趋势

01:40

The Decoder：AI News（RSS）

62

Intel重获新生：Google和Nvidia将其视为台积电AI芯片的备选

Google向Intel订购超过300万颗AI芯片，计划于2028年交付。Nvidia正在测试Intel的制造工艺，用于其即将推出的Feynman架构。两家公司的动作源于台积电（TSMC）无法满足AI芯片需求。Intel长期低迷的晶圆代工部门因此获得第二次机会。

Google 行业动态部署/工程

01:09

MarkTechPost（RSS）

66

小米MiMo与TileRT推出MiMo-V2.5-Pro-UltraSpeed，万亿参数模型在8-GPU节点上解码超1000 tokens/s

小米MiMo团队与TileRT合作发布MiMo-V2.5-Pro-UltraSpeed服务模式，专为MiMo-V2.5-Pro模型设计。该方案在单个8-GPU消费级节点上，实现了1万亿参数模型超过1000 tokens/s的解码速度。

推理论文/研究部署/工程

01:01

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选74

小米 MiMo-v2.5-Pro-UltraSpeed 发布：1T 参数模型，每秒 1000 token

小米在 6 月 8 日发布 MiMo-v2.5-Pro-UltraSpeed 模型，拥有 1T 参数规模，推理速度达到每秒 1000 个 token。该模型来自小米旗下的 mimo.xiaomi.com 项目。

arXiv 开源生态推理模型发布

同一事件，精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s》

推荐理由：小米把万亿模型推上 1000 tokens/s，不是纸面速度，而是模型与系统深耦合的结果，对实时推理和编程智能体是真正可落地的信号。限时申请有点可惜，但开源部分值得关注。

6月8日

20:44

Artificial Intelligence News（RSS）

44

Aviva 部署 AI 阻止 2.3 亿英镑复杂保险欺诈

英国保险公司 Aviva 利用 AI 工具识别出创纪录的 2.3 亿英镑保险欺诈索赔，以应对欺诈者使用新一代工具带来的挑战。当前欺诈手段愈加复杂，AI 既被用于防御，也被攻击方利用。Aviva 通过 AI 技术提升检测能力，遏制日益严重的保险欺诈问题。

行业动态部署/工程

20:00

OpenRouter：Announcements（RSS）

同事件精选63

OpenRouter Agent SDK 推出 HITL 工具：满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求

OpenRouter 的 Agent SDK 新增人类参与循环（HITL）工具，用于 AI 智能体的合规监督。该工具可帮助 AI 智能体满足欧盟 AI 法案、科罗拉多州自动化决策技术法（SB26-189）以及 NIST AI 风险框架（NIST AI RMF）的监管要求。

智能体教程/实践部署/工程

同一事件，精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能，可快速搭建个性化编码智能体》

推荐理由：8 月就是欧盟 AI 法案高风险的生效日，这个教程把三个监管框架的 HITL 要求变成可直接复用的代码，做金融医疗代理的开发者该收藏。

19:20

IT之家（RSS）

51

Arm 推出 AppReady for Windows：加速构建原生 WoA 应用

Arm 联合 Microsoft 推出 AppReady for Windows 项目，旨在引导开发者获取学习资源，构建原生 Windows on Arm（WoA）应用。项目整合 AI 赋能工具、开发指导与专家支持，帮助开发者检查关键依赖项是否已有 WoA 原生版本、审视构建系统与编译器设置、识别架构相关代码及性能关键路径，并获取原生开发指导。AI 工具可扫描代码、识别可移植性问题并加速移植。

Microsoft 端侧行业动态部署/工程

13:20

IT之家（RSS）

46

OWC Stack AI 确认基于群联 aiDAPTIV，为外置式内存化闪存方案

OWC 在今年 5 月宣布的 Stack AI 是一款雷电 5“AI 加速器”与外置存储解决方案，在 COMPUTEX 2026 上确认基于群联 aiDAPTIV 方案，为外置式 AI 内存 NAND 扩充方案。aiDAPTIV 将闪存纳入系统有效内存，把部分 AI 内存需求卸载到高耐久性 SSD 上，降低对 DRAM 依赖，使大型 AI 智能体可在本地运行。此前的 aiDAPTIV 多为内置型，Stack AI 为外置版本，部署更灵活。

产品更新推理端侧部署/工程

13:20

IT之家（RSS）

36

TrendForce：SpaceX IPO 将带动全球卫星产值 2027 年达 4470 亿美元，年增 14%

TrendForce 预测，受卫星宽带、手机直连卫星及 AI 运算需求推动，SpaceX 未来 IPO 将带动全球卫星产业产值在 2027 年达 4470 亿美元，年增 14%。SpaceX 通过收购 EchoStar 频段加速新兴市场手机直连卫星部署，并布局 AI 太空运算，在卫星轨道端直接分析农业监测等影像数据，同时扩建自有 AI 运算芯片厂 Terafab，强化垂直整合能力。

行业动态部署/工程

10:20

IT之家（RSS）

57

英伟达与韩国斗山集团扩大合作，覆盖物理 AI、机器人及 AI 工厂基础设施

英伟达与韩国斗山集团6月8日宣布扩展合作，覆盖四大板块：斗山机器人将整合英伟达Isaac Sim、Cosmos及Jetson Thor，升级“智能体机器人操作系统”，并探索双臂及人形机器人；斗山山猫将引入物理AI至建筑、农业及物料搬运设备；斗山重工拟以燃气轮机、小型模块化反应堆等为英伟达AI工厂供电；斗山电子材料以覆铜板支持英伟达MGX生态AI服务器及网络设备PCB。

具身智能行业动态部署/工程

09:19

IT之家（RSS）

54

SK电讯基于NVIDIA DSX平台建设GW级AI工厂云，2027年投运

SK电讯宣布基于NVIDIA AI工厂平台DSX构建AI数据中心，目标将AI云服务规模扩展至GW级别。首先采用Blackwell架构GPU用于训练与推理，后续逐步导入Vera Rubin平台。该AI工厂计划于2027年在韩国投运。SK电讯计划将AI基础设施扩展至全亚洲，成为NVIDIA亚洲AI基础设施关键合作伙伴。此外，双方还在机器人仿真和训练平台方面展开合作。

行业动态部署/工程

6月7日

20:19

IT之家（RSS）

42

富士康展示液冷版 RTX 6000 Blackwell GPU

富士康在2026年台北电脑展期间展示了一款液冷版 RTX 6000 Blackwell GPU，面向服务器和数据中心场景。该卡采用单槽设计，全面覆盖液冷散热模块，拥有96GB GDDR7显存，可运行AI大模型、复杂仿真及专业图形任务。电源接口改用远离PCIe插槽的独立插槽，未使用标准12V-2x6接口。

产品更新推理部署/工程

17:04

MarkTechPost（RSS）

56

2026年最佳21款低代码与无代码AI工具盘点

低代码与无代码AI平台正将提示词转化为可运行的应用、智能体或模型。该指南比较了21款工具，涵盖应用构建器、自动化、AI智能体和机器学习平台四类，每款均附带官方链接。

评测/基准部署/工程

08:19

IT之家（RSS）

40

三峡集团首个无人机智能巡检管理体系投运，覆盖12座新能源场站

近日，三峡集团首个无人机智能巡检管理体系在内蒙古投入运行，首批覆盖12座新能源场站，总装机640万千瓦。体系配套21座无人机机巢、28架巡检无人机，实现光伏、风机、集电线路、升压站巡检全覆盖。相比人工巡检，每年节省工时超11万小时，效率提升13.2倍，隐患提前检出率63%。依托自主开发的智能巡检平台，通过AI甄别缺陷，并建立专项管控机制落实双审批、全报备、实时监控，确保飞行全程可追溯、可管控、可闭环。

行业动态部署/工程

08:09

Claude Code：GitHub Releases（RSS）

31

Claude Code v2.1.168 发布

Claude Code v2.1.168 版本发布，更新内容仅为错误修复和可靠性改进。因原文较短，无法达成 50-100 字。

Anthropic 产品更新部署/工程

07:56

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选75

谷歌将每月向SpaceX支付9.2亿美元，以获取xAI数据中心的计算能力

谷歌与SpaceX达成协议，每月支付9.2亿美元，获得位于xAI数据中心的计算能力。该交易的具体金额和合作细节于本周披露，将极大扩充谷歌的算力资源。

Google 行业动态部署/工程

同一事件，精选展示《SpaceX与Google达成云计算新协议》

推荐理由：Google月砸9.2亿租SpaceX的GPU，这个金额暴露了巨头对算力的饥渴，虽然xAI自己还在亏损，这笔交易更像是IPO前的造势，但对基础设施市场绝对是一个冲击信号。

06:34

MarkTechPost（RSS）

同事件精选74

Google 发布 Colab CLI，开发者与 AI 智能体可在终端中远程调用 Colab GPU 与 TPU 运行 Python 代码

Google 发布 Colab CLI，允许开发者和 AI 智能体在终端中直接运行本地 Python 代码，并利用远程 Colab 的 GPU 与 TPU 运行时进行加速。通过这一命令行工具，用户无需打开浏览器即可无缝连接 Colab 计算资源，为自动化和脚本化 AI 工作流提供了更便捷的接口。

Google 产品更新部署/工程

同一事件，精选展示《Google Colab CLI 发布》

推荐理由：Colab CLI把远程GPU接入终端，且AI Agent可直接调用，让Colab从笔记本变成计算后端，个人开发者云端算力使用方式会被改变。

6月6日

21:53

Hacker News 热门（buzzing.cc 中文翻译）

69

谷歌将每月向SpaceX支付9.2亿美元用于计算服务

科技巨头谷歌与航天公司SpaceX达成协议，每月支付9.2亿美元，用于购买计算服务。该消息根据Hacker News 6月6日的信息曝光，显示这一高额交易已得到确认。谷歌将向SpaceX支付每月9.2亿美元的费用，以获得其计算能力的支持。

Google 行业动态部署/工程

21:17

IT之家（RSS）

精选70

OpenCV 5 发布：升级全新 DNN 引擎、原生支持大模型

OpenCV 5 正式发布，采用基于图的 DNN 引擎，ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%，原生支持 Transformer、视觉语言模型（VLM）和大语言模型（LLM）。其他更新包括：更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars，每日安装量超一百万次。

多模态开源/仓库推理部署/工程

推荐理由：OpenCV 5 是一次架构级大更新，DNN 引擎重写、ONNX 覆盖率从 23% 跳到 80%，原生支持大模型推理，做模型部署的该关注了。

17:17

IT之家（RSS）

69

SpaceX IPO获约1500亿美元认购，两倍超额认购

据知情人士消息，SpaceX IPO已吸引约1500亿美元认购需求，约为计划募资750亿美元的两倍。目前仍处路演早期，预计下周定价。路演材料强调其火箭发射业务的独特性——过去三年全球大部分轨道载荷由SpaceX完成，以及Starlink的增长实力。SpaceX还称AI业务对应市场机会可达23万亿美元，并自认是唯一能利用太空建设AI算力的公司，以弥补美国发电量和计算能力缺口。

行业动态部署/工程

16:17

IT之家（RSS）

52

英伟达 Rubin 机架内存配置被误读，美光市值蒸发逾 1000 亿美元

SemiAnalysis 简报预估英伟达 Rubin NVL72 的 SOCAMM 容量从 55TB 降至 28TB，每处理器配 768GB（96GB 模块），美光股价盘中跌超 10%，市值蒸发超 1000 亿美元。市场误读“初始配置下调”：主因是 2026 年 LPDDR5X 供应紧张，且 SOCAMM2 模块可拆卸升级（可换 192GB/256GB）。每颗 Rubin GPU 搭载 288GB HBM4（72 颗共 20.7TB）保持不变。

行业动态部署/工程

12:06

Simon Willison 博客

67

Simon Willison 发布 micropython-wasm：基于 WebAssembly 的 Python 沙箱执行方案

Simon Willison 发布 alpha 包 micropython-wasm，用于在 Python 应用中安全执行代码。该包将 MicroPython 编译为 WebAssembly，通过 wasmtime 库运行，实现内存和 CPU 限制、严格的文件与网络访问控制，并支持主机函数交互。它可作为 Datasette Agent 的沙箱插件 datasette-agent-micropython。

开源/仓库部署/工程

09:07

Claude Code：GitHub Releases（RSS）

同事件精选64

Claude Code v2.1.166 发布

Claude Code v2.1.166 新增 fallbackModel 设置，最多配置三个后备模型在主模型过载或不可用时按序尝试；--fallback-model 现也适用于交互会话。deny rule 中工具名位置支持 glob 模式（"*"拒绝所有工具），未知工具名启动时警告。跨会话消息中继不再携带用户权限，接收方拒绝被中继的权限请求。MAX_THINKING_TOKENS=0、--thinking disabled 及逐模型 thinking 开关可禁用默认开启思考的模型（仅 Claude API，第三方不变）。API 返回非预期不可重试错误时，在后备模型上重试一次。修复了图像处理失败、远程会话卡死、JetBrains IDE 终端闪烁、Kitty 键盘协议下 Shift+非 ASCII 字符丢失、PowerShell 命令验证挂起、macOS 后台进程孤儿化等问题。

智能体 Anthropic 产品更新部署/工程

同一事件，精选展示《Claude Code v2.1.163 发布》

推荐理由：Claude Code 重度用户该升级了，fallbackModel 让你设三个备用模型防止高峰期罢工，跨会话安全加固也让自动模式更敢放任跑了。

08:16

IT之家（RSS）

60

月付 9.2 亿美元：谷歌租赁马斯克 SpaceX 的 AI 算力，约 11 万英伟达 GPU、CPU 等

谷歌与 SpaceX 达成云计算合作，自 2026 年 10 月起至 2029 年 6 月，每月向 SpaceX 支付 9.2 亿美元（约 62.46 亿元人民币），租用至少 11 万张英伟达 GPU 及 CPU 等芯片对应的计算能力，用于训练和推理 AI 等高密度场景。该合作既缓解谷歌算力供应紧张与扩容周期压力，也为 SpaceX 的人工智能业务新增重要收入来源，为其 IPO 提供叙事筹码。

Google 行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

59

CHIAR-Former：明暗注意力--在黑暗中分配计算

CHIAR-Former 是一种 4 层混合 Transformer，根据每个 token 的谱熵将其路由至 DCT 谱混合或全自注意力（RBF 核混合在消融中被拒绝）。仅含 DCT+注意力的变体在 WikiText-103 上获得 Val PPL 36.54，相比全注意力基线（PPL 66.62）提升 45%，同时减少 62.5% 注意力 FLOPs。在 WikiText-2、IMDB 情感分类和 ListOps 上的评估表明，模型在大规模自然文本中因 token 多样性受益，而全注意力在小数据集和合成任务中仍占优势。

arXiv 推理论文/研究部署/工程

06:57

MarkTechPost（RSS）

57

Qualcomm AI Hub实战教程：使用MobileNet-V2和YOLOv7进行分类、目标检测与硬件感知部署

该教程演示如何配置Qualcomm AI Hub Models，运行MobileNet-V2推理与YOLOv7目标检测，并在真实设备上完成模型编译。

教程/实践端侧部署/工程

06:47

Hugging Face：Blog（RSS）

精选74

用Qwen2.5-3B构建多智能体经济体：工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体，每个智能体独立运行，通过vLLM部署在Modal，以Gradio为交互窗口。3B模型在100%调用中输出有效JSON，但经济判断能力弱。通过设计稀缺性（食物品种限制、易腐坏、冬季燃料危机）和优化提示词（禁止买入自产物品、给出示例）提升决策质量。15轮模拟中，蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体 Hugging Face 教程/实践部署/工程

推荐理由：我觉得这是近期最诚实的小模型工程复盘，把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了，比看十篇论文有实操价值。

01:12

Google Developers Blog（RSS）

精选75

Google Colab CLI 发布

Google 推出 Colab 命令行界面（CLI），允许开发者和 AI 智能体将本地终端连接到远程 Colab 运行时，实现无摩擦执行。该轻量级 CLI 支持请求高性能 GPU、远程运行本地 Python 脚本，并检索工件日志或模型（如微调后的 Gemma 3 适配器）。工具可直接集成到标准终端环境，可被 Antigravity、Claude Code 等 AI 智能体调用以管理复杂机器学习流水线。

Google MCP/工具产品更新部署/工程

推荐理由：对于习惯在 Colab 上薅免费 GPU 的开发者，这个 CLI 把本地开发、远程跑训练这套流程的摩擦降到了几乎为零，而且直接对接 AI agent，实验自动化往前迈了一大步。

6月5日

23:15

IT之家（RSS）

同事件精选73

苹果新版 Siri 不会被宣传为完成品，内部将其标记为"Beta"版

苹果新版Siri被内部标记为“Beta”版，不会作为完成品宣传；可能设置等待清单供用户尝试。iOS 27细节：通知到达重新设计，通知中心手势移至左上角；“查找”应用视觉重设计；照片“清理”功能改进；大量底层安全改进。部分Siri查询将通过Google Cloud调用授权版Gemini，并使用谷歌的NVIDIA Blackwell B200集群处理。

Google 行业动态语音部署/工程

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：古尔曼这料把苹果的策略摊开了，Siri不再死守自研，用谷歌Gemini加英伟达芯片，对追求隐私的苹果是转折点，但标Beta也说明离成熟还远。

22:30

Cloudflare Blog

精选71

你的AI账单失控了。Cloudflare现在可以解决这个问题。

Cloudflare AI Gateway新增实时消费限制功能，防止跨多个AI提供商的token账单失控。通过与Cloudflare Access集成，企业可以使用基于身份的预算和策略管理AI使用成本。

产品更新部署/工程

推荐理由：Cloudflare AI Gateway 新加的实时花费限制，直接掐住 token 账单失控的命门，对重度依赖多模型的团队来说，这比任何新模型发布都更实在。

22:15

IT之家（RSS）

56

华为云联合20余家模型厂商发布"百模千态，云聚共赢"生态合作计划

华为云在INSPIRE创想者大会上联合智谱、DeepSeek、MiniMax、Kimi等20余家厂商发布“百模千态，云聚共赢”计划，共建系统化商业生态。同时推出Agentic Infra新范式及四大新品：AICS灵衢智算集群支持10万卡级规模、总算力200EFLOPS、Token生成时延低于10毫秒、千卡吞吐500万Tokens/秒、可用性99.95%；AMS记忆存储方案实现PB级记忆空间并支持KV Cache分层池化；CCE VolcanoNext通智一体化调度引擎提升资源利用率超30%；AgentSphere羽量级沙箱实现100毫秒级启动与每分钟十万级批创能力。

智能体产品更新部署/工程

20:01

Artificial Intelligence News（RSS）

57

C3 AI 智能体将帮助 Shell 实现预测性维护自动化

壳牌（Shell）将利用 C3 AI 的智能体（agents），从基础异常检测转向全自动预测性维护。目前壳牌已在上下游运营中使用 C3 AI Reliability Suite 监控超过 30,000 个关键设备，未来将借助 AI 智能体进一步自动化维护流程。

智能体行业动态部署/工程

19:27

MarkTechPost（RSS）

61

Microsoft Fara 教程：在 Google Colab 中使用模拟 OpenAI 兼容端点运行浏览器智能体

一篇实践指南，介绍如何在 Google Colab 中运行 Microsoft Fara，使用模拟的 OpenAI 兼容端点测试浏览器智能体循环。

智能体 Microsoft 教程/实践部署/工程

19:27

MarkTechPost（RSS）

62

NVIDIA AI 发布 Dynamo Snapshot：基于 CRIU 的 Kubernetes AI 推理快速启动系统

NVIDIA Dynamo Snapshot 使用 CRIU 和 cuda-checkpoint 工具，在 Kubernetes 上对 vLLM 推理工作节点进行检查点和恢复，实现快速启动。

开源/仓库推理部署/工程

19:22

公众号：腾讯混元

精选62

腾讯混元提出Stem稀疏注意力算法，被ICML 2026收录

Stem算法通过Token位置衰减（TPD）和输出感知度量（OAM）两项创新，仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化，支持FP8量化与vLLM的Paged KV Cache，在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速，在8K至256K序列长度上表现一致。

开源生态推理论文/研究部署/工程

推荐理由：把稀疏注意力从一刀切升级成按信息流分配预算，算子在Hopper上把理论加速几乎无损转化，3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。

18:15

IT之家（RSS）

61

消息称LG将引进1万块英伟达Blackwell GPU，为其迄今最大规模

LG集团将引进1万块英伟达Blackwell架构GPU，用于其人工智能转型（AX）计划。这是该集团有史以来最大规模的单次英伟达GPU采购，整体投资预计达数万亿韩元。LG人工智能研究院正持续开发EXAONE系列大语言模型；LG电子推进人形机器人商业化；LG U+作为韩国三大电信运营商之一，也是重要AI云服务供应商。英伟达CEO黄仁勋今日会见了LG集团会长具光谟。

行业动态部署/工程

18:15

IT之家（RSS）

58

视觉内容社交平台 Pinterest 为 AI 服务导入亚马逊 AWS Trainium 芯片

Pinterest 宣布大幅扩展与 AWS 的合作，计划在 2031 年前投入 40 亿美元，扩大对 AWS 定制芯片（包括 CPU 和 AI ASIC）的使用。目前约 1/3 的计算基础设施已运行在 AWS Graviton 系列 Arm CPU 上，未来还将利用 AWS Trainium 托管和运行 LLM / VLM 模型，支持个性化视觉搜索和 AI 辅助发现。首席技术官 Matt Madrigal 表示，深化合作将加速 AI 创新，提升用户体验和广告主效果。

推理行业动态部署/工程

17:48

HuggingFace Daily Papers（社区热门论文）

51

SigmaScale：基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

SigmaScale通过学习辅助缩放矩阵S改进基于截断SVD的大语言模型压缩。该方法在激活感知压缩损失下优化两组向量，定义对角行和列缩放变换。学习缩放降低了权重矩阵的有效内在秩（有效秩熵减少），且降低幅度与压缩损失强相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验表明，SigmaScale在困惑度和零样本基准上与当前最先进SVD压缩方法竞争力相当，在特定任务上表现出优势，成为降低LLM推理计算成本的有效选项。

推理论文/研究部署/工程

15:15

IT之家（RSS）

54

Meta 借鉴特斯拉，在帐篷里建造数据中心

Meta 在俄亥俄州新奥尔巴尼外搭建 6 座“快速部署结构”帐篷，每座约 11600 平方米，用于容纳数吉瓦级数据中心，建设周期缩短一半。此举借鉴特斯拉 Model 3 量产时的做法，供电则依赖附近 200 兆瓦模块化燃气轮机，思路来自 xAI。Meta 计划数据中心等资本支出最多达 1450 亿美元，股价今年下跌 5%。其最新 AI 模型 Muse Spark 已开发完成，但依赖的 API 多次延期。

Meta 数据/训练行业动态部署/工程

10:48

Hacker News 热门（buzzing.cc 中文翻译）

51

Transformer 需要三个投影吗？--对 QKV 变体的系统研究

一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影（Query、Key、Value）。通过分析多种 QKV 变体结构，论文对「三投影」这一设计选择进行了系统性评估。

arXiv 开源生态论文/研究部署/工程

1…9 101112 13…35