AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1386 条
全部一手资讯X论文
标签「部署/工程」清除
6月9日周二
03:02Hacker News 热门(buzzing.cc 中文翻译)62xAI看起来更像是一家数据中心房地产投资信托基金,而非前沿实验室
01:40The Decoder:AI News(RSS)62Intel重获新生:Google和Nvidia将其视为台积电AI芯片的备选
01:09MarkTechPost(RSS)66小米MiMo与TileRT推出MiMo-V2.5-Pro-UltraSpeed,万亿参数模型在8-GPU节点上解码超1000 tokens/s
01:01Hacker News 热门(buzzing.cc 中文翻译)74同事件精选小米 MiMo-v2.5-Pro-UltraSpeed 发布:1T 参数模型,每秒 1000 token同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
6月8日周一
20:44Artificial Intelligence News(RSS)44Aviva 部署 AI 阻止 2.3 亿英镑复杂保险欺诈
20:00OpenRouter:Announcements(RSS)63同事件精选OpenRouter Agent SDK 推出 HITL 工具:满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》
19:20IT之家(RSS)51Arm 推出 AppReady for Windows:加速构建原生 WoA 应用
13:20IT之家(RSS)46OWC Stack AI 确认基于群联 aiDAPTIV,为外置式内存化闪存方案
13:20IT之家(RSS)36TrendForce:SpaceX IPO 将带动全球卫星产值 2027 年达 4470 亿美元,年增 14%
10:20IT之家(RSS)57英伟达与韩国斗山集团扩大合作,覆盖物理 AI、机器人及 AI 工厂基础设施
09:19IT之家(RSS)54SK电讯基于NVIDIA DSX平台建设GW级AI工厂云,2027年投运
6月7日周日
20:19IT之家(RSS)42富士康展示液冷版 RTX 6000 Blackwell GPU
17:04MarkTechPost(RSS)562026年最佳21款低代码与无代码AI工具盘点
08:19IT之家(RSS)40三峡集团首个无人机智能巡检管理体系投运,覆盖12座新能源场站
08:09Claude Code:GitHub Releases(RSS)31Claude Code v2.1.168 发布
07:56Hacker News 热门(buzzing.cc 中文翻译)75同事件精选谷歌将每月向SpaceX支付9.2亿美元,以获取xAI数据中心的计算能力同一事件,精选展示《SpaceX与Google达成云计算新协议》
06:34MarkTechPost(RSS)74同事件精选Google 发布 Colab CLI,开发者与 AI 智能体可在终端中远程调用 Colab GPU 与 TPU 运行 Python 代码同一事件,精选展示《Google Colab CLI 发布》
6月6日周六
21:53Hacker News 热门(buzzing.cc 中文翻译)69谷歌将每月向SpaceX支付9.2亿美元用于计算服务
21:17IT之家(RSS)70精选OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型
17:17IT之家(RSS)69SpaceX IPO获约1500亿美元认购,两倍超额认购
16:17IT之家(RSS)52英伟达 Rubin 机架内存配置被误读,美光市值蒸发逾 1000 亿美元
12:06Simon Willison 博客67Simon Willison 发布 micropython-wasm:基于 WebAssembly 的 Python 沙箱执行方案
09:07Claude Code:GitHub Releases(RSS)64同事件精选Claude Code v2.1.166 发布同一事件,精选展示《Claude Code v2.1.163 发布》
08:16IT之家(RSS)60月付 9.2 亿美元:谷歌租赁马斯克 SpaceX 的 AI 算力,约 11 万英伟达 GPU、CPU 等
08:00HuggingFace Daily Papers(社区热门论文)59CHIAR-Former:明暗注意力--在黑暗中分配计算
06:57MarkTechPost(RSS)57Qualcomm AI Hub实战教程:使用MobileNet-V2和YOLOv7进行分类、目标检测与硬件感知部署
06:47Hugging Face:Blog(RSS)74精选用Qwen2.5-3B构建多智能体经济体:工程报告
01:12Google Developers Blog(RSS)75精选Google Colab CLI 发布
6月5日周五
23:15IT之家(RSS)73同事件精选苹果新版 Siri 不会被宣传为完成品,内部将其标记为"Beta"版同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
22:30Cloudflare Blog71精选你的AI账单失控了。Cloudflare现在可以解决这个问题。
22:15IT之家(RSS)56华为云联合20余家模型厂商发布"百模千态,云聚共赢"生态合作计划
20:01Artificial Intelligence News(RSS)57C3 AI 智能体将帮助 Shell 实现预测性维护自动化
19:27MarkTechPost(RSS)61Microsoft Fara 教程:在 Google Colab 中使用模拟 OpenAI 兼容端点运行浏览器智能体
19:27MarkTechPost(RSS)62NVIDIA AI 发布 Dynamo Snapshot:基于 CRIU 的 Kubernetes AI 推理快速启动系统
19:22公众号:腾讯混元62精选腾讯混元提出Stem稀疏注意力算法,被ICML 2026收录
18:15IT之家(RSS)61消息称LG将引进1万块英伟达Blackwell GPU,为其迄今最大规模
18:15IT之家(RSS)58视觉内容社交平台 Pinterest 为 AI 服务导入亚马逊 AWS Trainium 芯片
17:48HuggingFace Daily Papers(社区热门论文)51SigmaScale:基于SVD低秩分解与学习缩放矩阵的LLM压缩方法
15:15IT之家(RSS)54Meta 借鉴特斯拉,在帐篷里建造数据中心
10:48Hacker News 热门(buzzing.cc 中文翻译)51Transformer 需要三个投影吗?--对 QKV 变体的系统研究
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
03:02
Hacker News 热门(buzzing.cc 中文翻译)
62
xAI看起来更像是一家数据中心房地产投资信托基金,而非前沿实验室

xAI在资产结构和运营模式上被比作数据中心REIT,而非传统的前沿AI实验室,这一观点来自martinalderson.com的分析文章。

AnthropicxAI数据/训练现象/趋势
01:40
The Decoder:AI News(RSS)
62
Intel重获新生:Google和Nvidia将其视为台积电AI芯片的备选

Google向Intel订购超过300万颗AI芯片,计划于2028年交付。Nvidia正在测试Intel的制造工艺,用于其即将推出的Feynman架构。两家公司的动作源于台积电(TSMC)无法满足AI芯片需求。Intel长期低迷的晶圆代工部门因此获得第二次机会。

Google行业动态部署/工程
01:09
MarkTechPost(RSS)
66
小米MiMo与TileRT推出MiMo-V2.5-Pro-UltraSpeed,万亿参数模型在8-GPU节点上解码超1000 tokens/s

小米MiMo团队与TileRT合作发布MiMo-V2.5-Pro-UltraSpeed服务模式,专为MiMo-V2.5-Pro模型设计。该方案在单个8-GPU消费级节点上,实现了1万亿参数模型超过1000 tokens/s的解码速度。

推理论文/研究部署/工程
01:01
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选74
小米 MiMo-v2.5-Pro-UltraSpeed 发布:1T 参数模型,每秒 1000 token

小米在 6 月 8 日发布 MiMo-v2.5-Pro-UltraSpeed 模型,拥有 1T 参数规模,推理速度达到每秒 1000 个 token。该模型来自小米旗下的 mimo.xiaomi.com 项目。

arXiv开源生态推理模型发布
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
推荐理由:小米把万亿模型推上 1000 tokens/s,不是纸面速度,而是模型与系统深耦合的结果,对实时推理和编程智能体是真正可落地的信号。限时申请有点可惜,但开源部分值得关注。
6月8日
20:44
Artificial Intelligence News(RSS)
44
Aviva 部署 AI 阻止 2.3 亿英镑复杂保险欺诈

英国保险公司 Aviva 利用 AI 工具识别出创纪录的 2.3 亿英镑保险欺诈索赔,以应对欺诈者使用新一代工具带来的挑战。当前欺诈手段愈加复杂,AI 既被用于防御,也被攻击方利用。Aviva 通过 AI 技术提升检测能力,遏制日益严重的保险欺诈问题。

行业动态部署/工程
20:00
OpenRouter:Announcements(RSS)
同事件精选63
OpenRouter Agent SDK 推出 HITL 工具:满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求

OpenRouter 的 Agent SDK 新增人类参与循环(HITL)工具,用于 AI 智能体的合规监督。该工具可帮助 AI 智能体满足欧盟 AI 法案、科罗拉多州自动化决策技术法(SB26-189)以及 NIST AI 风险框架(NIST AI RMF)的监管要求。

智能体教程/实践部署/工程
同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》
推荐理由:8 月就是欧盟 AI 法案高风险的生效日,这个教程把三个监管框架的 HITL 要求变成可直接复用的代码,做金融医疗代理的开发者该收藏。
19:20
IT之家(RSS)
51
Arm 推出 AppReady for Windows:加速构建原生 WoA 应用

Arm 联合 Microsoft 推出 AppReady for Windows 项目,旨在引导开发者获取学习资源,构建原生 Windows on Arm(WoA)应用。项目整合 AI 赋能工具、开发指导与专家支持,帮助开发者检查关键依赖项是否已有 WoA 原生版本、审视构建系统与编译器设置、识别架构相关代码及性能关键路径,并获取原生开发指导。AI 工具可扫描代码、识别可移植性问题并加速移植。

Microsoft端侧行业动态部署/工程
13:20
IT之家(RSS)
46
OWC Stack AI 确认基于群联 aiDAPTIV,为外置式内存化闪存方案

OWC 在今年 5 月宣布的 Stack AI 是一款雷电 5“AI 加速器”与外置存储解决方案,在 COMPUTEX 2026 上确认基于群联 aiDAPTIV 方案,为外置式 AI 内存 NAND 扩充方案。aiDAPTIV 将闪存纳入系统有效内存,把部分 AI 内存需求卸载到高耐久性 SSD 上,降低对 DRAM 依赖,使大型 AI 智能体可在本地运行。此前的 aiDAPTIV 多为内置型,Stack AI 为外置版本,部署更灵活。

产品更新推理端侧部署/工程
13:20
IT之家(RSS)
36
TrendForce:SpaceX IPO 将带动全球卫星产值 2027 年达 4470 亿美元,年增 14%

TrendForce 预测,受卫星宽带、手机直连卫星及 AI 运算需求推动,SpaceX 未来 IPO 将带动全球卫星产业产值在 2027 年达 4470 亿美元,年增 14%。SpaceX 通过收购 EchoStar 频段加速新兴市场手机直连卫星部署,并布局 AI 太空运算,在卫星轨道端直接分析农业监测等影像数据,同时扩建自有 AI 运算芯片厂 Terafab,强化垂直整合能力。

行业动态部署/工程
10:20
IT之家(RSS)
57
英伟达与韩国斗山集团扩大合作,覆盖物理 AI、机器人及 AI 工厂基础设施

英伟达与韩国斗山集团6月8日宣布扩展合作,覆盖四大板块:斗山机器人将整合英伟达Isaac Sim、Cosmos及Jetson Thor,升级“智能体机器人操作系统”,并探索双臂及人形机器人;斗山山猫将引入物理AI至建筑、农业及物料搬运设备;斗山重工拟以燃气轮机、小型模块化反应堆等为英伟达AI工厂供电;斗山电子材料以覆铜板支持英伟达MGX生态AI服务器及网络设备PCB。

具身智能行业动态部署/工程
09:19
IT之家(RSS)
54
SK电讯基于NVIDIA DSX平台建设GW级AI工厂云,2027年投运

SK电讯宣布基于NVIDIA AI工厂平台DSX构建AI数据中心,目标将AI云服务规模扩展至GW级别。首先采用Blackwell架构GPU用于训练与推理,后续逐步导入Vera Rubin平台。该AI工厂计划于2027年在韩国投运。SK电讯计划将AI基础设施扩展至全亚洲,成为NVIDIA亚洲AI基础设施关键合作伙伴。此外,双方还在机器人仿真和训练平台方面展开合作。

行业动态部署/工程
6月7日
20:19
IT之家(RSS)
42
富士康展示液冷版 RTX 6000 Blackwell GPU

富士康在2026年台北电脑展期间展示了一款液冷版 RTX 6000 Blackwell GPU,面向服务器和数据中心场景。该卡采用单槽设计,全面覆盖液冷散热模块,拥有96GB GDDR7显存,可运行AI大模型、复杂仿真及专业图形任务。电源接口改用远离PCIe插槽的独立插槽,未使用标准12V-2x6接口。

产品更新推理部署/工程
17:04
MarkTechPost(RSS)
56
2026年最佳21款低代码与无代码AI工具盘点

低代码与无代码AI平台正将提示词转化为可运行的应用、智能体或模型。该指南比较了21款工具,涵盖应用构建器、自动化、AI智能体和机器学习平台四类,每款均附带官方链接。

评测/基准部署/工程
08:19
IT之家(RSS)
40
三峡集团首个无人机智能巡检管理体系投运,覆盖12座新能源场站

近日,三峡集团首个无人机智能巡检管理体系在内蒙古投入运行,首批覆盖12座新能源场站,总装机640万千瓦。体系配套21座无人机机巢、28架巡检无人机,实现光伏、风机、集电线路、升压站巡检全覆盖。相比人工巡检,每年节省工时超11万小时,效率提升13.2倍,隐患提前检出率63%。依托自主开发的智能巡检平台,通过AI甄别缺陷,并建立专项管控机制落实双审批、全报备、实时监控,确保飞行全程可追溯、可管控、可闭环。

行业动态部署/工程
08:09
Claude Code:GitHub Releases(RSS)
31
Claude Code v2.1.168 发布

Claude Code v2.1.168 版本发布,更新内容仅为错误修复和可靠性改进。因原文较短,无法达成 50-100 字。

Anthropic产品更新部署/工程
07:56
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选75
谷歌将每月向SpaceX支付9.2亿美元,以获取xAI数据中心的计算能力

谷歌与SpaceX达成协议,每月支付9.2亿美元,获得位于xAI数据中心的计算能力。该交易的具体金额和合作细节于本周披露,将极大扩充谷歌的算力资源。

Google行业动态部署/工程
同一事件,精选展示《SpaceX与Google达成云计算新协议》
推荐理由:Google月砸9.2亿租SpaceX的GPU,这个金额暴露了巨头对算力的饥渴,虽然xAI自己还在亏损,这笔交易更像是IPO前的造势,但对基础设施市场绝对是一个冲击信号。
06:34
MarkTechPost(RSS)
同事件精选74
Google 发布 Colab CLI,开发者与 AI 智能体可在终端中远程调用 Colab GPU 与 TPU 运行 Python 代码

Google 发布 Colab CLI,允许开发者和 AI 智能体在终端中直接运行本地 Python 代码,并利用远程 Colab 的 GPU 与 TPU 运行时进行加速。通过这一命令行工具,用户无需打开浏览器即可无缝连接 Colab 计算资源,为自动化和脚本化 AI 工作流提供了更便捷的接口。

Google产品更新部署/工程
同一事件,精选展示《Google Colab CLI 发布》
推荐理由:Colab CLI把远程GPU接入终端,且AI Agent可直接调用,让Colab从笔记本变成计算后端,个人开发者云端算力使用方式会被改变。
6月6日
21:53
Hacker News 热门(buzzing.cc 中文翻译)
69
谷歌将每月向SpaceX支付9.2亿美元用于计算服务

科技巨头谷歌与航天公司SpaceX达成协议,每月支付9.2亿美元,用于购买计算服务。该消息根据Hacker News 6月6日的信息曝光,显示这一高额交易已得到确认。谷歌将向SpaceX支付每月9.2亿美元的费用,以获得其计算能力的支持。

Google行业动态部署/工程
21:17
IT之家(RSS)
精选70
OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型

OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars,每日安装量超一百万次。

多模态开源/仓库推理部署/工程

推荐理由:OpenCV 5 是一次架构级大更新,DNN 引擎重写、ONNX 覆盖率从 23% 跳到 80%,原生支持大模型推理,做模型部署的该关注了。
17:17
IT之家(RSS)
69
SpaceX IPO获约1500亿美元认购,两倍超额认购

据知情人士消息,SpaceX IPO已吸引约1500亿美元认购需求,约为计划募资750亿美元的两倍。目前仍处路演早期,预计下周定价。路演材料强调其火箭发射业务的独特性——过去三年全球大部分轨道载荷由SpaceX完成,以及Starlink的增长实力。SpaceX还称AI业务对应市场机会可达23万亿美元,并自认是唯一能利用太空建设AI算力的公司,以弥补美国发电量和计算能力缺口。

行业动态部署/工程
16:17
IT之家(RSS)
52
英伟达 Rubin 机架内存配置被误读,美光市值蒸发逾 1000 亿美元

SemiAnalysis 简报预估英伟达 Rubin NVL72 的 SOCAMM 容量从 55TB 降至 28TB,每处理器配 768GB(96GB 模块),美光股价盘中跌超 10%,市值蒸发超 1000 亿美元。市场误读“初始配置下调”:主因是 2026 年 LPDDR5X 供应紧张,且 SOCAMM2 模块可拆卸升级(可换 192GB/256GB)。每颗 Rubin GPU 搭载 288GB HBM4(72 颗共 20.7TB)保持不变。

行业动态部署/工程
12:06
Simon Willison 博客
67
Simon Willison 发布 micropython-wasm:基于 WebAssembly 的 Python 沙箱执行方案

Simon Willison 发布 alpha 包 micropython-wasm,用于在 Python 应用中安全执行代码。该包将 MicroPython 编译为 WebAssembly,通过 wasmtime 库运行,实现内存和 CPU 限制、严格的文件与网络访问控制,并支持主机函数交互。它可作为 Datasette Agent 的沙箱插件 datasette-agent-micropython。

开源/仓库部署/工程
09:07
Claude Code:GitHub Releases(RSS)
同事件精选64
Claude Code v2.1.166 发布

Claude Code v2.1.166 新增 fallbackModel 设置,最多配置三个后备模型在主模型过载或不可用时按序尝试;--fallback-model 现也适用于交互会话。deny rule 中工具名位置支持 glob 模式("*"拒绝所有工具),未知工具名启动时警告。跨会话消息中继不再携带用户权限,接收方拒绝被中继的权限请求。MAX_THINKING_TOKENS=0、--thinking disabled 及逐模型 thinking 开关可禁用默认开启思考的模型(仅 Claude API,第三方不变)。API 返回非预期不可重试错误时,在后备模型上重试一次。修复了图像处理失败、远程会话卡死、JetBrains IDE 终端闪烁、Kitty 键盘协议下 Shift+非 ASCII 字符丢失、PowerShell 命令验证挂起、macOS 后台进程孤儿化等问题。

智能体Anthropic产品更新部署/工程
同一事件,精选展示《Claude Code v2.1.163 发布》
推荐理由:Claude Code 重度用户该升级了,fallbackModel 让你设三个备用模型防止高峰期罢工,跨会话安全加固也让自动模式更敢放任跑了。
08:16
IT之家(RSS)
60
月付 9.2 亿美元:谷歌租赁马斯克 SpaceX 的 AI 算力,约 11 万英伟达 GPU、CPU 等

谷歌与 SpaceX 达成云计算合作,自 2026 年 10 月起至 2029 年 6 月,每月向 SpaceX 支付 9.2 亿美元(约 62.46 亿元人民币),租用至少 11 万张英伟达 GPU 及 CPU 等芯片对应的计算能力,用于训练和推理 AI 等高密度场景。该合作既缓解谷歌算力供应紧张与扩容周期压力,也为 SpaceX 的人工智能业务新增重要收入来源,为其 IPO 提供叙事筹码。

Google行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
59
CHIAR-Former:明暗注意力--在黑暗中分配计算

CHIAR-Former 是一种 4 层混合 Transformer,根据每个 token 的谱熵将其路由至 DCT 谱混合或全自注意力(RBF 核混合在消融中被拒绝)。仅含 DCT+注意力的变体在 WikiText-103 上获得 Val PPL 36.54,相比全注意力基线(PPL 66.62)提升 45%,同时减少 62.5% 注意力 FLOPs。在 WikiText-2、IMDB 情感分类和 ListOps 上的评估表明,模型在大规模自然文本中因 token 多样性受益,而全注意力在小数据集和合成任务中仍占优势。

arXiv推理论文/研究部署/工程
06:57
MarkTechPost(RSS)
57
Qualcomm AI Hub实战教程:使用MobileNet-V2和YOLOv7进行分类、目标检测与硬件感知部署

该教程演示如何配置Qualcomm AI Hub Models,运行MobileNet-V2推理与YOLOv7目标检测,并在真实设备上完成模型编译。

教程/实践端侧部署/工程
06:47
Hugging Face:Blog(RSS)
精选74
用Qwen2.5-3B构建多智能体经济体:工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体Hugging Face教程/实践部署/工程

推荐理由:我觉得这是近期最诚实的小模型工程复盘,把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了,比看十篇论文有实操价值。
01:12
Google Developers Blog(RSS)
精选75
Google Colab CLI 发布

Google 推出 Colab 命令行界面(CLI),允许开发者和 AI 智能体将本地终端连接到远程 Colab 运行时,实现无摩擦执行。该轻量级 CLI 支持请求高性能 GPU、远程运行本地 Python 脚本,并检索工件日志或模型(如微调后的 Gemma 3 适配器)。工具可直接集成到标准终端环境,可被 Antigravity、Claude Code 等 AI 智能体调用以管理复杂机器学习流水线。

GoogleMCP/工具产品更新部署/工程

推荐理由:对于习惯在 Colab 上薅免费 GPU 的开发者,这个 CLI 把本地开发、远程跑训练这套流程的摩擦降到了几乎为零,而且直接对接 AI agent,实验自动化往前迈了一大步。
6月5日
23:15
IT之家(RSS)
同事件精选73
苹果新版 Siri 不会被宣传为完成品,内部将其标记为"Beta"版

苹果新版Siri被内部标记为“Beta”版,不会作为完成品宣传;可能设置等待清单供用户尝试。iOS 27细节:通知到达重新设计,通知中心手势移至左上角;“查找”应用视觉重设计;照片“清理”功能改进;大量底层安全改进。部分Siri查询将通过Google Cloud调用授权版Gemini,并使用谷歌的NVIDIA Blackwell B200集群处理。

Google行业动态语音部署/工程
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:古尔曼这料把苹果的策略摊开了,Siri不再死守自研,用谷歌Gemini加英伟达芯片,对追求隐私的苹果是转折点,但标Beta也说明离成熟还远。
22:30
Cloudflare Blog
精选71
你的AI账单失控了。Cloudflare现在可以解决这个问题。

Cloudflare AI Gateway新增实时消费限制功能,防止跨多个AI提供商的token账单失控。通过与Cloudflare Access集成,企业可以使用基于身份的预算和策略管理AI使用成本。

产品更新部署/工程

推荐理由:Cloudflare AI Gateway 新加的实时花费限制,直接掐住 token 账单失控的命门,对重度依赖多模型的团队来说,这比任何新模型发布都更实在。
22:15
IT之家(RSS)
56
华为云联合20余家模型厂商发布"百模千态,云聚共赢"生态合作计划

华为云在INSPIRE创想者大会上联合智谱、DeepSeek、MiniMax、Kimi等20余家厂商发布“百模千态,云聚共赢”计划,共建系统化商业生态。同时推出Agentic Infra新范式及四大新品:AICS灵衢智算集群支持10万卡级规模、总算力200EFLOPS、Token生成时延低于10毫秒、千卡吞吐500万Tokens/秒、可用性99.95%;AMS记忆存储方案实现PB级记忆空间并支持KV Cache分层池化;CCE VolcanoNext通智一体化调度引擎提升资源利用率超30%;AgentSphere羽量级沙箱实现100毫秒级启动与每分钟十万级批创能力。

智能体产品更新部署/工程
20:01
Artificial Intelligence News(RSS)
57
C3 AI 智能体将帮助 Shell 实现预测性维护自动化

壳牌(Shell)将利用 C3 AI 的智能体(agents),从基础异常检测转向全自动预测性维护。目前壳牌已在上下游运营中使用 C3 AI Reliability Suite 监控超过 30,000 个关键设备,未来将借助 AI 智能体进一步自动化维护流程。

智能体行业动态部署/工程
19:27
MarkTechPost(RSS)
61
Microsoft Fara 教程:在 Google Colab 中使用模拟 OpenAI 兼容端点运行浏览器智能体

一篇实践指南,介绍如何在 Google Colab 中运行 Microsoft Fara,使用模拟的 OpenAI 兼容端点测试浏览器智能体循环。

智能体Microsoft教程/实践部署/工程
19:27
MarkTechPost(RSS)
62
NVIDIA AI 发布 Dynamo Snapshot:基于 CRIU 的 Kubernetes AI 推理快速启动系统

NVIDIA Dynamo Snapshot 使用 CRIU 和 cuda-checkpoint 工具,在 Kubernetes 上对 vLLM 推理工作节点进行检查点和恢复,实现快速启动。

开源/仓库推理部署/工程
19:22
公众号:腾讯混元
精选62
腾讯混元提出Stem稀疏注意力算法,被ICML 2026收录

Stem算法通过Token位置衰减(TPD)和输出感知度量(OAM)两项创新,仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化,支持FP8量化与vLLM的Paged KV Cache,在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速,在8K至256K序列长度上表现一致。

开源生态推理论文/研究部署/工程

推荐理由:把稀疏注意力从一刀切升级成按信息流分配预算,算子在Hopper上把理论加速几乎无损转化,3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。
18:15
IT之家(RSS)
61
消息称LG将引进1万块英伟达Blackwell GPU,为其迄今最大规模

LG集团将引进1万块英伟达Blackwell架构GPU,用于其人工智能转型(AX)计划。这是该集团有史以来最大规模的单次英伟达GPU采购,整体投资预计达数万亿韩元。LG人工智能研究院正持续开发EXAONE系列大语言模型;LG电子推进人形机器人商业化;LG U+作为韩国三大电信运营商之一,也是重要AI云服务供应商。英伟达CEO黄仁勋今日会见了LG集团会长具光谟。

行业动态部署/工程
18:15
IT之家(RSS)
58
视觉内容社交平台 Pinterest 为 AI 服务导入亚马逊 AWS Trainium 芯片

Pinterest 宣布大幅扩展与 AWS 的合作,计划在 2031 年前投入 40 亿美元,扩大对 AWS 定制芯片(包括 CPU 和 AI ASIC)的使用。目前约 1/3 的计算基础设施已运行在 AWS Graviton 系列 Arm CPU 上,未来还将利用 AWS Trainium 托管和运行 LLM / VLM 模型,支持个性化视觉搜索和 AI 辅助发现。首席技术官 Matt Madrigal 表示,深化合作将加速 AI 创新,提升用户体验和广告主效果。

推理行业动态部署/工程
17:48
HuggingFace Daily Papers(社区热门论文)
51
SigmaScale:基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

SigmaScale通过学习辅助缩放矩阵S改进基于截断SVD的大语言模型压缩。该方法在激活感知压缩损失下优化两组向量,定义对角行和列缩放变换。学习缩放降低了权重矩阵的有效内在秩(有效秩熵减少),且降低幅度与压缩损失强相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验表明,SigmaScale在困惑度和零样本基准上与当前最先进SVD压缩方法竞争力相当,在特定任务上表现出优势,成为降低LLM推理计算成本的有效选项。

推理论文/研究部署/工程
15:15
IT之家(RSS)
54
Meta 借鉴特斯拉,在帐篷里建造数据中心

Meta 在俄亥俄州新奥尔巴尼外搭建 6 座“快速部署结构”帐篷,每座约 11600 平方米,用于容纳数吉瓦级数据中心,建设周期缩短一半。此举借鉴特斯拉 Model 3 量产时的做法,供电则依赖附近 200 兆瓦模块化燃气轮机,思路来自 xAI。Meta 计划数据中心等资本支出最多达 1450 亿美元,股价今年下跌 5%。其最新 AI 模型 Muse Spark 已开发完成,但依赖的 API 多次延期。

Meta数据/训练行业动态部署/工程
10:48
Hacker News 热门(buzzing.cc 中文翻译)
51
Transformer 需要三个投影吗?--对 QKV 变体的系统研究

一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影(Query、Key、Value)。通过分析多种 QKV 变体结构,论文对「三投影」这一设计选择进行了系统性评估。

arXiv开源生态论文/研究部署/工程
‹ 上一页
1…910111213…35
下一页 ›