全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1388 条

全部一手资讯 X 论文

标签「部署/工程」清除

6月1日周一

22:38Hugging Face：Blog（RSS）60精选超越LLM：为何可扩展的企业AI采用取决于智能体逻辑

18:33Hacker News 热门（buzzing.cc 中文翻译）64一台10年前的至强处理器就足够了

17:05IT之家（RSS）52高通发布数据中心品牌 Dragonfly

15:04IT之家（RSS）73同事件精选英伟达和台积电将 AI 引入晶圆厂，推动半导体设计与制造发展同一事件，精选展示《NVIDIA Vera Rubin 平台如何解决智能体 AI 的规模扩展问题》

15:03公众号：数字生命卡兹克53英伟达发布RTX Spark：消费级芯片，统一内存生态支持本地AI与Agent

14:51HuggingFace Daily Papers（社区热门论文）68Adaptive Auto-Harness：面向开放任务流智能体系统部署的持续自改进框架

12:03IT之家（RSS）64英伟达黄仁勋称"AI 减少岗位是胡说八道"，软件工程师数量在增加

09:28IT之家（RSS）69戴尔向 CoreWeave 交付全球首套可运行的 NVIDIA Vera Rubin NVL72 系统

08:28Hacker News 热门（buzzing.cc 中文翻译）58奥德修斯--自主托管的 AI 工作区

08:00OpenRouter：Announcements（RSS）77同事件精选OpenRouter 五月发布亮点：语音API、模型融合、企业控制及20个新模型上架同一事件，精选展示《OpenRouter 5月发布亮点》

08:00OpenRouter：Announcements（RSS）71同事件精选OpenRouter 5月发布亮点：语音与转录API、模型融合及20款新模型同一事件，精选展示《OpenRouter 5月发布亮点》

08:00HuggingFace Daily Papers（社区热门论文）48金融LLM智能体新架构：交互原生知识束（InKH）

00:15Hacker News 热门（buzzing.cc 中文翻译）70精选我花200英镑把一台数据中心级GPU装进了我的游戏电脑

5月31日周日

16:47The Decoder：AI News（RSS）62软银计划在法国投资750亿欧元建设AI数据中心

12:24IT之家（RSS）66AI 编程工具普及背后：效率提升的假象与代码维护的隐患

08:24IT之家（RSS）42IT早报 0531：微软宣布下周携手英伟达开启 PC 新时代；深圳网约车市场已饱和官方发风险提示；苹果 iPhone 18 机模曝光；MiniMax 启动 A 股 IPO 进程…

07:24IT之家（RSS）71软银豪掷 750 亿欧元，在法国建设 5 吉瓦 AI 数据中心

05:43Simon Willison 博客73精选在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用

02:43Hacker News 热门（buzzing.cc 中文翻译）63OpenRouter 完成 1.13 亿美元 B 轮融资

00:12Hacker News 热门（buzzing.cc 中文翻译）71精选随着成本飙升，美国企业开始对人工智能实施配给

5月30日周六

22:24IT之家（RSS）58全国首个绿色算力全栈 AI 平台在呼和浩特上线，兼容国产芯片与主流算力架构

19:21IT之家（RSS）61小米 MiMo-V2.5 系列 API 永久降价并公开推理优化方案

18:39公众号：小米 MiMo59MiMo-V2.5 系列推理全链路优化：将 Hybrid SWA 效率推向极致

17:21IT之家（RSS）53抢攻亚太地区企业级 AI 市场，OpenAI 与日本云服务商 Data Section 达成战略合作

11:41Hacker News 热门（buzzing.cc 中文翻译）61Show HN： Tiny-vLLM--基于 C 和 CUDA 的高性能大型语言模型推理引擎

08:40Hacker News 热门（buzzing.cc 中文翻译）62神秘的大语言模型 Hy3 以巨大优势领跑 OpenRouter 模型排行榜

07:19OpenRouter：Announcements（RSS）69精选Guardrails：保护你的智能体、数据与成本

00:49Artificial Intelligence News（RSS）50用OpenAI治理框架扩展安全的企业AI

5月29日周五

23:10Hacker News 热门（buzzing.cc 中文翻译）60在标准GPU上进行实时大语言模型推理：单次请求生成速度达3k tokens/s

22:21IT之家（RSS）57受益于 AI 热潮及超预期的预计营收，戴尔股价一度上涨近四成

21:30HuggingFace Daily Papers（社区热门论文）61EarlyTom：早期Token压缩实现快速视频理解

21:15TechCrunch：AI（RSS）55芯片初创公司 XCENA 融资 1.35 亿美元，押注 AI 最大瓶颈不是算力而是内存

19:30Hugging Face：Blog（RSS）71精选PyTorch 性能分析系列（一）：torch.profiler 入门指南

17:21IT之家（RSS）57鸿海董事长刘扬伟：对未来增长动能充满信心，目前未看到"黑天鹅"迹象

16:48MarkTechPost（RSS）65介绍 mKernel：一个用于 GPU 驱动通信的多 GPU、多节点融合内核库

16:30HuggingFace Daily Papers（社区热门论文）68当云端智能体遇见设备端智能体：来自混合多智能体系统的启示

16:21IT之家（RSS）59国家能源局：预计"十五五"时期全国算力用电量年均新增超 1000 亿千瓦时

14:21IT之家（RSS）52Mistral AI 首席执行官 Mensch：拥有定制芯片或许是迟早的事

14:21IT之家（RSS）51TrendForce：预估 2027 年全球存储器产值将扩大至 1.28 万亿美元

13:21IT之家（RSS）55杨元庆：联想将在天津投建新一代 AI 算力产品研发制造中心

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月1日

22:38

Hugging Face：Blog（RSS）

精选60

超越LLM：为何可扩展的企业AI采用取决于智能体逻辑

可扩展的企业AI采用需超越大语言模型，依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流，从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例，展示了智能体逻辑如何通过程序分析等技术，在理解大型遗留代码库时，相比纯LLM基线方法，能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中，该方法亦能使代码覆盖度提升20%-45%，同时token消耗降低最高达15倍。

智能体推理现象/趋势部署/工程

推荐理由：不是又一篇炒作 agent 的文章，IBM 拿真实项目数据说清楚了‘agent logic’怎么让大模型在企业落地时既降本又增效。

18:33

Hacker News 热门（buzzing.cc 中文翻译）

64

一台10年前的至强处理器就足够了

Gemma 4 模型已可在 2016 年的至强处理器上运行。该事实在 Hacker News 上获得关注。

Google 教程/实践端侧部署/工程

17:05

IT之家（RSS）

52

高通发布数据中心品牌 Dragonfly

高通在COMPUTEX 2026上宣布推出数据中心品牌Dragonfly，预计包含数据中心CPU与AI ASIC产品，并与客户端的骁龙、AIoT的Dragonwing共同构成新品牌组合。CEO安蒙预测，到2030年AI Token（词元）需求将达到401.48×10^16。更多细节将于6月24日揭晓。

产品更新推理部署/工程

15:04

IT之家（RSS）

同事件精选73

英伟达和台积电将 AI 引入晶圆厂，推动半导体设计与制造发展

行业动态部署/工程

同一事件，精选展示《NVIDIA Vera Rubin 平台如何解决智能体 AI 的规模扩展问题》

推荐理由：这是 AI 反哺半导体制造的关键信号，英伟达的 GPU 和软件栈正渗透进台积电产线，从计算光刻到缺陷检测全链条提速，芯片迭代周期可能因此压缩一档。

15:03

公众号：数字生命卡兹克

53

英伟达发布RTX Spark：消费级芯片，统一内存生态支持本地AI与Agent

英伟达在GTC Taipei 2026发布全新消费级芯片RTX Spark，基于与DGX Spark相同的GB10芯片，最高1 PFLOP FP4 AI性能、20个CPU核心、6144个GPU核心和128GB LPDDR5X统一内存，可本地运行120B参数大模型。RTX Spark在消费级PC上首次将统一内存与完整CUDA生态结合，让GPU直接访问共享内存池，突破传统显存限制。微软将与其全面重构Windows系统，原生支持本地Agent运行；Adobe等应用已针对RTX Spark优化，Photoshop和Premiere性能提升两倍，并原生支持Agent调用。

大佬观点部署/工程

14:51

HuggingFace Daily Papers（社区热门论文）

68

Adaptive Auto-Harness：面向开放任务流智能体系统部署的持续自改进框架

现有 Auto-Harness 系统仅针对固定离线基准评测，而开放任务流存在无终点历史、异构任务与分布偏移，导致单一密集更新装备性能先升后降。本文提出 Adaptive Auto-Harness，将距 oracle 装备差距分解为进化损失与适配损失，采用状态化多智能体进化器、带求解时路由的装备树及人类引导钩子来解决。在预测市场、安全竞赛与事件预测三个任务流上，该方法优于五个基线，消融实验验证了各模块贡献。代码已开源。

智能体 GitHub 论文/研究部署/工程

12:03

IT之家（RSS）

64

英伟达黄仁勋称"AI 减少岗位是胡说八道"，软件工程师数量在增加

英伟达 CEO 黄仁勋在台北电脑展表示，AI减少岗位的说法是胡说八道，实际上软件工程师数量正在增加。他认为“有用”的AI时代已至，token是新的利润单位，AI是GDP生成器。同时，黄仁勋称下一代超级AI芯片Vera Rubin是其最雄心勃勃的产品，由4万名工程师参与研发，将于今年下半年推出，他预计其将比Grace Blackwell更加成功。

推理行业动态部署/工程

09:28

IT之家（RSS）

69

戴尔向 CoreWeave 交付全球首套可运行的 NVIDIA Vera Rubin NVL72 系统

推理行业动态部署/工程

08:28

Hacker News 热门（buzzing.cc 中文翻译）

58

奥德修斯--自主托管的 AI 工作区

奥德修斯是一个自主托管的 AI 工作区项目，其源代码已在 GitHub 上公开。

GitHub 开源/仓库开源生态部署/工程

08:00

OpenRouter：Announcements（RSS）

同事件精选77

OpenRouter 五月发布亮点：语音API、模型融合、企业控制及20个新模型上架

OpenRouter 推出语音与转录 API、模型融合（Model Fusion）、私有模型部署和企业级工作空间控制功能。平台同时新增 20 个模型，其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。语音 API 支持实时语音识别与合成，模型融合允许用户组合多个模型的输出结果。企业工作空间提供更细粒度的权限管理与审计日志。

智能体产品更新部署/工程

同一事件，精选展示《OpenRouter 5月发布亮点》

推荐理由：OpenRouter五月更新不只是加模型，护栏、语音、模型融合全打包成API，开发团队读完就能用。月流量破百亿token还拿了1.13亿融资，平台稳定性会更强。

08:00

OpenRouter：Announcements（RSS）

同事件精选71

OpenRouter 5月发布亮点：语音与转录API、模型融合及20款新模型

OpenRouter 发布5月更新，推出语音与转录API、模型融合功能、私有模型支持和企业工作区控制，并新增20款模型，包括Gemini 3.5 Flash和Claude Opus 4.8。

智能体产品更新部署/工程

同一事件，精选展示《OpenRouter 5月发布亮点》

推荐理由：OpenRouter 这次月度发布把安全护栏、多模型融合和语音 API 全补上了，Model Fusion 和 Pareto Code Router 对做 agent 的团队尤其实用，成本控制与质量权衡变得更直接。

08:00

HuggingFace Daily Papers（社区热门论文）

48

金融LLM智能体新架构：交互原生知识束（InKH）

金融AI智能体常因用户需反复陈述目标、风险偏好、投资组合和市场假设而失败。研究人员提出InKH架构，将用户、市场、组合和工具事件转化为结构化知识，采用被动知识注入、时间图记忆、wiki审计面及带成熟度与失效的背景提取。在46,080次评估中，InKH平均任务质量0.815（900ms延迟）。相比agent驱动的wiki-walk记忆，延迟降低82.95%，token成本降低82.29%，过时知识使用减少96.58%，质量提升0.108。验证了系统吸收复杂性而非转嫁用户的理念。

智能体论文/研究部署/工程

00:15

Hacker News 热门（buzzing.cc 中文翻译）

精选70

我花200英镑把一台数据中心级GPU装进了我的游戏电脑

一名用户以200英镑的价格购入了一块数据中心级GPU，并将其成功安装到自己的游戏电脑中。文章记述了这一非标准硬件改装过程、遇到的技术挑战以及最终实现本地运行大语言模型的体验。

教程/实践端侧部署/工程

推荐理由：一个200英镑的二手 V100 加适配器，就让游戏电脑用上了 32GB 显存，跑 Qwen3.6-27B 达到 32 tok/s，噪音问题也解决了。对于想低成本本地跑大模型的人，这篇 DIY 手记很实用。

5月31日

16:47

The Decoder：AI News（RSS）

62

软银计划在法国投资750亿欧元建设AI数据中心

软银计划在法国建设最高5吉瓦容量的AI数据中心，总投资额最高达750亿欧元，这是其在欧洲最大的AI基础设施投资。计划到2031年，在法国北部三个地点建成价值450亿欧元的设施。不过，软银在全球宣布的诸多类似项目至今尚未完全落地。

行业动态部署/工程

12:24

IT之家（RSS）

66

AI 编程工具普及背后：效率提升的假象与代码维护的隐患

现象/趋势编码部署/工程

08:24

IT之家（RSS）

42

IT早报 0531：微软宣布下周携手英伟达开启 PC 新时代；深圳网约车市场已饱和官方发风险提示；苹果 iPhone 18 机模曝光；MiniMax 启动 A 股 IPO 进程…

小米公布其 MiMo 模型推理系统的全链路优化技术细节，核心是通过 Hybrid SWA 架构将 KVCache 存储压缩至 1/7，并结合分级缓存与调度，显著降低长序列推理成本，最高降价达 99%。此外，AI 独角兽 MiniMax 已与中信证券签署辅导协议，正式启动 A 股 IPO 进程。

推理行业动态部署/工程

07:24

IT之家（RSS）

71

软银豪掷 750 亿欧元，在法国建设 5 吉瓦 AI 数据中心

软银集团宣布计划投入至多 750 亿欧元，在法国扩建并运营总功率最高达 5 吉瓦的数据中心。项目一期将在敦刻尔克、博斯凯勒和布尚三地兴建，目标在 2031 年为上法兰西大区提供 3.1 吉瓦的算力容量。作为 OpenAI 的投资方，软银称这是其在欧洲规模最大的 AI 基础设施投资。

行业动态部署/工程

05:43

Simon Willison 博客

精选73

在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用

作者展示了如何在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用。此前的 Datasette Lite 使用 Web Workers，但无法执行 <script> 标签中的 JavaScript。新方案由 Claude Opus 4.8 协助完成开发，解决了这一问题。作者已展示了基础的 ASGI FastCGI 演示和运行 Datasette 1.0a31 的演示，并计划后续将此方法应用于升级 Datasette Lite。

GitHub 教程/实践端侧部署/工程

推荐理由：Simon Willison 用 Service Worker 让 Python ASGI 在浏览器里真正跑了起来，这个技巧补上了 Datasette Lite 长期缺的 JS 执行能力，搞 Pyodide 的值得看看。

02:43

Hacker News 热门（buzzing.cc 中文翻译）

63

OpenRouter 完成 1.13 亿美元 B 轮融资

行业动态部署/工程

00:12

Hacker News 热门（buzzing.cc 中文翻译）

精选71

随着成本飙升，美国企业开始对人工智能实施配给

由于运行和使用AI工具的成本持续飙升，美国企业正开始对人工智能的使用实施配给制。企业通过限制使用量、设置分层级审批流程等方式控制开支，以应对AI费用增长过快的问题。这种从广泛采用转向精细化管理的策略，标志着企业在AI应用上从追求速度转向注重成本效益。

数据/训练现象/趋势部署/工程

推荐理由：成本飙升让大企业开始对AI‘配给’，这是面向企业的AI产品必须回答的ROI考题，以前铺量抢客户的玩法得切换成算清每一分钱的价值。

5月30日

22:24

IT之家（RSS）

58

全国首个绿色算力全栈 AI 平台在呼和浩特上线，兼容国产芯片与主流算力架构

政策/监管行业动态部署/工程

19:21

IT之家（RSS）

61

小米 MiMo-V2.5 系列 API 永久降价并公开推理优化方案

小米 MiMo-V2.5 系列 API 完成永久降价，最高降幅达 99%。其技术基础是公开的推理系统全链路优化方案：针对 Hybrid SWA + MoE + 多模态的复合架构，系统性重构了 KVCache 管理、分级缓存、前缀缓存与调度策略。核心优化包括将 KVCache 存储压缩至约 1/7，线上前缀缓存命中率平均达 93%，TTFT P90 降低 30%，Prefill 性能提升约 40%，Decode 阶段前 128 token 加速比达 2.3×。多模态视频处理端到端延时从 156 秒降至 23 秒。该方案宣称是业内首篇全面覆盖此类复合架构的大规模工程落地方案，模型能力无缩减。

推理教程/实践部署/工程

18:39

公众号：小米 MiMo

59

MiMo-V2.5 系列推理全链路优化：将 Hybrid SWA 效率推向极致

小米发布 MiMo-V2.5 系列模型（含 MiMo-V2.5、MiMo-V2.5-Pro），采用 Hybrid Sliding Window Attention（Hybrid SWA）架构，KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例，70 层中仅 10 层为 Full Attention，60 层为 SWA（窗口大小 128）。团队围绕 KVCache 系统重构（双池管理、按层异步拉取、SWA-aware 前缀缓存树）及分布式缓存 GCache 等环节优化，使存储效率提升约 7×，显著降低长上下文推理成本。

推理教程/实践部署/工程

17:21

IT之家（RSS）

53

抢攻亚太地区企业级 AI 市场，OpenAI 与日本云服务商 Data Section 达成战略合作

日本云服务提供商 Data Section 与 OpenAI 达成战略合作，将于亚太地区通过其企业级 AI 工作流平台 TAIZA 提供 OpenAI 模型。此举标志着 OpenAI 从依赖微软 Azure 的单平台策略转向多区域、分布式算力部署模式，以更好地应对数据主权与监管合规挑战。

OpenAI 行业动态部署/工程

11:41

Hacker News 热门（buzzing.cc 中文翻译）

61

Show HN： Tiny-vLLM--基于 C 和 CUDA 的高性能大型语言模型推理引擎

Tiny-vLLM 是一个用 C 和 CUDA 编写的高性能大语言模型推理引擎，项目代码已开源至 GitHub。

开源/仓库教程/实践部署/工程

08:40

Hacker News 热门（buzzing.cc 中文翻译）

62

神秘的大语言模型 Hy3 以巨大优势领跑 OpenRouter 模型排行榜

根据2026年5月29日发布的一则消息，一个名为 Hy3 的神秘大语言模型（LLM）在 OpenRouter 模型排行榜上取得了显著领先优势，位居榜首。OpenRouter 是一个 AI 模型聚合平台，其排行榜反映了不同模型的综合表现。该信息最初发布于 minimaxir.com，并获得了科技社区 HN 的关注。然而，关于该模型的具体技术细节、开发者信息以及性能评分，原文并未提供更多说明。

DeepSeek 开源生态现象/趋势部署/工程

07:19

OpenRouter：Announcements（RSS）

精选69

Guardrails：保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具，提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能，旨在保护智能体（Agents）、数据与控制成本。

智能体产品更新安全/对齐部署/工程

关联讨论 2 条OpenRouter：Announcements（RSS）X：OpenRouter (@OpenRouter)

推荐理由：OpenRouter 把预算管控、注入防御和敏感信息脱敏打包成一套 guardrail 配置，让投喂给 Agent 的流量有了护栏，用 OpenRouter 做生产级应用的团队可以立刻用上，不用自己搞中间件。

00:49

Artificial Intelligence News（RSS）

50

用OpenAI治理框架扩展安全的企业AI

OpenAI发布前沿治理框架（FGF），为在全球范围内部署安全、合规的企业级大语言模型提供结构化蓝图。该框架系统性地阐述了如何评估和缓解AI相关的系统性风险，并直接映射到相关标准，旨在帮助机构可持续地规模化商用AI架构。

OpenAI 安全/对齐政策/监管部署/工程

5月29日

23:10

Hacker News 热门（buzzing.cc 中文翻译）

60

在标准GPU上进行实时大语言模型推理：单次请求生成速度达3k tokens/s

该技术成果展示了在标准GPU硬件上实现大语言模型实时推理的可能性。核心性能指标为单次请求的生成速度可达到3000个tokens每秒（3k tokens/s per request）。这一结果表明，对于特定场景或模型配置，即使在非专用集群的常规计算设备上，也能实现高速的模型输出，对于降低大语言模型的使用门槛和成本具有参考意义。

推理教程/实践部署/工程

22:21

IT之家（RSS）

57

受益于 AI 热潮及超预期的预计营收，戴尔股价一度上涨近四成

因AI服务器需求强劲，戴尔科技给出远超市场预期的全年营收展望，其股价盘前一度上涨38%。戴尔预计截至2027年1月的财年总营收约为1670亿美元，其中AI服务器销售额将贡献600亿美元。该公司第一季度AI订单额达244亿美元，销售额为161亿美元。同期，戴尔总销售额同比增长88%至438亿美元，亦高于分析师预期。

行业动态部署/工程

21:30

HuggingFace Daily Papers（社区热门论文）

61

EarlyTom：早期Token压缩实现快速视频理解

视频大语言模型在视频理解中能力强，但处理海量视觉token效率低下。现有方案多在预填充后期压缩，未优化视觉编码器本身。研究指出视觉编码对时间首token（TTFT）延迟贡献大，因此压缩应提前。为此提出EarlyTom，一个免训练的压缩框架，它在视觉编码器内部执行早期视觉token压缩，并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时，EarlyTom将TTFT最高降低2.65倍，FLOPs减少高达61%，同时保持与全token基线相当的准确度，提升了部署实用性。

多模态论文/研究部署/工程

21:15

TechCrunch：AI（RSS）

55

芯片初创公司 XCENA 融资 1.35 亿美元，押注 AI 最大瓶颈不是算力而是内存

韩国芯片初创公司 XCENA 获得 1.35 亿美元融资。该公司认为，AI 当前面临的真正瓶颈并非算力，而是内存。

推理行业动态部署/工程

19:30

Hugging Face：Blog（RSS）

精选71

PyTorch 性能分析系列（一）：torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇，从最简单的矩阵乘法加偏置操作出发，逐步讲解如何使用 torch.profiler 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系，以及 torch.compile 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行，面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face 教程/实践部署/工程

推荐理由：PyTorch profiling 的陡峭学习曲线劝退了很多人，这篇用从零开始的方式把 trace 拆解得明明白白，想做性能优化的同学该收藏。

17:21

IT之家（RSS）

57

鸿海董事长刘扬伟：对未来增长动能充满信心，目前未看到"黑天鹅"迹象

鸿海董事长刘扬伟表示，AI需求的快速增长正驱动公司业务扩张，主要云服务商今年AI领域投资规模已超7000亿美元，明年可能达1万亿美元，这为公司提供了巨大市场。他对今年下半年增长动能充满信心，并指出第一季度利润增长19%。此外，为扩张AI服务器产能，公司预计今年资本开支将较去年的1740亿新台币增长30%。

行业动态部署/工程

16:48

MarkTechPost（RSS）

65

介绍 mKernel：一个用于 GPU 驱动通信的多 GPU、多节点融合内核库

加州大学伯克利分校的 UCCL 团队发布了 mKernel，该工具将节点内 NVLink 通信、节点间 RDMA 通信以及密集计算融合成一个持久化 CUDA 内核。

开源/仓库数据/训练部署/工程

16:30

HuggingFace Daily Papers（社区热门论文）

68

当云端智能体遇见设备端智能体：来自混合多智能体系统的启示

智能体AI推理的设计空间横跨两个极端：云端大语言模型性能强大但成本高，设备端小语言模型更经济。混合多智能体系统结合设备端与云端模型，为平衡提供了可能，但也引入了任务准确性、经济成本与设备能耗三者紧密关联的复杂权衡。由于缺乏通用设计原则，此类混合方案多是基于特定领域做出的临时决策。本研究通过改造两种代表性的多智能体架构以适配混合推理，系统探讨了不同设计选择如何影响系统在性能、成本与能耗的Pareto前沿上的取舍。结果表明，小语言模型确实能从大语言模型的辅助中获益，但最优架构高度依赖具体任务，且更多的前沿计算并不总能带来更好的性能。

智能体端侧论文/研究部署/工程

16:21

IT之家（RSS）

59

国家能源局：预计"十五五"时期全国算力用电量年均新增超 1000 亿千瓦时

2025年我国已建成42个万卡级智算集群，算力中心总用电量达1700亿千瓦时，占全社会用电量1.6%。全国一体化算力网络8大枢纽节点算力用电近3年平均增长率约39.5%。国家能源局预计，“十五五”时期全国算力用电量年均新增超1000亿千瓦时，到2030年预计达8000亿千瓦时，占全社会用电量6%左右。同期新型电网投资预计将超5万亿元。

行业动态部署/工程

14:21

IT之家（RSS）

52

Mistral AI 首席执行官 Mensch：拥有定制芯片或许是迟早的事

行业动态部署/工程

14:21

IT之家（RSS）

51

TrendForce：预估 2027 年全球存储器产值将扩大至 1.28 万亿美元

TrendForce 预估 2027 年全球存储器产值将增至逾 1.28 万亿美元，同比增长 44%。2026 年产值预估也被大幅上调至 8893 亿美元。增长主要受智能体AI对服务器CPU及内存需求增加的驱动，例如新一代AI服务器CPU与GPU配置比已从1:8提升至1:4或更高。同时，HBM产能挤占通用DRAM产能，加上供应商合约价话语权强化，推动DRAM产值预期大幅增长。

现象/趋势部署/工程

13:21

IT之家（RSS）

55

杨元庆：联想将在天津投建新一代 AI 算力产品研发制造中心

联想集团在天津签约建设新一代AI算力产品研发制造中心，新产线计划于2027年秋季量产。此外，联想投资的通用服务器产线将于今年9月在天津实现量产。联想董事长杨元庆表示，未来各类终端将成为“超级智能”的载体。天津产业园已落地基于GE VLM大语言模型的LCD缺陷检测系统，将屏幕不良率从3.5%降至0.4%。联想上一财年营收达5899亿人民币，利润增速超40%。

行业动态部署/工程

1…12 131415 16…35