英伟达发布RTX Spark芯片 · AI HOT
数字生命卡兹克@Khazix091876
2026-06-01 16:22·20天前
AI 摘要英伟达在GTC Taipei 2026发布消费级芯片RTX Spark。该芯片基于GB10,提供最高1 PFLOP的FP4 AI性能、20个CPU核心、6144个GPU核心及128GB LPDDR5X统一内存,支持在本地运行120B参数的大模型。其核心突破在于首次将统一内存架构与CUDA生态结合于消费级PC,解决了以往统一内存在AI开发生态上的短板。微软将重构Windows以原生支持本地AI智能体运行。这被称为个人电脑诞生40年来“重新定义”的时刻。
智能体大佬观点端侧
数字生命卡兹克@Khazix0918 · X76
2026-06-01 16:22·20天前
AI 摘要英伟达在GTC Taipei 2026发布消费级芯片RTX Spark。该芯片基于GB10,提供最高1 PFLOP的FP4 AI性能、20个CPU核心、6144个GPU核心及128GB LPDDR5X统一内存,支持在本地运行120B参数的大模型。其核心突破在于首次将统一内存架构与CUDA生态结合于消费级PC,解决了以往统一内存在AI开发生态上的短板。微软将重构Windows以原生支持本地AI智能体运行。这被称为个人电脑诞生40年来“重新定义”的时刻。
所以最近联想、HP、ARM大涨啥的,不是没有原因的。
能在个人消费级的电脑里,直接用统一内存的方式,以超高速+全面CUDA生态支持,来本地跑AI大模型,这应该是整个PC领域头一遭。
而且微软会跟英伟达一起,全面重构Windows系统,让搭载RTX Spark的电脑,原生支持本地Agent的运行。
Windows生态,感觉有救了,英伟达来当救世主了。
感觉上,明年全新的Windows系列的换机潮要来了。
我觉得要理解RTX Spark的历史意义,还是得说一个我觉得大家需要知道的东西:
在过去,我们传统的电脑里,一般有两个大家所熟知的最核心的东西,一个叫CPU,一个叫GPU。
GPU大家肯定都很熟了,在电脑上,经常就是我们常说的显卡,比如我的这个5080。
CPU和GPU他两呢,各有各的内存,是分开的两块。
CPU用的叫系统内存(RAM),GPU用的叫显存(VRAM),两边要交换数据得通过一条通道来回搬。
而统一内存呢,大概就是把这两块合成一块,CPU和GPU共用同一个内存池,谁都能直接访问。
苹果把这套玩意搞成了自己的主流,你现在买的Mac,几乎都是统一内存了。
但是Windows生态,CPU和GPU都是不同厂家做的做的,受限于过去的生态,过去也有人搞过,但是也都拉了,也从来没有人能把这么多上下游,联合起来大搞特搞。
而这个统一内存,对于跑大模型来说,真的几乎就是决定生死的差别。
上面我们也说了,传统PC的内存架构是分裂的,CPU有自己的系统内存(RAM),GPU有自己的显存(VRAM),两者之间靠一条叫PCIe的东西连起来。
比如,CPU有一块系统内存,我们按64GB RAM来算,GPU又有一块自己的显存,比如RTX5080的16GB VRAM。
你想在本地跑一个大模型,比如量化后的70B模型,可能要几十G内存,你的电脑内存看起来有64GB,但GPU真正能高速使用的只有那16GB显存。
一旦模型太大,显存放不下,就要把一部分权重放在CPU的系统内存里,GPU每次需要这部分权重,就得通过PCIe去系统内存里拿。
但是PCIe这条连接CPU内存和GPU的通道,像PCIe 4.0 x16单向带宽只有大概32GB/s,差了三十倍,纯龟速。
它可以把CPU和GPU的内存变成一个共享池,比如一台机器有128GB统一内存,那么GPU就可以直接使用这个大池子里的很大一部分。那这样你跑本地大模型的时候,就不再被一张显卡的 16GB、24GB、32GB显存限制得那么死。
统一内存在消费级单机上,几乎是跑本地大模型唯一优雅的解法。
数据中心就是另一个世界了,那条路跟我们普通消费者就没啥关系了。
说到这,那我觉得,你肯定想问,那既然统一内存这么牛逼,我买Mac不就行了,Mac也有128G的统一内存的版本,我买RTX Spark干啥?
这是个非常好的问题,有一个答案还是挺重要的,那就是英伟达真正的杀手锏。
CUDA这个词,很多关注AI的朋友应该都听过,但它到底是什么,为什么这么重要,我觉得还是值得认真聊一下。
很多人以为CUDA就是英伟达的显卡驱动,或者只是什么GPU加速技术。
底层,它让你能把GPU当成通用计算器来编程,除了渲染画面,还能做数学计算。
中层,是一堆被打磨了将近二十年的数学库。cuBLAS做线性代数,cuDNN做深度学习的基础运算,TensorRT做推理优化,NCCL做多卡通信,FlashAttention这类关键优化,CUDA 路线最成熟,很多新特性也会优先围绕NVIDIA GPU做适配。
还有老黄这次演讲里反复强调的CUDA-X,为所有的Agent,开放的CUDA库,能让Agent直接调用,这下更离谱了。。。
里面有一整套横跨科学计算、工程仿真、芯片设计、基因组学、通信网络、机器人和物理仿真等等的加速库。
比如cuLitho做计算光刻,cuOpt做决策优化,cuDSS做稀疏矩阵求解,AI-Q做对结构和非结构化文档做深度研,Warp做可微分物理,Parabricks做基因组学等等等等。
上层,就是PyTorch、TensorFlow、JAX,几乎所有深度学习框架的GPU后端,默认且首先支持的就是CUDA。
从2006年做到现在,CUDA积累了海量的优化库、教程、代码、生态等等。你今天去看学术论文放出来的开源代码,绝大多数都是在CUDA上写和测的,你今天遇到任何深度学习的问题去搜解法,搜出来的答案也几乎都是默认假设你在用CUDA。
它的统一内存确实牛逼,但它的GPU用的是Metal,机器学习框架是MLX。
社区里绝大部分开源模型、训练代码、微调工具,都是先在CUDA上做好的,然后才慢慢有人移植到MLX,而且推理还好说,但是训练和微调在Apple上的生态到今天还是非常薄弱。
所以你现在应该能理解,RTX Spark为什么让整个行业都在期待了。
因为在RTX Spark之前,想要CUDA和想要统一内存的能效,这两件事在PC上,是不可兼得的。
RTX Spark第一次把这以前打架的东西捏到了一起。
这才是RTX Spark真正的最牛逼的地方,也是最大的差异化。
而基于CUDA生态,这次,像Adobe之类的,会针对RTX Spark进行全面优化。
比如Adobe直接重新为RTX Spark设计了Photoshop和Premiere的核心架构,拥有高达两倍的速度,而且,还原生支持Agent调用。
而且,这一次,英伟达和微软还要一起携手,来重塑Windows上的Agent生态,虽然这块是后面才会跟纳德拉具体直播去聊,但是也透了一点东西出来。
包括全新的Windows安全基元,能为Agent的原生构建与运行提供身份认证、隔离防护、策略管控和端到端安全能力。
一套面向Agent的Windows PC平台就能看出来了。
第二层是Windows的系统,微软会把Windows往Agent时代来改。
也就是Windows security primitives + NVIDIA OpenShell。
可以说,未来任何一个想要在本地电脑上跑大模型的开发者或者创作者,从硬件上来说,RTX Spark的机器,几乎就是最优解。
A New Line,A New Beginning。