anemll-profile 0.4.1 is out! To update: brew upgrade anemll/tap/anemll-profile New: ANE graph interruption analysis, JSO...
anemll-profile 0.4.1 is out! To update: brew upgrade anemll/tap/anemll-profile New: ANE graph interruption analysis, JSO...
FP4硬件虽已普及,但4-bit attention长期存在质量瓶颈,阻碍端到端FP4部署。研究团队提出Attn-QAT,首次系统研究attention机制的量化感知训练。该方法使FP4 attention质量达到BF16水平,同时在RTX 5090上实现比SageAttention3高1.1-1.5倍的吞吐量,在B200上较FlashAttention-4提速1.39倍。
CUDA生态的护城河并非主要由NVIDIA内部开发者构建,而是源于数百万外部开发者——他们基于CUDA发明了Flash Attention等算法。这些开发者大多从GeForce游戏GPU起步,因为NVIDIA是唯一在消费级GPU上提供完善开发者工具栈的公司。游戏玩家长大后,利用现有的GeForce显卡转向编程,形成了从游戏生态到AI开发的独特人才输送管道。
@qubitium We tried. Happy to try again.
NVIDIA STX是介于GPU与传统存储间的高速数据层,专为agentic AI和长上下文推理设计。它通过将数据更接近计算资源,显著降低延迟与数据移动开销,解决传统存储在推理流程中的瓶颈问题。STX不仅提升存储性能,更优化整个AI基础设施效率,使GPU能高效处理长上下文、多步推理与实时任务。这标志着未来AI系统的竞争重点正从纯算力转向数据交付速度与推理管道优化。
We've signed an agreement with Google and Broadcom for multiple gigawatts of next-generation TPU capacity, coming online...
NVIDIA下一代AI芯片Rubin TDP高达2,300W,较Blackwell的1,000-1,400W显著提升。该芯片通过软件提供Max-P(2,300W)与Max-Q(1,800W)两种功耗配置:Max-P追求极致性能,但机架功耗增加20%而性能增益不足此比例,能效比降低;Max-Q则优化每瓦性能。用户可在2,300W上限内自定义功耗,部分超大规模数据中心已选择降功耗运行以优化能效比并应对电力限制。
NVIDIA GPU中Shared memory逐代递增而寄存器文件不变,主因是Tensor Core吞吐量翻倍需更大缓冲池。由于全局内存加载速度远不及Tensor Core处理速度且延迟攀升,NVIDIA将Shared memory用作Tensor Core的暂存区。Blackwell虽未提升单SM的Shared memory容量,但借助tcgen05 MMA双SM协同设计,每个SM仅需加载半数操作数,实现等效容量翻倍。
Here is a quick start script including the setup, technical details, and a candid look at where Kinetic excels versus it...
Fine-Tuning Gemma 2B on PubMedQA: Building a Medical Q&A Assistant with LoRA, Keras Kinetic, and Cloud TPU https://kuanh...
Keras 社区发布 Kinetic 库,开发者通过装饰器即可将函数部署至云端 TPU/GPU 运行,定位类似 Modal 但新增 TPU 支持。该工具自动完成代码打包、Cloud Build 容器构建(支持缓存)、GKE 集群调度及结果返回,实现日志实时流式传输,使远程执行体验如同本地运行。
AA-AgentPerf是面向Agent时代的AI硬件基准测试,采用真实Agent工作负载(支持200轮交互和超10万token序列),而非合成查询。该基准允许KV cache重用、分离式预填充/解码等生产级优化技术,测量每加速器、每kW TDP、每小时成本及每机架的最大并发用户数。支持从单卡到整机架的各类架构,首批覆盖gpt-oss-120b和DeepSeek V3.2模型,旨在为AI硬件采购与部署提供真实性能参考。
构建现代应用的最大挑战并非代码本身,而是 DevOps 中繁琐的服务集成、API 密钥管理和部署配置。作者期待未来 AI 智能体能自动完成从文档阅读到生产环境部署的全流程,无需人工点击网页或手动配置。Stripe 推出的 Projects 正是朝此方向迈进:开发者可通过 CLI 命令自动配置 PostHog 等第三方服务,实现账户创建、密钥获取和计费设置的自动化,真正将基础设施生命周期转化为代码。
When @karpathy built MenuGen (https://karpathy.bearblog.dev/vibe-coding-menugen/), he said: "Vibe coding menugen was exh...
A small ship I love: We made http://Claude.ai and our desktop apps meaningful faster this week. We moved our architectur...
🙌 Andrej Karpathy's lab has received the first DGX Station GB300 -- a Dell Pro Max with GB300. 💚 We can't wait to see ...
A breakthrough in real-time video generation. As a research preview developed with @NVIDIA and shared at @NVIDIAGTC this...
FastVideo团队发布Dreamverse原型界面,引入创新的“氛围导演”工作流。该模式允许用户通过自然语言实时、迭代地引导视频生成,如更换背景或调整运镜,无需编写复杂的长提示词。其核心是全新的实时推理栈,能在单GPU上以约4.55秒生成5秒1080p视频,速度快于观看时间,从而将生成过程从被动等待转变为实时导演体验。团队认为,视频生成的未来在于让创作速度跟上想象速度,快速的反馈循环比单纯追求模型性能更能催生优质作品。
We are partnering with @nvidia to power our frontier model training and platforms delivering customizable AI. https://th...
Jensen said TWO days ago Nvidia is expanding OpenAI capacity at AWS "like mad" We also know OpenAI Codex token use is ex...
Meta研究人员透露,Facebook自2020年起使用TPU训练AI,由Kaiming He领导开发TF和JAX代码库,MAE、DiT等模型完全基于TPU构建。因内部采用有限,Meta于2023年取消GCP协议。推文指出,Google、Anthropic等实验室长期使用TPU训练大模型,Nvidia的CUDA护城河并非不可逾越,OpenAI亦投资Triton寻求替代。TPU与GPU的效率差异并非关键,系统工程人才才是决定性因素。
I keep seeing stuff about TPU, has anything materially new happened? There's no evidence Google has ever trained a Gemin...