FlashInfer开源近1400个TRT-LLM-Gen高性能GPU内核,针对LLM推理优化。以W4A16量化GEMM为例,采用INT4权重与BF16激活,通过3级流水线及Warp专精化(加载、反量化、MMA、Epilogue)提升并行效率。因INT4反量化需CUDA核心处理寄存器,MMA被迫使用TS模式而非TMEM,导致SMEM带宽瓶颈。方案借鉴Cursor设计,通过流水线隐藏CUDA与Tensor Core计算差距,缓解吞吐量损失。
Trtllmgen kernels are now open. Fastest prefill and decode kernels for our target workloads. We wrote these to win Infer...
Five companies - Google, Microsoft, Meta, Amazon, and Oracle - now control about two-thirds of the world's compute, up s...
xAI计划向Cursor出租数万GPU用于训练Composer 2.5,标志其从模型开发向云计算服务转型。内部备忘录显示,xAI的GPU利用率仅11%(行业正常35-45%),20万块Nvidia GPU大量闲置,出租旨在回血。双方关系微妙,xAI刚挖走Cursor两位高管。Cursor面临激烈竞争,此前Composer 2基于Moonshot AI模型,现借xAI算力寻求突破。
NEWS: xAI plans to supply tens of thousands of GPUs to coding startup Cursor to train its upcoming Composer 2.5 AI model...
If intelligence is the log of compute... it starts with a lot of compute! And that's why we're scaling our GPU fleet fas...
面临倒闭危机的鞋履品牌Allbirds宣布全面转型算力服务,放弃原有鞋类业务,NASDAQ股价单日暴涨430%。该公司瞄准无法使用Amazon、GCP、Azure等主流云服务商的客户群体,试图在算力市场寻找差异化生存空间。此前其股价已从历史高点跌至约4美元,受此消息刺激回升至17美元左右。
AI发展常被忽视的关键是芯片制造产能的指数级扩张。TSMC正同时在中国台湾建设10座、亚利桑那州规划12座先进晶圆厂,2026年资本支出达520-560亿美元,美国总投资达1650亿美元。这不仅是产量扩张,更是为在2nm及以下节点实现计算密度 scaling,满足AI基础设施对晶体管数量的爆发式需求,尽管每片晶圆成本呈指数级增长。
Superintelligence正式推出播客节目,已登陆Spotify、Apple Podcasts及YouTube等主流平台。节目摒弃炒作,聚焦AI行业前沿深度对话,与创始人、研究者及从业者真实交流。首期节目为GTC 2026现场录制的NVIDIA生成式AI软件副总裁Kari Briski专访,深入探讨120B参数混合Mamba模型Nemotron 3 Super如何重塑企业AI架构。后续还将陆续推出AI初创公司及行业知名人士的对话。
Tesla完成AI5芯片流片,单芯片算力达双AI4的5倍,整体算力提升8倍、内存9倍、带宽5倍。该芯片针对边缘AI推理深度优化,完整算力目标2000-2500 TOPS,单芯片性能匹敌Nvidia H100,双芯片可媲美Blackwell但成本功耗显著降低。AI5将大幅提升FSD、Robotaxi与Optimus性能,由TSMC Arizona与Samsung Texas在美国本土制造。
Today we're announcing an expanded partnership with @Broadcom to co-develop multiple generations of our next-generation ...
杰文斯悖论在AI软件领域再现:开发成本降低反而导致企业应用数量激增。Gartner预测2026年40%企业应用将集成AI代理,催生"影子应用经济"——各团队快速构建的内部工具带来安全、认证、权限等治理风险。Superblocks提供控制层方案,让业务团队用AI生成应用,同时将认证、集成、权限、审计等控制权保留给IT部门,通过中间层架构隔离应用与公司核心系统。
OpenAI首席营收官Denise Dresser的泄露备忘录指控Anthropic通过激进会计手段虚增约80亿美元收入,并存在计算基础设施不足及"恐惧营销"问题。Dresser承认与Microsoft的合作限制了增长,但透露与AWS的新合作带来惊人企业需求。备忘录还披露了代号Spud的新模型、代理平台Frontier及部署引擎DeployCo,旨在通过产品矩阵锁定企业客户。
文章指出,盲目追求“AI优先”战略可能是错误的,真正的瓶颈在于软件工程基础。如果自动化测试、CI/CD流程、A/B测试与监控、任务管理和系统架构等基础不扎实,AI的效能将无法释放。真正的“AI优先”应是一种推动必要工程改进的意识和动力,促使企业夯实基础,从而释放AI的生产力。
Strix 是开源自主渗透测试框架,以 AI 作为确定性安全工具之上的自适应操作员。其核心机制围绕动态测试、POC 验证、自动修复 Pull Request 和 CI/CD 钩子构建,可在代码合并前阻断不安全代码。不同于传统扫描器仅抛出猜测,Strix 采用攻击者风格测试,通过浏览器操作、流量检查等方式验证漏洞可利用性,使安全发现附带证明和修复方案直接融入开发流程。
Gemma4可通过推测性解码实现23%推理加速。实测RTX5090上,31B dense主模型搭配E2B(5.1B)草稿模型,速度从61 token/s提升至76 token/s。该技术利用大模型算力过剩而显存带宽不足的特性,由小模型快速生成候选序列,大模型通过prefill阶段批量验证,避免逐token解码的带宽瓶颈。注意需保持模型系列一致性,Gemma4应搭配同系列草稿模型,不可与Qwen3.5混用。
Anthropic正考虑启动定制AI芯片项目,以应对训练和服务大模型所需的稀缺算力瓶颈。尽管该公司已使用Google TPUs和Amazon芯片,自研硅片不会立即替代现有方案,但将增强议价能力、保障供应并为Claude定制优化硬件。这一考虑恰逢其收入年化增长率从2025年底的约90亿美元跃升至2026年的逾300亿美元之际。据悉,此类项目在大规模部署前需耗资约5亿美元。
Big news: CoreWeave just signed a multi-year agreement with @AnthropicAI to support the development and deployment of th...