AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
5月30日周六
00:34AYi67AI并未提升组织效率,反而暴露了其记忆缺失问题
00:15AK58HuggingFace 推理 API 已提供 81k 模型
5月29日周五
23:10Hacker News 热门(buzzing.cc 中文翻译)60在标准GPU上进行实时大语言模型推理:单次请求生成速度达3k tokens/s
23:09X.PIN65华为提出τ定律应对芯片制程瓶颈
22:45Chubby♨️61字节跳动自研推理芯片曝光,设计旨在绕过美国限制
22:21IT之家(RSS)57受益于 AI 热潮及超预期的预计营收,戴尔股价一度上涨近四成
21:30HuggingFace Daily Papers(社区热门论文)61EarlyTom:早期Token压缩实现快速视频理解
21:15TechCrunch:AI(RSS)55芯片初创公司 XCENA 融资 1.35 亿美元,押注 AI 最大瓶颈不是算力而是内存
19:30Hugging Face:Blog(RSS)71精选PyTorch 性能分析系列(一):torch.profiler 入门指南
18:15Rohan Paul57本文展示了大语言模型如何在保持答案质量的同时,通过使用更短的上下文来降低成本。
17:40向阳乔木49X Premium+用户现可安装Grok Build CLI
17:21IT之家(RSS)57鸿海董事长刘扬伟:对未来增长动能充满信心,目前未看到"黑天鹅"迹象
16:48MarkTechPost(RSS)65介绍 mKernel:一个用于 GPU 驱动通信的多 GPU、多节点融合内核库
16:30HuggingFace Daily Papers(社区热门论文)68当云端智能体遇见设备端智能体:来自混合多智能体系统的启示
16:21IT之家(RSS)59国家能源局:预计"十五五"时期全国算力用电量年均新增超 1000 亿千瓦时
16:15Rohan Paul64更强的智能体将不仅来自更大的模型,而是来自其周围更好的系统
14:21IT之家(RSS)52Mistral AI 首席执行官 Mensch:拥有定制芯片或许是迟早的事
14:21IT之家(RSS)51TrendForce:预估 2027 年全球存储器产值将扩大至 1.28 万亿美元
13:21IT之家(RSS)55杨元庆:联想将在天津投建新一代 AI 算力产品研发制造中心
12:18SemiAnalysis54Cerebras运行大模型成本高昂,标准方案更优
10:21IT之家(RSS)55华为全面升级星河 AI 网络,Token 生产效率提升 2 至 5 倍
09:42ginobefun50DeepSeek V4日处理近5000万token,单日成本仅20余元
09:21IT之家(RSS)64华为鸿蒙开源 SGL 高性能 GPU 加速框架,开发者三行代码即可调用 GPU 滤镜
08:39StepFun79阶跃星辰 Step-3.7-Flash 模型发布,vLLM 当日支持
08:08swyx61ACM与AI工程领域合作展望
08:00HuggingFace Daily Papers(社区热门论文)49蒸馏博弈:自适应攻击与高效防御
08:00HuggingFace Daily Papers(社区热门论文)50流水线推测解码
08:00HuggingFace Daily Papers(社区热门论文)63dMoE:面向扩散大语言模型的块级专家混合架构
08:00HuggingFace Daily Papers(社区热门论文)63Light Interaction: 交互式视频世界模型的免训练推理加速
07:14Rohan Paul64Kog在标准GPU上实现超高速大语言模型推理
06:38OpenClaw🦞62OpenClaw核心优化:冷启动提速2.9倍
05:44TechCrunch:AI(RSS)68互联网正在为机器重建
04:44Rohan Paul62推理购买从"锁定供应商"转向"按需选择级别"
04:14TechCrunch:AI(RSS)56Asana收购无代码智能体构建器Stack AI
03:38Hacker News 热门(buzzing.cc 中文翻译)67我们更换了 Zendesk
03:36Epoch AI68超大规模厂商资本支出持续增长,预计今年达7700亿美元
02:44TechCrunch:AI(RSS)52就像黄金和石油,我们很快就能交易AI token期货了
01:52Replit ⠕64四步保障AI生成应用安全
00:34LMSYS:Blog(Chatbot Arena 团队)69精选SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力
00:00LMSYS:Blog(Chatbot Arena 团队)61精选LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月30日
00:34
AYi@AYi_AInotes
67
AI并未提升组织效率,反而暴露了其记忆缺失问题

AI工具虽使个体效率大幅提升,却未加快组织整体产出。核心在于组织普遍缺乏“记忆”:MIT Sloan 2026年报告显示95%的企业AI投资未产生可衡量回报,超过30%的团队时间用于重复建立上下文。个体生产力因AI工具(记忆留存于个人账户)而提升,但这种收益无法在组织层面整合,导致“个人在飞,组织在垮”。Sequoia在AI Ascent峰会提出,2026年将是长周期智能体的商业元年,下一轮AI将卖结果而非工具。

现象/趋势部署/工程
00:15
AK@_akhaliq
58
81k 模型可通过 HuggingFace 推理 API 使用
Hugging Face产品更新开源生态部署/工程
5月29日
23:10
Hacker News 热门(buzzing.cc 中文翻译)
60
在标准GPU上进行实时大语言模型推理:单次请求生成速度达3k tokens/s

该技术成果展示了在标准GPU硬件上实现大语言模型实时推理的可能性。核心性能指标为单次请求的生成速度可达到3000个tokens每秒(3k tokens/s per request)。这一结果表明,对于特定场景或模型配置,即使在非专用集群的常规计算设备上,也能实现高速的模型输出,对于降低大语言模型的使用门槛和成本具有参考意义。

推理教程/实践部署/工程
23:09
X.PIN@thexpin
65
华为提出τ定律应对芯片制程瓶颈

由于美国出口管制,华为在芯片先进制程竞赛中面临困难。为此,华为于2026年5月提出“τ(Tau)定律”,旨在为后摩尔时代的芯片性能提升提供新框架。该定律的核心是优化有效RC时间常数(τ)以提升信号传播速度。其方法是不完全依赖制程微缩,而是从晶体管、电路、芯片互连及系统架构四个层次进行优化,以压缩τ值。华为将其描述为中国公司首次提出具有全球影响力的后摩尔扩展框架。

推理现象/趋势端侧部署/工程
22:45
Chubby♨️@kimmonismus
61
字节跳动自研推理芯片曝光,设计旨在绕过美国限制

据报道,字节跳动正在开发基于 Groq LPU 架构的自研推理芯片。该架构将模型保存在片上 SRAM 中,跳过了受美国对华出口管制最严格限制的组件——高带宽内存。字节跳动的内存合作伙伴 InnoStar 在台积电的成熟制程节点进行生产,这些节点也处于管制之外。这一系列设计选择均旨在规避美国的限制,而正是同一架构,Nvidia 刚刚花费约200亿美元获得了其授权。

推理行业动态部署/工程
22:21
IT之家(RSS)
57
受益于 AI 热潮及超预期的预计营收,戴尔股价一度上涨近四成

因AI服务器需求强劲,戴尔科技给出远超市场预期的全年营收展望,其股价盘前一度上涨38%。戴尔预计截至2027年1月的财年总营收约为1670亿美元,其中AI服务器销售额将贡献600亿美元。该公司第一季度AI订单额达244亿美元,销售额为161亿美元。同期,戴尔总销售额同比增长88%至438亿美元,亦高于分析师预期。

行业动态部署/工程
21:30
HuggingFace Daily Papers(社区热门论文)
61
EarlyTom:早期Token压缩实现快速视频理解

视频大语言模型在视频理解中能力强,但处理海量视觉token效率低下。现有方案多在预填充后期压缩,未优化视觉编码器本身。研究指出视觉编码对时间首token(TTFT)延迟贡献大,因此压缩应提前。为此提出EarlyTom,一个免训练的压缩框架,它在视觉编码器内部执行早期视觉token压缩,并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时,EarlyTom将TTFT最高降低2.65倍,FLOPs减少高达61%,同时保持与全token基线相当的准确度,提升了部署实用性。

多模态论文/研究部署/工程
21:15
TechCrunch:AI(RSS)
55
芯片初创公司 XCENA 融资 1.35 亿美元,押注 AI 最大瓶颈不是算力而是内存

韩国芯片初创公司 XCENA 获得 1.35 亿美元融资。该公司认为,AI 当前面临的真正瓶颈并非算力,而是内存。

推理行业动态部署/工程
19:30
Hugging Face:Blog(RSS)
精选71
PyTorch 性能分析系列(一):torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇,从最简单的矩阵乘法加偏置操作出发,逐步讲解如何使用 torch.profiler 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系,以及 torch.compile 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行,面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face教程/实践部署/工程

推荐理由:PyTorch profiling 的陡峭学习曲线劝退了很多人,这篇用从零开始的方式把 trace 拆解得明明白白,想做性能优化的同学该收藏。
18:15
Rohan Paul@rohanpaul_ai
57
本文展示了大语言模型如何在保持答案质量的同时,通过使用更短的上下文来降低成本。

论文提出了“效率前沿”框架,用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是,在部署时选择合适的上下文方法可使token使用量减少约25%,在部分记忆复用场景下可降低超50%成本,且答案质量损失较小。研究指出,上下文长度存在收益递减,后增加的token成本高但收益小。在5000个HotpotQA问题的测试中,轻量检索适合低复用率,记忆压缩在高复用率下更优,而全上下文提示仍是获取最高性能所需。

arXiv推理论文/研究部署/工程
17:40
向阳乔木@vista8
49
X Premium+用户现可安装Grok Build CLI

X Premium+订阅用户现已可以安装Grok Build CLI。实际测试显示,该工具能成功生成图片,但调用 video_gen 接口生成视频的功能目前不可用,尽管官方有相关表述。此外,直接读取X平台帖子的功能也尚未实现。在编程能力上,该工具被认为不及Codex与Claude Code。

xAI教程/实践部署/工程
17:21
IT之家(RSS)
57
鸿海董事长刘扬伟:对未来增长动能充满信心,目前未看到"黑天鹅"迹象

鸿海董事长刘扬伟表示,AI需求的快速增长正驱动公司业务扩张,主要云服务商今年AI领域投资规模已超7000亿美元,明年可能达1万亿美元,这为公司提供了巨大市场。他对今年下半年增长动能充满信心,并指出第一季度利润增长19%。此外,为扩张AI服务器产能,公司预计今年资本开支将较去年的1740亿新台币增长30%。

行业动态部署/工程
16:48
MarkTechPost(RSS)
65
介绍 mKernel:一个用于 GPU 驱动通信的多 GPU、多节点融合内核库

加州大学伯克利分校的 UCCL 团队发布了 mKernel,该工具将节点内 NVLink 通信、节点间 RDMA 通信以及密集计算融合成一个持久化 CUDA 内核。

开源/仓库数据/训练部署/工程
16:30
HuggingFace Daily Papers(社区热门论文)
68
当云端智能体遇见设备端智能体:来自混合多智能体系统的启示

智能体AI推理的设计空间横跨两个极端:云端大语言模型性能强大但成本高,设备端小语言模型更经济。混合多智能体系统结合设备端与云端模型,为平衡提供了可能,但也引入了任务准确性、经济成本与设备能耗三者紧密关联的复杂权衡。由于缺乏通用设计原则,此类混合方案多是基于特定领域做出的临时决策。本研究通过改造两种代表性的多智能体架构以适配混合推理,系统探讨了不同设计选择如何影响系统在性能、成本与能耗的Pareto前沿上的取舍。结果表明,小语言模型确实能从大语言模型的辅助中获益,但最优架构高度依赖具体任务,且更多的前沿计算并不总能带来更好的性能。

智能体端侧论文/研究部署/工程
16:21
IT之家(RSS)
59
国家能源局:预计"十五五"时期全国算力用电量年均新增超 1000 亿千瓦时

2025年我国已建成42个万卡级智算集群,算力中心总用电量达1700亿千瓦时,占全社会用电量1.6%。全国一体化算力网络8大枢纽节点算力用电近3年平均增长率约39.5%。国家能源局预计,“十五五”时期全国算力用电量年均新增超1000亿千瓦时,到2030年预计达8000亿千瓦时,占全社会用电量6%左右。同期新型电网投资预计将超5万亿元。

行业动态部署/工程
16:15
Rohan Paul@rohanpaul_ai
64
更强的智能体将不仅来自更大的模型,而是来自其周围更好的系统

推文指出,AI智能体的强弱不只取决于模型,更依赖于模型周围的系统约束(harness)。该系统决定了模型的输入、可用工具、记忆及操作验证。核心进步应来自扩展此系统,尤其要提升上下文控制、记忆可信度以及工具或子智能体的路由能力。文中强调,长上下文不等于可用上下文,记忆多不等于可信,工具多不等于会用。这使得当前仅凭单次benchmark分数的评估方式显得薄弱。未来前沿在于扩展围绕智能体的系统约束,而不仅仅是扩展模型本身。相关论文标题为《From Model Scaling to System Scaling: Scaling the Harness in Agentic AI》。

智能体大佬观点部署/工程
14:21
IT之家(RSS)
52
Mistral AI 首席执行官 Mensch:拥有定制芯片或许是迟早的事
行业动态部署/工程
14:21
IT之家(RSS)
51
TrendForce:预估 2027 年全球存储器产值将扩大至 1.28 万亿美元

TrendForce 预估 2027 年全球存储器产值将增至逾 1.28 万亿美元,同比增长 44%。2026 年产值预估也被大幅上调至 8893 亿美元。增长主要受智能体AI对服务器CPU及内存需求增加的驱动,例如新一代AI服务器CPU与GPU配置比已从1:8提升至1:4或更高。同时,HBM产能挤占通用DRAM产能,加上供应商合约价话语权强化,推动DRAM产值预期大幅增长。

现象/趋势部署/工程
13:21
IT之家(RSS)
55
杨元庆:联想将在天津投建新一代 AI 算力产品研发制造中心

联想集团在天津签约建设新一代AI算力产品研发制造中心,新产线计划于2027年秋季量产。此外,联想投资的通用服务器产线将于今年9月在天津实现量产。联想董事长杨元庆表示,未来各类终端将成为“超级智能”的载体。天津产业园已落地基于GE VLM大语言模型的LCD缺陷检测系统,将屏幕不良率从3.5%降至0.4%。联想上一财年营收达5899亿人民币,利润增速超40%。

行业动态部署/工程
12:18
SemiAnalysis@SemiAnalysis_
54
在Cerebras上以最大上下文窗口运行单个深度编码模型,仅支持256个并发用户就需要24套系统(2400万美元资本支出)。在这个规模下,1亿美元在标准GB300机架中能获得高得多的内存带宽。
推理现象/趋势部署/工程
10:21
IT之家(RSS)
55
华为全面升级星河 AI 网络,Token 生产效率提升 2 至 5 倍
产品更新部署/工程
09:42
ginobefun@hongming731
50
DeepSeek V4日处理近5000万token,单日成本仅20余元

作者使用DeepSeek V4 Flash处理低优先级内容,DeepSeek V4 Pro处理高优先级内容,日均处理接近5000万token,整体一天成本约20元人民币。关键在于缓存命中率很高,显著降低了使用成本。相比此前使用的Gemini,DeepSeek的性价比表现更为突出。

DeepSeek教程/实践部署/工程
09:21
IT之家(RSS)
64
华为鸿蒙开源 SGL 高性能 GPU 加速框架,开发者三行代码即可调用 GPU 滤镜

华为鸿蒙开源了高性能GPU加速框架 SimpleGPULayer(SGL),以简化图像处理、AI推理、2D/3D渲染等场景的GPU调用。开发者无需处理底层设备初始化、显存管理等复杂细节,仅需几行代码(如示例中的3行C++代码)即可接入GPU加速。该框架提供C API和NAPI接口,方便集成到鸿蒙应用中。其图像处理能力已在悟空图像等应用中落地使用。

开源/仓库端侧部署/工程
08:39
StepFun@StepFun_ai
79
阶跃星辰发布了 Step-3.7-Flash 模型,vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型,每个 token 约有 11B 激活参数,支持原生图像与文本输入。其上下文窗口达到 256K,适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本,并内置 MTP 推测解码、原生工具调用及推理解析功能。

vLLM: 🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...

多模态推理模型发布部署/工程
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)
08:08
swyx@swyx
61
今天与@ACM_President会面! 我们在@CAISconf颁发了行业聚焦奖,所有海报和OpEx演讲将于下月在@aiDotEngineer展示。 更多AIE x ACM合作即将到来! 好奇"AI工程领域的图灵奖"会是什么样子……
行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
49
蒸馏博弈:自适应攻击与高效防御

蒸馏攻击使模型提供面临部署权衡:提升可用性的输出更易被模仿。研究通过效用受限教师与自适应学生的极小化极大博弈建模,得到学生侧自适应评估规则(重加权高价值样本)和教师侧防御模板。基于样本价值代理提出Product-of-Experts(PoE)防御——前向传播中结合教师与代理学生。实验表明,自适应评估揭示巨大被动-自适应差距;PoE与昂贵防御鲁棒性差距缩小,且成本更低、推理轨迹质量更高。结论:强蒸馏难以阻止,抗蒸馏进展应基于自适应学生评估。

arXiv安全/对齐论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
50
流水线推测解码

提出一种名为SPD的推测解码框架,通过将目标大语言模型(LLM)划分为n个流水线阶段来并行处理n个token,以加速解码。SPD利用一个推测模块跨流水线深度聚合中间特征以预测下一个token,并与目标模型的流水线步骤严格并行执行,从而实现有限难度、更高接受率和零延迟气泡。实验显示,SPD的理论加速比显著高于主流基线。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
63
dMoE:面向扩散大语言模型的块级专家混合架构

扩散大语言模型(dLLMs)与混合专家(MoE)架构结合时,存在块并行解码与token级专家选择之间的不匹配,导致推理时激活专家数过多、内存占用高。为此,我们提出dMoE框架,它将每个块内的token级专家分布聚合为统一的块级专家分布,以更协调的方式指导专家路由。实验表明,dMoE将唯一激活专家数平均从69.5降至14.6,保留了原模型99.11%的性能,同时减少76.64%-79.84%的内存使用,并实现1.14至1.66倍的端到端延迟加速。代码已开源:https://github.com/fscdc/dMoE

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
63
Light Interaction: 交互式视频世界模型的免训练推理加速

Light Interaction是一个用于交互式视频世界模型的免训练推理加速框架。其核心是利用交互特性实现轨迹依赖的自适应计算,具体包括自适应上下文管理、去噪缓存加速以及硬件软件协同设计的3D块稀疏注意力。在HY-WorldPlay和Matrix-Game-3.0上的评估表明,该框架无需重新训练模型,可实现最高2.59倍的推理加速,同时保持有竞争力的视觉质量。

推理视频论文/研究部署/工程
07:14
Rohan Paul@rohanpaul_ai
64
Kog在标准GPU上实现超高速大语言模型推理

Kog AI 在标准数据中心 GPU 上实现了惊人的推理速度:在 8× AMD MI300X 上达到 3,000 tokens/s,在 8× NVIDIA H200 上达到 2,100 tokens/s(FP16,无推测解码),而常规速度通常为 100-300 tokens/s。其技术核心是将大语言模型解码视为内存流问题,通过将整个 token 生成循环置于单一持久 GPU 程序内、优化内存访问拓扑以降低跨芯片延迟、并采用延迟张量并行技术来大幅减少开销。Kog 今日开放技术预览,提供 2B 编码模型,并计划后续支持大型前沿 MoE。

Kog: 🚀 Launch today: Kog generates 3,000+ output tokens/s per single request, on standard datacenter GPUs. We are bringing r...

产品更新推理部署/工程
06:38
OpenClaw🦞@openclaw
62
OpenClaw最新优化成果:冷启动智能体速度提升2.9倍,热启动提升2.5倍,压缩包体积减小59%,依赖项较月度峰值减少42%。 核心精简,依赖显式,功能可选插件化。爪子更锋利了 🦞 https://openclaw.ai/blog/lighter-core-sharper-claws/
智能体产品更新部署/工程
05:44
TechCrunch:AI(RSS)
68
互联网正在为机器重建

AI 智能体正从实验阶段走向生产环境,AWS、Cloudflare 等公司正在重新设计云基础设施,以迎接一个由机器生成的互联网流量主导、而非人类用户主导的未来。

智能体现象/趋势部署/工程
04:44
Rohan Paul@rohanpaul_ai
62
推理购买从"锁定供应商"转向"按需选择级别"

The Grid AI 提出了一种新的AI推理购买模式。用户不再指定具体模型,而是根据任务复杂度选择标准(standard)、生产(prime)或极致(max)三个级别之一。平台会自动将请求路由到满足该级别要求的最便宜供应商。应用仅需接入单一API,后端模型可根据价格与质量动态变化,从而优化成本。作者曾用Hermes Agent在本地测试,通过agent-price级别处理了工单分类工作流。The Grid目前处于Beta阶段,声称通过供应商竞价可使AI API成本降低最高80%,并为新用户提供首200M tokens免费额度。

The Grid: The Grid's Beta is LIVE! We can get your AI API costs down by up to 80% by making suppliers compete for your requests. Y...

产品更新推理部署/工程
04:14
TechCrunch:AI(RSS)
56
Asana收购无代码智能体构建器Stack AI

Asana宣布收购Stack AI。Stack AI是一家专注于构建无代码AI智能体(agent)的公司。此次收购后,Asana将把Stack AI整合到其不断增长的AI工作流工具套件中,以增强其平台上的自动化与智能化能力。

智能体行业动态部署/工程
03:38
Hacker News 热门(buzzing.cc 中文翻译)
67
我们更换了 Zendesk

tradecore 在48小时内完成了其客户服务工具 Zendesk 的替换。原文仅提及此项迁移在极短时间内完成,未涉及更具体的替换原因、新平台选择或迁移过程的细节。

教程/实践编码部署/工程
03:36
Epoch AI@EpochAIResearch
68
超大规模厂商的资本支出在2026年第一季度符合趋势,延续了预计今年支出7700亿美元、2027年超过一万亿美元的轨迹。

Epoch AI: Driven by investments in AI, hyperscaler capital expenditures have grown 70% per year since the release of GPT-4, nearin...

数据/训练行业动态部署/工程
02:44
TechCrunch:AI(RSS)
52
就像黄金和石油,我们很快就能交易AI token期货了

大型交易所正在设计围绕AI token的衍生品。这些token正日益被视为一种原材料输入,如同电力或带宽,而非仅仅是计算输出。

行业动态部署/工程
01:52
Replit ⠕@Replit
64
如何用四步保障你的vibecoded应用安全 🔒 速度若无安全加持,便是隐患。以下是使用Replit发布应用时,如何避免留下后门的方法。 🧵展开阅读 ↓
教程/实践部署/工程
00:34
LMSYS:Blog(Chatbot Arena 团队)
精选69
SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,比 B200(SGLang)方案低 40%。吞吐量方面,24 块 AMD GPU 达到 2,436 tok/s/GPU,比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括:MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由:AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%,吞吐还高出1.25倍,这是开源框架SGLang对闭源生态的一次真实挑战,做推理部署的应该点开看看完整的全栈优化。
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选61
LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由:做VLM服务部署的可以认真看一下,用CPU头节点做异构EPD分离,几乎零成本换来了TTFT和TPOT的显著提升,有完整脚本和benchmark,能直接上手试。
‹ 上一页
1…2324252627…50
下一页 ›