AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1385 条
全部一手资讯X论文
标签「部署/工程」清除
9月25日周四
08:00xAI:News(网页)xAI 联合 GSA OneGov 扩展政府服务
00:00LMSYS:Blog(Chatbot Arena 团队)GB200 NVL72部署DeepSeek V3/R1(二):PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐
9月23日周二
21:41Sam Altman:Blog(RSS)精选充裕的智能
9月22日周一
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 实现确定性推理与可复现 RL 训练
9月21日周日
00:00LMSYS:Blog(Chatbot Arena 团队)在 AMD GPU 上优化 FP4 混合精度推理
9月17日周三
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选近期三次基础设施故障的事后分析
9月10日周三
15:01Thinking Machines Lab:官方博客(RSS)60精选破解LLM推理中的非确定性
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang HiCache:支持多种存储后端的快速分层 KV 缓存
9月3日周三
00:08Hacker News:AI 热帖Launch HN: Datafruit (YC S25) - 面向 DevOps 的 AI
9月1日周一
00:00LMSYS:Blog(Chatbot Arena 团队)美团开源LongCat-Flash:基于SGLang的高效Agentic MoE模型
8月29日周五
00:22Hacker News:AI 热帖Launch HN: Dedalus Labs (YC S25) - 面向 Agent 的 Vercel
8月28日周四
00:00LMSYS:Blog(Chatbot Arena 团队)gpt-oss MXFP4 微调和部署:ModelOpt + SGLang(8月29日更新)
8月27日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 支持 gpt-oss:从 Day 0 支持到性能增强
8月26日周二
08:00OpenRouter:Announcements(RSS)42首个图像模型在 OpenRouter 上线
8月4日周一
08:00OpenRouter:Announcements(RSS)51为应用添加 Audio Inputs 和 PDF URLs 支持
7月29日周二
08:00OpenRouter:Announcements(RSS)46OpenRouter 推出 Presets 特性:跨应用无缝迁移模型配置
08:00OpenRouter:Announcements(RSS)51OpenRouter 推出服务端 Presets 功能
08:00OpenRouter:Announcements(RSS)48Presets:如何在应用间无缝迁移模型配置
7月25日周五
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang开源SpecForge:加速Eagle3投机解码训练
7月20日周日
00:00LMSYS:Blog(Chatbot Arena 团队)基于PD分离与大规模专家并行在128张H200 GPU上部署Kimi K2
7月17日周四
00:00LMSYS:Blog(Chatbot Arena 团队)使用多 Token 预测(MTP)加速 SGLang:吞吐量提升 60% 的推理优化方案
7月16日周三
00:00LMSYS:Blog(Chatbot Arena 团队)在 SGLang 中支持新 VLMs:NVILA 案例研究
7月15日周二
08:00OpenRouter:Announcements(RSS)50Venice 上线 OpenRouter:主打隐私与无审查
08:00OpenRouter:Announcements(RSS)42OpenRouter 新增隐私优先提供商 Venice
08:00OpenRouter:Announcements(RSS)37专注隐私的新提供商上线:Venice
7月10日周四
08:00OpenRouter:Announcements(RSS)55精选OpenRouter 免费套餐更新:引入新模型维持可访问 AI 推理
08:00OpenRouter:Announcements(RSS)48免费服务层更新:持续为所有人提供可访问的AI
7月9日周三
00:00LMSYS:Blog(Chatbot Arena 团队)slime:面向 RL 扩展的 SGLang 原生后训练框架
7月8日周二
00:00LMSYS:Blog(Chatbot Arena 团队)OME:以模型驱动架构革新 LLM 基础设施
6月26日周四
08:00OpenRouter:Announcements(RSS)52OpenRouter 推出 Presets:从仪表盘管理 LLM 配置
08:00OpenRouter:Announcements(RSS)42OpenRouter Presets 发布:从 Dashboard 管理 LLM 配置
08:00OpenRouter:Announcements(RSS)50Introducing Presets: 从仪表板管理 LLM 配置!
6月25日周三
08:00OpenRouter:Announcements(RSS)38OpenRouter 推出开发者与 BYOK 更新:Uptime API 及更智能的密钥管理
08:00OpenRouter:Announcements(RSS)40OpenRouter 推出开发者与 BYOK 更新:可用性 API + 更智能的密钥管理
08:00OpenRouter:Announcements(RSS)46Dev & BYOK 更新:Uptime API 与更智能的密钥管理
6月16日周一
00:00LMSYS:Blog(Chatbot Arena 团队)在GB200 NVL72上部署DeepSeek 671B:PD与大规模EP架构实现2.7倍解码加速
6月11日周三
00:00Mistral AI:News(网页)49Mistral Compute: 面向全球的私有AI基础设施服务
6月9日周一
08:00OpenRouter:Announcements(RSS)50OpenRouter 推出更简单透明的平台费用结构
08:00OpenRouter:Announcements(RSS)39OpenRouter 简化平台费用结构
08:00OpenRouter:Announcements(RSS)49简化我们的平台费用
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
9月25日
08:00
xAI:News(网页)
xAI 联合 GSA OneGov 扩展政府服务

xAI 与 GSA 合作,通过 OneGov 计划向所有联邦政府部门开放 Grok 4 等前沿模型,18个月订阅费仅 0.42 美元,并派遣专门的 Grok 工程师团队协助政府机构实施 AI 工具,支持特朗普政府 AI 行动计划。

xAI行业动态部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
GB200 NVL72部署DeepSeek V3/R1(二):PD分离与大规模EP实现3.8倍Prefill、4.8倍Decode吞吐

SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理,采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下,单卡Prefill达26,156 tokens/s,Decode达13,386 tokens/s,较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。

DeepSeek开源/仓库推理部署/工程
9月23日
21:41
Sam Altman:Blog(RSS)
精选
充裕的智能

计划打造每周可新增1吉瓦算力的AI基础设施工厂,通过芯片、电力到机器人的全栈创新,支撑治愈癌症、全球个性化教育等宏大应用。项目将主要落地美国,未来数月公布合作伙伴,年底披露融资方案。

智能体OpenAI大佬观点部署/工程

推荐理由:Sam Altman阐述OpenAI基础设施扩张愿景,计划每周新建1吉瓦算力
9月22日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 实现确定性推理与可复现 RL 训练

SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理,解决动态批处理导致的输出差异问题,兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%,配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练,在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线,为科学实验提供可靠保障。

开源/仓库数据/训练部署/工程
9月21日
00:00
LMSYS:Blog(Chatbot Arena 团队)
在 AMD GPU 上优化 FP4 混合精度推理

针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题,研究团队推出 Petit 内核集合,通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍,矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术,已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。

开源/仓库数据/训练部署/工程
9月17日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
近期三次基础设施故障的事后分析

八月初至九月中旬,Anthropic的三次基础设施漏洞间歇性导致Claude响应质量下降。8月5日,上下文窗口路由错误致使部分Sonnet 4请求被误导向百万token服务器,8月31日高峰时影响16%请求。8月25日,TPU服务器错误配置引发输出损坏,可能在英文回复中生成泰文或中文字符,影响Opus和Sonnet模型。同日部署的代码还触发了编译器漏洞,主要影响Haiku 3.5。所有问题均非需求或负载所致,纯属基础设施漏洞。公司通过回滚部署和修复逻辑于9月18日前全部解决。

Anthropic安全/对齐部署/工程

推荐理由:Anthropic 主动公开三个基础设施 bug 的完整复盘,这种坦诚在大厂里极少见。做 AI 产品的人都该读一下,它把「模型质量下降」从玄学拉回了工程现实,尤其是 XLA 编译器那层的坑,踩过才知道多深。
9月10日
15:01
Thinking Machines Lab:官方博客(RSS)
精选60
破解LLM推理中的非确定性

LLM推理的再现性是科学进步的基础,但即使在温度设为0的贪心采样下,ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于:部分GPU内核是非确定性的,但LLM前向传播使用的内核均为确定性;推理服务器前向传播本身是确定性的,用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解,并探讨如何实现真正可重现的LLM推理输出。

开源/仓库推理教程/实践部署/工程

推荐理由:Horace He 把 LLM 推理非确定性的锅从并发浮点转向 batch-size,并给出了可落地的 batch-invariant 内核实现,做推理部署和 RL 的工程师都该看看。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang HiCache:支持多种存储后端的快速分层 KV 缓存

SGLang 发布 HiCache 分层 KV 缓存系统,通过 HiRadixTree 页表管理 GPU、CPU 及外部存储中的缓存数据,支持 Mooncake、3FS、NIXL 等多种后端。系统采用 GPU 辅助 I/O 内核和层间重叠机制加速数据传输,在 Qwen3-Coder-480B 编码场景中将 TTFT 降低 56%、吞吐量翻倍、缓存命中率提升至 80%;在 DeepSeek-R1-671B 部署中实现缓存命中时 TTFT 降低 84%,整体吞吐量最高提升 6 倍。

开源/仓库部署/工程
9月3日
00:08
Hacker News:AI 热帖
Launch HN: Datafruit (YC S25) - 面向 DevOps 的 AI

YC S25 孵化项目 Datafruit 发布面向 DevOps 的 AI 工具,通过人工智能技术优化开发运维流程,提升基础设施管理与部署效率。

产品更新部署/工程
9月1日
00:00
LMSYS:Blog(Chatbot Arena 团队)
美团开源LongCat-Flash:基于SGLang的高效Agentic MoE模型

美团开源Agentic MoE模型LongCat-Flash,总参数量560B,每token仅激活27B。该模型基于SGLang框架,采用PD分离架构与SBO技术,通过四阶段流水线在单batch内实现计算与通信重叠,突破吞吐与延迟的权衡瓶颈。相比同类模型推理成本降低50%以上,在Agent任务中表现优异,适用于复杂实时智能体应用。

智能体模型发布部署/工程
8月29日
00:22
Hacker News:AI 热帖
Launch HN: Dedalus Labs (YC S25) - 面向 Agent 的 Vercel

Dedalus Labs(YC S25)推出面向 AI Agent 的部署平台,定位"Vercel for Agents",旨在为开发者提供 Agent 的托管、扩展和运维基础设施,降低 AI Agent 从开发到生产的上线门槛。

智能体产品更新部署/工程
8月28日
00:00
LMSYS:Blog(Chatbot Arena 团队)
gpt-oss MXFP4 微调和部署:ModelOpt + SGLang(8月29日更新)

OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化,但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练(QAT)方案,允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型,无需转换为 BF16 而牺牲性能。实测显示,经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%,在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署,保持 MXFP4 格式的推理速度与内存优势。

OpenAI教程/实践数据/训练部署/工程
8月27日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 支持 gpt-oss:从 Day 0 支持到性能增强

SGLang 针对 openai/gpt-oss-120b 发布重大性能优化,prefill 吞吐量提升 2.1 倍,decode 吞吐量提升 2.25 倍。新版本集成 FlashInfer 内核以释放 NVIDIA Blackwell 性能,通过 FlashAttention-3 加速 Hopper GPU,并原生支持 AMD MI350。在 B200 上 MXFP4 精度下单批次解码速度达 416.02 tok/s。同时引入 EAGLE3 投机解码支持,GPQA 基准测试验证精度与官方报告一致,确保高性能不损失推理能力。

智能体OpenAI开源/仓库部署/工程
8月26日
08:00
OpenRouter:Announcements(RSS)
42
首个图像模型在 OpenRouter 上线

Gemini 2.5 Flash Image Preview 模型已在 OpenRouter 平台正式发布。该模型是首个在该平台上线的图像生成模型,具备当前最优的图像生成能力。其核心特性包括出色的角色一致性和支持多图像输出功能,为开发者与用户提供了新的图像生成工具选项。

产品更新图像生成部署/工程
8月4日
08:00
OpenRouter:Announcements(RSS)
51
为应用添加 Audio Inputs 和 PDF URLs 支持

平台宣布为所有模型的应用新增音频输入与通过URL发送PDF文件的功能。用户现在可以直接使用语音与各类模型(如GPT、Claude、LLaMA)进行交互,同时支持通过链接直接上传PDF文档进行处理。这两项更新旨在提升多模态交互的便捷性,扩展了应用处理非文本输入和数据获取的方式,无需再依赖传统的文件上传步骤。

产品更新多模态部署/工程
7月29日
08:00
OpenRouter:Announcements(RSS)
46
OpenRouter 推出 Presets 特性:跨应用无缝迁移模型配置

OpenRouter 新增服务器端预设(Presets)功能,用户可一次定制模型配置并在不同应用间无缝使用,简化模型工作流。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
51
OpenRouter 推出服务端 Presets 功能

OpenRouter 上线服务端 Presets,支持用户一次定制模型配置(如参数、提示词)后跨应用直接调用,无需重复设置,简化跨平台模型工作流。

智能体产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
48
Presets:如何在应用间无缝迁移模型配置

新推出的服务端 Presets 功能实现了模型配置的“一次定制,处处使用”。该功能允许用户将包括模型、参数、提示词和工具在内的完整配置保存为可复用的预设方案,并能通过链接或代码片段跨应用无缝共享。这简化了从开发到生产的工作流,避免了重复配置,提升了团队协作与部署效率。

MCP/工具产品更新部署/工程
7月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang开源SpecForge:加速Eagle3投机解码训练

SGLang团队开源SpecForge训练框架,专为Eagle3投机解码设计,原生集成SGLang推理引擎实现训推无缝衔接。框架内置Training-Time Test支持,提供Online与Offline双模式,分别适配低存储多GPU与高存储低GPU场景。基于ShareGPT和UltraChat 32万样本的实验显示,Llama 4 Maverick与Scout draft模型在MT-Bench上分别实现2.18倍与2.0倍推理加速。

开源/仓库开源生态部署/工程
7月20日
00:00
LMSYS:Blog(Chatbot Arena 团队)
基于PD分离与大规模专家并行在128张H200 GPU上部署Kimi K2

Mooncake团队基于OME和SGLang框架,在128张H200 GPU集群上完成了Moonshot AI 1万亿参数开源MoE模型Kimi K2的大规模部署。该方案采用PD分离与大规模专家并行技术,针对模型384个专家和每token 320亿激活参数的设计进行优化,通过跨节点通信优化与负载均衡策略,显著提升了trillion-scale模型的推理吞吐与并发处理能力。

开源生态教程/实践部署/工程
7月17日
00:00
LMSYS:Blog(Chatbot Arena 团队)
使用多 Token 预测(MTP)加速 SGLang:吞吐量提升 60% 的推理优化方案

SGLang 推理框架现已支持多 Token 预测(MTP)技术,并与大规模专家并行(EP)、预填充-解码分离(PD Disaggregation)等特性无缝集成。该技术通过轻量级草稿模型预测多个未来 Token,再由完整目标模型并行验证,在保持生成质量不变的前提下,可将 DeepSeek V3 等模型的输出吞吐量提升高达 60%。在 16 张 H200 GPU 的小规模部署场景中,该方案显著优化了长序列推理效率,为生产环境提供即插即用的性能增益。

开源/仓库推理部署/工程
7月16日
00:00
LMSYS:Blog(Chatbot Arena 团队)
在 SGLang 中支持新 VLMs:NVILA 案例研究

NVILA 团队发布技术博客,详解如何在 SGLang 推理框架中集成新型视觉语言模型。文章以 NVILA 为实践案例,提供从模型适配、推理优化到部署的完整开发指南与代码实践。随着多模态大模型成为行业焦点,该方案填补了 SGLang 生态在视觉理解模型支持方面的文档空白,为开发者快速接入新 VLM 提供了标准化技术路径与最佳实践。

多模态教程/实践部署/工程
7月15日
08:00
OpenRouter:Announcements(RSS)
50
Venice 上线 OpenRouter:主打隐私与无审查

Venice 作为新提供商加入 OpenRouter,提供其旗舰无审查模型,主打隐私、高性能和非限制性 AI 体验。

行业动态部署/工程
08:00
OpenRouter:Announcements(RSS)
42
OpenRouter 新增隐私优先提供商 Venice

Venice 作为新提供商加入 OpenRouter,提供其旗舰未审查模型,主打隐私、强大且无限制的 AI 体验。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
37
专注隐私的新提供商上线:Venice

专注隐私的AI提供商Venice正式加入OpenRouter平台,并推出了其旗舰模型。该模型主打无审查、功能强大且限制少的特点,旨在为用户提供私密且不受限制的人工智能体验。这一新增服务为寻求高度隐私保护和内容自由度的用户提供了新的选择。

行业动态部署/工程
7月10日
08:00
OpenRouter:Announcements(RSS)
精选55
OpenRouter 免费套餐更新:引入新模型维持可访问 AI 推理

OpenRouter 发布免费套餐更新,通过引入新模型来维持可持续的 AI 推理服务,旨在继续为广大用户提供可访问的 AI 能力。

产品更新推理部署/工程
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 一年前把几个新模型塞进免费层,当时对白嫖开发者是利好,但现在点开只能闻到时间的灰尘。
08:00
OpenRouter:Announcements(RSS)
48
免费服务层更新:持续为所有人提供可访问的AI

平台对其免费服务层进行了重要更新,旨在通过引入新的模型来维持可访问的AI推理能力。此次调整的核心是确保免费服务的长期可持续性,同时继续向广大用户提供AI服务。更新后,用户将能使用到性能更强或更高效的新模型,但部分原有模型的访问权限或速率可能会相应调整。平台承诺,核心目标依然是让每个人都能接触和使用AI技术。

产品更新部署/工程
7月9日
00:00
LMSYS:Blog(Chatbot Arena 团队)
slime:面向 RL 扩展的 SGLang 原生后训练框架

slime 团队发布面向大规模 RL 训练的后训练框架 slime,原生集成 SGLang 推理引擎与 Megatron-LM 训练引擎。框架通过 sgl-router 提供可定制 rollout 接口与灵活训练配置,支持同地/解耦部署、同步/异步训练及 SFT 冷启动。用户可通过 OpenAI 兼容 API 与智能体环境交互,无需修改环境代码。框架完整支持 SGLang 优化参数(如 EP MoE、DP Attention)及 Megatron 并行策略(TP/PP/EP/CP),提供独立调试模式与检查点转换工具,基础镜像基于 lmsysorg/sglang:dev。

开源/仓库数据/训练部署/工程
7月8日
00:00
LMSYS:Blog(Chatbot Arena 团队)
OME:以模型驱动架构革新 LLM 基础设施

Oracle Cloud Infrastructure 推出 OME(Open Model Engine),一款 Kubernetes-native 的模型服务框架。该系统采用模型驱动架构,通过 BaseModel、ServingRuntime 等自定义资源将模型视为一等公民,有效弥合 ML 工程师与生产团队之间的鸿沟。OME 将模型上线周期从数月压缩至数天,显著减少配置错误,并原生支持多节点推理、Prefill-decode 分离、Serverless 自动扩缩容及 Multi-LoRA 等企业级特性,集成 SGLang 运行时,实现复杂部署策略的编码复用与一键部署。

开源/仓库开源生态部署/工程
6月26日
08:00
OpenRouter:Announcements(RSS)
52
OpenRouter 推出 Presets:从仪表盘管理 LLM 配置

OpenRouter 现已上线 Presets 功能,用户可通过仪表盘集中管理大语言模型(LLM)配置,从而加速迭代、清理代码。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
42
OpenRouter Presets 发布:从 Dashboard 管理 LLM 配置

OpenRouter 上线了 Presets 功能,用户可通过 Dashboard 集中管理大语言模型配置,从而加速迭代并清理代码。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
50
Introducing Presets: 从仪表板管理 LLM 配置!

OpenRouter 正式上线了 Presets 功能。用户现在可以通过仪表板集中管理 LLM 配置,无需再将参数硬编码在应用程序中。此举旨在将 LLM 逻辑集中化,从而帮助开发者更快地进行迭代,并清理冗余代码,提升开发效率。

产品更新部署/工程
6月25日
08:00
OpenRouter:Announcements(RSS)
38
OpenRouter 推出开发者与 BYOK 更新:Uptime API 及更智能的密钥管理

OpenRouter 新增 Uptime API,允许用户通过接口追踪模型正常运行时间。BYOK(自带密钥)管理同时升级,支持设置使用限制以及可测试密钥,进一步强化密钥控制能力。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
40
OpenRouter 推出开发者与 BYOK 更新:可用性 API + 更智能的密钥管理

OpenRouter 新增通过 API 追踪模型可用性的功能,并增强了 BYOK 密钥管理,支持设置使用限制和可测试密钥。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
46
Dev & BYOK 更新:Uptime API 与更智能的密钥管理

Anthropic 为其开发者和 BYOK 客户推出两项重要更新。新发布的 Uptime API 允许开发者通过编程接口直接追踪模型运行状态与可用性。同时,BYOK 密钥管理功能得到增强,用户现在可以对密钥设置使用量限制,并创建可测试的密钥,从而实现对加密密钥更精细化的控制与验证。

产品更新部署/工程
6月16日
00:00
LMSYS:Blog(Chatbot Arena 团队)
在GB200 NVL72上部署DeepSeek 671B:PD与大规模EP架构实现2.7倍解码加速

SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型,采用预填充-解码分离(PD)与大规模专家并行(EP)架构,结合Blackwell专用优化组件(DeepGEMM、DeepEP等),实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下,性能较H100提升2.7倍,整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟,依托更大显存支持高批次处理,显著提升MoE模型推理效率。

DeepSeek开源/仓库推理部署/工程
6月11日
00:00
Mistral AI:News(网页)
49
Mistral Compute: 面向全球的私有AI基础设施服务

Mistral AI 推出 Mistral Compute,这是一项私有、集成化的 AI 基础设施服务,旨在让用户能够从基础设施层开始,自主构建并拥有完整的 AI 技术栈。该服务提供从裸机服务器到完全托管 PaaS 的多种交付形式,包含 GPU、编排、API 及产品。作为一项在欧洲前所未有的举措,Mistral Compute 为全球各国政府、企业及研究机构提供了美国或中国云厂商之外的替代选择,以支持其在国防、制药、金融等领域开发 AI 工作负载。该服务基于 NVIDIA 最新的参考架构,提供数万 GPU,并特别强调数据主权与可持续性。

产品更新部署/工程
6月9日
08:00
OpenRouter:Announcements(RSS)
50
OpenRouter 推出更简单透明的平台费用结构

OpenRouter 正在推出更简单、更透明的平台费用结构。

行业动态部署/工程
08:00
OpenRouter:Announcements(RSS)
39
OpenRouter 简化平台费用结构

OpenRouter 正在推行一套更简单、透明的平台费用结构,旨在简化计费方式并提升透明度。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
49
简化我们的平台费用

平台宣布推出更简单、更透明的费用结构。此次调整旨在简化原有收费模式,提升费用透明度,让用户更清晰地理解相关成本。新结构将逐步实施,预计会影响平台上的各项服务收费方式。

产品更新部署/工程
‹ 上一页
1…3132333435
下一页 ›