xAI 与 GSA 合作,通过 OneGov 计划向所有联邦政府部门开放 Grok 4 等前沿模型,18个月订阅费仅 0.42 美元,并派遣专门的 Grok 工程师团队协助政府机构实施 AI 工具,支持特朗普政府 AI 行动计划。
xAI 与 GSA 合作,通过 OneGov 计划向所有联邦政府部门开放 Grok 4 等前沿模型,18个月订阅费仅 0.42 美元,并派遣专门的 Grok 工程师团队协助政府机构实施 AI 工具,支持特朗普政府 AI 行动计划。
SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理,采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下,单卡Prefill达26,156 tokens/s,Decode达13,386 tokens/s,较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。
计划打造每周可新增1吉瓦算力的AI基础设施工厂,通过芯片、电力到机器人的全栈创新,支撑治愈癌症、全球个性化教育等宏大应用。项目将主要落地美国,未来数月公布合作伙伴,年底披露融资方案。
SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理,解决动态批处理导致的输出差异问题,兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%,配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练,在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线,为科学实验提供可靠保障。
针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题,研究团队推出 Petit 内核集合,通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍,矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术,已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。
八月初至九月中旬,Anthropic的三次基础设施漏洞间歇性导致Claude响应质量下降。8月5日,上下文窗口路由错误致使部分Sonnet 4请求被误导向百万token服务器,8月31日高峰时影响16%请求。8月25日,TPU服务器错误配置引发输出损坏,可能在英文回复中生成泰文或中文字符,影响Opus和Sonnet模型。同日部署的代码还触发了编译器漏洞,主要影响Haiku 3.5。所有问题均非需求或负载所致,纯属基础设施漏洞。公司通过回滚部署和修复逻辑于9月18日前全部解决。
LLM推理的再现性是科学进步的基础,但即使在温度设为0的贪心采样下,ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于:部分GPU内核是非确定性的,但LLM前向传播使用的内核均为确定性;推理服务器前向传播本身是确定性的,用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解,并探讨如何实现真正可重现的LLM推理输出。
SGLang 发布 HiCache 分层 KV 缓存系统,通过 HiRadixTree 页表管理 GPU、CPU 及外部存储中的缓存数据,支持 Mooncake、3FS、NIXL 等多种后端。系统采用 GPU 辅助 I/O 内核和层间重叠机制加速数据传输,在 Qwen3-Coder-480B 编码场景中将 TTFT 降低 56%、吞吐量翻倍、缓存命中率提升至 80%;在 DeepSeek-R1-671B 部署中实现缓存命中时 TTFT 降低 84%,整体吞吐量最高提升 6 倍。
YC S25 孵化项目 Datafruit 发布面向 DevOps 的 AI 工具,通过人工智能技术优化开发运维流程,提升基础设施管理与部署效率。
美团开源Agentic MoE模型LongCat-Flash,总参数量560B,每token仅激活27B。该模型基于SGLang框架,采用PD分离架构与SBO技术,通过四阶段流水线在单batch内实现计算与通信重叠,突破吞吐与延迟的权衡瓶颈。相比同类模型推理成本降低50%以上,在Agent任务中表现优异,适用于复杂实时智能体应用。
Dedalus Labs(YC S25)推出面向 AI Agent 的部署平台,定位"Vercel for Agents",旨在为开发者提供 Agent 的托管、扩展和运维基础设施,降低 AI Agent 从开发到生产的上线门槛。
OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化,但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练(QAT)方案,允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型,无需转换为 BF16 而牺牲性能。实测显示,经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%,在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署,保持 MXFP4 格式的推理速度与内存优势。
SGLang 针对 openai/gpt-oss-120b 发布重大性能优化,prefill 吞吐量提升 2.1 倍,decode 吞吐量提升 2.25 倍。新版本集成 FlashInfer 内核以释放 NVIDIA Blackwell 性能,通过 FlashAttention-3 加速 Hopper GPU,并原生支持 AMD MI350。在 B200 上 MXFP4 精度下单批次解码速度达 416.02 tok/s。同时引入 EAGLE3 投机解码支持,GPQA 基准测试验证精度与官方报告一致,确保高性能不损失推理能力。
Gemini 2.5 Flash Image Preview 模型已在 OpenRouter 平台正式发布。该模型是首个在该平台上线的图像生成模型,具备当前最优的图像生成能力。其核心特性包括出色的角色一致性和支持多图像输出功能,为开发者与用户提供了新的图像生成工具选项。
平台宣布为所有模型的应用新增音频输入与通过URL发送PDF文件的功能。用户现在可以直接使用语音与各类模型(如GPT、Claude、LLaMA)进行交互,同时支持通过链接直接上传PDF文档进行处理。这两项更新旨在提升多模态交互的便捷性,扩展了应用处理非文本输入和数据获取的方式,无需再依赖传统的文件上传步骤。
OpenRouter 新增服务器端预设(Presets)功能,用户可一次定制模型配置并在不同应用间无缝使用,简化模型工作流。
OpenRouter 上线服务端 Presets,支持用户一次定制模型配置(如参数、提示词)后跨应用直接调用,无需重复设置,简化跨平台模型工作流。
新推出的服务端 Presets 功能实现了模型配置的“一次定制,处处使用”。该功能允许用户将包括模型、参数、提示词和工具在内的完整配置保存为可复用的预设方案,并能通过链接或代码片段跨应用无缝共享。这简化了从开发到生产的工作流,避免了重复配置,提升了团队协作与部署效率。
SGLang团队开源SpecForge训练框架,专为Eagle3投机解码设计,原生集成SGLang推理引擎实现训推无缝衔接。框架内置Training-Time Test支持,提供Online与Offline双模式,分别适配低存储多GPU与高存储低GPU场景。基于ShareGPT和UltraChat 32万样本的实验显示,Llama 4 Maverick与Scout draft模型在MT-Bench上分别实现2.18倍与2.0倍推理加速。
Mooncake团队基于OME和SGLang框架,在128张H200 GPU集群上完成了Moonshot AI 1万亿参数开源MoE模型Kimi K2的大规模部署。该方案采用PD分离与大规模专家并行技术,针对模型384个专家和每token 320亿激活参数的设计进行优化,通过跨节点通信优化与负载均衡策略,显著提升了trillion-scale模型的推理吞吐与并发处理能力。
SGLang 推理框架现已支持多 Token 预测(MTP)技术,并与大规模专家并行(EP)、预填充-解码分离(PD Disaggregation)等特性无缝集成。该技术通过轻量级草稿模型预测多个未来 Token,再由完整目标模型并行验证,在保持生成质量不变的前提下,可将 DeepSeek V3 等模型的输出吞吐量提升高达 60%。在 16 张 H200 GPU 的小规模部署场景中,该方案显著优化了长序列推理效率,为生产环境提供即插即用的性能增益。
NVILA 团队发布技术博客,详解如何在 SGLang 推理框架中集成新型视觉语言模型。文章以 NVILA 为实践案例,提供从模型适配、推理优化到部署的完整开发指南与代码实践。随着多模态大模型成为行业焦点,该方案填补了 SGLang 生态在视觉理解模型支持方面的文档空白,为开发者快速接入新 VLM 提供了标准化技术路径与最佳实践。
Venice 作为新提供商加入 OpenRouter,提供其旗舰无审查模型,主打隐私、高性能和非限制性 AI 体验。
Venice 作为新提供商加入 OpenRouter,提供其旗舰未审查模型,主打隐私、强大且无限制的 AI 体验。
专注隐私的AI提供商Venice正式加入OpenRouter平台,并推出了其旗舰模型。该模型主打无审查、功能强大且限制少的特点,旨在为用户提供私密且不受限制的人工智能体验。这一新增服务为寻求高度隐私保护和内容自由度的用户提供了新的选择。
OpenRouter 发布免费套餐更新,通过引入新模型来维持可持续的 AI 推理服务,旨在继续为广大用户提供可访问的 AI 能力。
关联讨论 1 条X:OpenRouter (@OpenRouter)平台对其免费服务层进行了重要更新,旨在通过引入新的模型来维持可访问的AI推理能力。此次调整的核心是确保免费服务的长期可持续性,同时继续向广大用户提供AI服务。更新后,用户将能使用到性能更强或更高效的新模型,但部分原有模型的访问权限或速率可能会相应调整。平台承诺,核心目标依然是让每个人都能接触和使用AI技术。
slime 团队发布面向大规模 RL 训练的后训练框架 slime,原生集成 SGLang 推理引擎与 Megatron-LM 训练引擎。框架通过 sgl-router 提供可定制 rollout 接口与灵活训练配置,支持同地/解耦部署、同步/异步训练及 SFT 冷启动。用户可通过 OpenAI 兼容 API 与智能体环境交互,无需修改环境代码。框架完整支持 SGLang 优化参数(如 EP MoE、DP Attention)及 Megatron 并行策略(TP/PP/EP/CP),提供独立调试模式与检查点转换工具,基础镜像基于 lmsysorg/sglang:dev。
Oracle Cloud Infrastructure 推出 OME(Open Model Engine),一款 Kubernetes-native 的模型服务框架。该系统采用模型驱动架构,通过 BaseModel、ServingRuntime 等自定义资源将模型视为一等公民,有效弥合 ML 工程师与生产团队之间的鸿沟。OME 将模型上线周期从数月压缩至数天,显著减少配置错误,并原生支持多节点推理、Prefill-decode 分离、Serverless 自动扩缩容及 Multi-LoRA 等企业级特性,集成 SGLang 运行时,实现复杂部署策略的编码复用与一键部署。
OpenRouter 现已上线 Presets 功能,用户可通过仪表盘集中管理大语言模型(LLM)配置,从而加速迭代、清理代码。
OpenRouter 上线了 Presets 功能,用户可通过 Dashboard 集中管理大语言模型配置,从而加速迭代并清理代码。
OpenRouter 正式上线了 Presets 功能。用户现在可以通过仪表板集中管理 LLM 配置,无需再将参数硬编码在应用程序中。此举旨在将 LLM 逻辑集中化,从而帮助开发者更快地进行迭代,并清理冗余代码,提升开发效率。
OpenRouter 新增 Uptime API,允许用户通过接口追踪模型正常运行时间。BYOK(自带密钥)管理同时升级,支持设置使用限制以及可测试密钥,进一步强化密钥控制能力。
OpenRouter 新增通过 API 追踪模型可用性的功能,并增强了 BYOK 密钥管理,支持设置使用限制和可测试密钥。
Anthropic 为其开发者和 BYOK 客户推出两项重要更新。新发布的 Uptime API 允许开发者通过编程接口直接追踪模型运行状态与可用性。同时,BYOK 密钥管理功能得到增强,用户现在可以对密钥设置使用量限制,并创建可测试的密钥,从而实现对加密密钥更精细化的控制与验证。
SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型,采用预填充-解码分离(PD)与大规模专家并行(EP)架构,结合Blackwell专用优化组件(DeepGEMM、DeepEP等),实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下,性能较H100提升2.7倍,整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟,依托更大显存支持高批次处理,显著提升MoE模型推理效率。
Mistral AI 推出 Mistral Compute,这是一项私有、集成化的 AI 基础设施服务,旨在让用户能够从基础设施层开始,自主构建并拥有完整的 AI 技术栈。该服务提供从裸机服务器到完全托管 PaaS 的多种交付形式,包含 GPU、编排、API 及产品。作为一项在欧洲前所未有的举措,Mistral Compute 为全球各国政府、企业及研究机构提供了美国或中国云厂商之外的替代选择,以支持其在国防、制药、金融等领域开发 AI 工作负载。该服务基于 NVIDIA 最新的参考架构,提供数万 GPU,并特别强调数据主权与可持续性。
平台宣布推出更简单、更透明的费用结构。此次调整旨在简化原有收费模式,提升费用透明度,让用户更清晰地理解相关成本。新结构将逐步实施,预计会影响平台上的各项服务收费方式。