埃隆·马斯克预测,36个月后太空将成为部署人工智能成本最低的地点。他指出,长期专注于软件领域的从业者即将面临硬件层面的严峻挑战。这一判断暗示,随着AI算力需求爆发式增长,地面数据中心的能源消耗与散热限制将推高计算成本,而太空环境凭借丰富的太阳能和天然散热优势,可能在未来三年内成为AI基础设施部署的更经济选择。
埃隆·马斯克预测,36个月后太空将成为部署人工智能成本最低的地点。他指出,长期专注于软件领域的从业者即将面临硬件层面的严峻挑战。这一判断暗示,随着AI算力需求爆发式增长,地面数据中心的能源消耗与散热限制将推高计算成本,而太空环境凭借丰富的太阳能和天然散热优势,可能在未来三年内成为AI基础设施部署的更经济选择。
Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销,并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明,其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时,解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代,已支持前瞻解码等新特性。
Meta AI 团队发布了开源工具 Daggr,旨在通过编程方式链接不同的 AI 应用,并支持对工作流进行可视化检查与调试。该工具允许开发者将多个模型(如 GPT、Claude、LLaMA)和数据处理步骤串联成自动化流程,同时提供直观的图形界面来监控数据流转和状态变化。此举是其通过开源与开放科学推进人工智能民主化进程的一部分。
SGLang RL团队联合多家机构开源INT4量化感知训练端到端方案。受Kimi K2启发,训练阶段采用伪量化,推理阶段使用W4A16(INT4权重、BF16激活)真实量化,实现与BF16全精度相当的稳定性。该方案将约1TB模型压缩至单张H200(141GB)GPU即可完成rollout,彻底消除跨节点通信瓶颈,显著提升推理效率,为大规模模型训练提供高性能、低成本的开源实践参考。
Kimi 发布 K2.5 模型时开源 Kimi Vendor Verifier(KVV),用于验证第三方推理实现的准确性。针对开源模型部署渠道多样化导致的质量失控问题,KVV 提供六项关键基准测试,覆盖参数约束验证、多模态流水线、长输出压力测试、工具调用一致性及编程能力评估。项目与 vLLM/SGLang 社区合作修复根因,并提供预发布验证和实时更新的公开排行榜。完整评估在双 H20 8 卡服务器上约需 15 小时。
在生产环境中,使用vLLM部署Mistral Medium 3.1模型进行Prefill/Decode分离推理时,团队发现了一个严重的内存泄漏问题。该问题表现为系统内存以每分钟400 MB的速度线性增长,最终将导致内存耗尽。泄漏仅在启用图编译且通过NIXL传输KV Cache的特定条件下出现,初步调查指向了传输层。团队从Python内存分析工具入手,但常规工具未能定位到根源,调查随后深入到底层与UCX和Infiniband相关的交互中。
Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案,通过共享专家融合、Qknorm 融合与异步传输三项核心技术,在 H200 集群 TP8/FP8 配置下实现首 token 延迟(TTFT)降低 65%、每 token 输出时间(TPOT)提升 22%。针对 Agentic Coding 场景,团队提出无需额外训练草稿模型的 Suffix Decoding 技术,利用历史输出模式重复率进一步加速推理。
Gambit 是一款开源 AI agent 开发框架,通过组合小型、类型化的「deck」模块构建可靠 LLM 工作流,支持本地运行、流式跟踪与内置调试 UI。提供 REPL、场景模拟和评分等 CLI 工具,解决长提示词路由失控、上下文膨胀导致的高成本与幻觉问题,实现可离线测试的精细化编排。
SGLang-Diffusion 最新版本(lmsysorg/sglang:dev-pr-17247)性能较初始版本提升2.5倍,在NVIDIA GPU上较其他方案快5倍。新增Day-0支持Flux.2、Qwen-Image系列、Z-Image-Turbo等多款模型,完整支持LoRA格式与HTTP API,并推出ComfyUI集成插件。技术层面引入Layerwise Offload机制实现计算与权重加载重叠,支持SP/TP混合并行及SageAttention系列后端,兼容AMD、4090、5090及MUSA硬件。
SGLang 发布面向超长上下文推理的 Pipeline Parallelism(PP)优化实现,集成 Chunked PP、异步 P2P 通信与动态分块机制。在 H20 集群 PP4 TP8 配置下,DeepSeek-V3.1 的 Prefill Throughput 较 TP8 提升 3.31 倍,较 TP32 领先 30.5%,TTFT 降低 67.9%,强扩展效率达 82.8%。该方案兼容 PD 分离与 HiCache,为万亿参数模型百万 Token 上下文推理提供高效开源路径。
智谱联合华为开源多模态生成模型GLM-Image,为首款基于国产昇腾芯片与MindSpore框架全流程训练的SOTA模型。采用9B自回归与7B扩散解码器混合架构,在CVTG-2K复杂视觉文字生成和LongText-Bench长文本渲染榜单均位列开源第一,支持1024×1024至2048×2048多分辨率生成。API调用成本0.1元/张,代码已开源至GitHub、Hugging Face及魔搭社区。
SGLang推出EPD(Encoder-Prefill-Decode)分离架构,将视觉编码与语言处理解耦,支持编码器独立横向扩展以替代低效的张量并行。该方案兼容现有PD分离,支持ZMQ、Mooncake等传输后端及视觉嵌入缓存。测试表明,在图像密集型场景(如多图输入)且1 QPS负载下,首token生成时间(TTFT)较同机部署降低约6–8倍;但在图像轻量场景中,网络开销可能导致性能下降。
OpenRouter 1月发布聚焦优先选择快速大语言模型、探索提供商、自定义自动路由、在SDK中加载技能,以及大幅性能改进。
OpenRouter 发布1月更新,新增快速LLM优先级排序功能,用户可优先选择低延迟模型;支持浏览和切换不同提供商;自动路由可自定义策略;SDK新增加载技能(skills)的能力;同时带来重大性能改进。
本次发布聚焦于提升大型语言模型(LLM)的速度与性能。核心更新包括优先支持快速LLM、探索更多模型提供商选项,以及允许用户自定义自动路由。软件开发工具包(SDK)现已支持加载技能,同时系统实现了显著的性能改进。这些更新旨在优化开发者的使用体验与模型运行效率。
xAI发布Grok Business和Grok Enterprise企业版。Business版定价30美元/座位/月,支持自助开通,提供团队管理、统一账单及Google Drive集成(保留原文件权限),并承诺用户数据永不用于模型训练。Enterprise版面向大型组织,提供Custom SSO、Directory Sync及高级审计控制;可选的Enterprise Vault插件提供独立数据平面与客户自管加密密钥(CMEK),实现应用级加密隔离。平台支持实时使用监控、安全对话共享及Projects功能。
NVIDIA推出NeMo Data Designer工具,帮助企业生成合规的合成数据工作流,用于定制化大模型训练。该工具通过创建“许可证安全”的合成数据,规避版权风险,并支持构建可蒸馏的轻量级模型。它为在特定领域数据受限的企业提供了端到端的合成数据生成与管理解决方案,助力模型高效微调与优化。
ServiceNow AI团队在Hugging Face发布了AprielGuard框架。该框架专为提升LLM在生产环境中的安全性而设计,通过集成多层检测与过滤机制,防御对抗性攻击和恶意输入,以增强系统的整体稳健性。
SpecForge团队联合蚂蚁、美团、Nex-AGI与EigenAI发布SpecBundle第一阶段及SpecForge v0.2框架。SpecBundle提供基于大规模数据集训练的生产级EAGLE-3草稿模型,覆盖Llama-3.1/3.3/4、Qwen3、Kimi-K2等十余种主流架构,解决开源社区高质量草稿模型稀缺问题。SpecForge v0.2重构数据处理管道,数据再生速度提升10倍,并新增多后端支持,进一步增强系统可扩展性与生产就绪能力。
xAI 被美国战争部(DOW)选中,为其 GenAI.Mil 套件提供 Frontier AI 系统。基于 Grok 模型的解决方案将覆盖 DOW 旗下 300 万军事和文职人员,支持 Impact Level 5(IL5)级别的企业 AI 和关键任务用例,可嵌入从五角大楼到战术边缘的日常工作流,并支持机密作战工作负载。DOW 用户还可独家获取 X 平台实时全球洞察。
关联讨论 1 条xAI:News(网页)Grok 推出 Collections API,支持上传 PDF、Excel、代码库等文件构建知识库,提供语义、关键词及混合搜索三种检索方式,帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费,检索定价 $2.50/千次。基准测试显示,其在金融(93.0%)、法律(73.9%)、编码(86%)场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。
Ant Group DeepXPU团队与SGLang团队合作,在SGLang推理引擎中实现了扩散大语言模型(dLLM)框架,为100B参数的LLaDA 2.0-flash提供首日支持。该方案复用现有Chunked-Prefill机制适配Block Diffusion架构,通过修改prefill adder和chunked reqs组件实现多Diffusion Blocks批处理,无需改动SGLang核心即可继承生产级推理优化,并支持用户灵活定制扩散解码算法。
AEnvironment 是专为 Agentic RL 打造的基础设施,将环境搭建从写脚本转变为调用服务,实现开箱即用和万物互联。
OpenRouter 推出 Response Healing 新功能,可在响应到达应用前自动修复大语言模型产生的格式错误的 JSON,从而将 JSON 缺陷减少 80% 以上。
OpenRouter 推出结构化输出的响应修复(Response Healing)功能,新增聊天室通知,发布长上下文模型排行榜,并位列 Brex 增长最快 AI 基础设施榜单第一。
OpenRouter 十二月版本更新引入响应修复(Response Healing)机制以提升结构化输出可靠性,新增聊天室通知功能,并推出长上下文模型排名。此外,OpenRouter 在 Brex 评选的增长最快 AI 基础设施公司榜单中位列第一。
Anthropic 在十二月多项更新中重点推出结构化输出的 Response Healing 功能,可自动修复格式错误。平台新增聊天室通知系统,并发布长上下文模型性能排行榜,Claude 3.5 Sonnet 在 200K 上下文评测中领先。公司同时宣布其 AI 基础设施在 Brex 年度榜单中位列增长最快首位。
OpenRouter 推出新功能 Response Healing,可在 LLM 生成的畸形 JSON 响应抵达用户应用前自动修复。该功能旨在将 JSON 格式错误减少超过 80%,直接提升 API 响应的结构完整性与可靠性,减少下游应用的处理负担。
NVIDIA在Hugging Face发布博客,介绍Nemotron 3 Nano模型,并通过NeMo Evaluator工具进行开放标准基准测试。评估覆盖代码生成、数学推理和常识问答等任务,以透明、可复现的方式量化模型性能,体现NVIDIA推动开源评估生态的努力。
Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。
inclusionAI 发布了 AEnvironment,这是一个用于智能体 AI 开发的标准化环境基础设施。该平台旨在为 AI 智能体的构建、测试和部署提供统一、可复现的环境,解决开发过程中因环境差异导致的兼容性与一致性问题。它通过预配置的标准化设置,简化了开发流程,提升了协作效率与系统可靠性。
小米发布 MiMo-V2-Flash 推理模型,SGLang 提供首日支持。该模型拥有 309B 总参数和 15B 激活参数,采用滑动窗口注意力(SWA)和 3 层多级 MTP 设计,将注意力复杂度降至线性并提升解码效率。通过硬件感知配置平衡计算与内存,在 H200 上即使 64K 长上下文仍保持 150 TPS 单请求吞吐量。SGLang Spec v2 实现完全重叠 MTP 调度,隐藏 CPU 开销并减少 GPU 气泡,最大化硬件利用率。
SGLang 宣布首日支持 NVIDIA 开源的 Nemotron 3 Nano 模型。该模型采用 Transformer-Mamba 混合 MoE 架构,总参数 30B 但仅激活 3.6B,支持 1M 上下文长度。最新 NVFP4 版本通过 Quantization-Aware Distillation 技术在保持精度的同时,在 B200 上实现相比 FP8-H100 4 倍的吞吐量。模型提供 BF16、FP8、NVFP4 三种精度格式,并支持"思考预算"功能以减少过度推理,适用于 RTX Pro 6000、DGX Spark、H100 等 GPU。
llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。
细粒度激活卸载(Fine-grained Activation Offloading)采用模块级粒度,将计算与内存传输重叠,并兼容全并行设计,在主流大模型训练中同时降低峰值显存开销并提升吞吐性能,实现显存开销与吞吐性能的联合最优,获得显著性能收益和显存收益。
蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork(Tensor Remote Fork)技术,通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒,减少约 600GB 的本地磁盘与 DRAM 存储占用,并提供 NCCL 和 TransferEngine 两种后端方案,后者可在不干扰线上推理服务的情况下完成权重迁移。
swift-huggingface 是一个全新的 Swift 客户端,旨在彻底解决旧库下载模型缓慢、不可靠且不支持断点续传的问题。它提供完整的 Hub API 覆盖,核心改进包括具备进度跟踪和断点续传的可靠下载、与 Python 生态共享缓存以避免重复下载,以及通过灵活的 TokenProvider 模式简化身份验证。该库现已独立发布,并将很快集成到 swift-transformers 中取代原有实现,未来还将支持 Xet 存储后端以实现更快的下载。
蚂蚁集团开源了AState,这是一个专为强化学习设计的高性能通用状态数据管理系统。它旨在解决RL训练与推理中的I/O效率低下、权重同步性能不足及状态恢复不鲁棒等核心挑战。系统采用三层架构:提供张量原生接口的API层、支持多种部署模式的服务层以及具备高效可扩展传输能力的基础层。其关键特性包括统一的张量级API、高性能权重同步和拓扑感知设计。在万亿参数规模下,AState能在约6秒内完成权重同步,远低于业界常见的分钟级延迟,目前已作为ASystem的关键组件在蚂蚁内部生产环境部署。
SGLang 最新版本原生集成 NVIDIA Model Optimizer,支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步,支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比,优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升,显著降低延迟与内存占用。