SGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,比 B200(SGLang)方案低 40%。吞吐量方面,24 块 AMD GPU 达到 2,436 tok/s/GPU,比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括:MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。
LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。
Google Cloud 推出“AI Threat Defense”平台,可自动发现、评估并修补企业系统中的安全漏洞。该平台整合了 Google 部分通过收购获得的技术,旨在快速响应由 AI 加速的网络攻击。
Elon Musk向投资者澄清,SpaceX为Anthropic提供AI算力的Colossus并非长期锁定租赁,而是一份为期180天的租约,并附带90天的取消路径。此前外界认为该交易价值约每月12.5亿美元并持续至2029年5月,但Musk解释称,SpaceX选择短期条款是因为考虑到AI算力未来可能变得稀缺,不宜长期外租。他强调,Colossus并非闲置资产,同一套计算基础设施将用于训练xAI模型、支持内部AI系统,或可能在未来发展为付费云服务,因此SpaceX需要保持运营灵活性。
企业AI正进入一个新阶段。企业不再评估AI技术是否令人兴奋,而是重点评估其是否能够安全、大规模地部署。这一转变标志着市场对AI的关注点已从概念验证转向实际应用与规模化落地。
OpenRouter 完成 1.13 亿美元 B 轮融资,由 CapitalG 领投,多家机构跟投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续参与。
OpenRouter 宣布获得 1.13 亿美元 B 轮融资,由 CapitalG 领投,NVentures、ServiceNow Ventures 等多家机构参投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续跟投。
同一事件,精选展示《OpenRouter 获得1.13亿美元B轮融资》Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。
论文指出AI智能体在部署后,其记忆系统会因摘要、存储、更新和维护而逐渐“衰老”,导致信息丢失、混淆、过时或被破坏。智能体看似仍能工作,但可靠性已悄然下降。为此提出AgingBench基准,用于评估智能体在多会话中的持续可靠性。论文将智能体比作会衰老的基础设施,强调单纯增加记忆并非解决方案。
NVIDIA发布Vera CPU基准测试报告。Vera采用Armv9.2架构,在Phoronix测试中,其整体性能比128核x86 CPU高1.5倍,比前代Grace CPU提升1.6倍(几何平均)。其每核心内存带宽是传统x86 CPU的4倍以上,使用LPDDR5X实现1.2TB/s带宽,内存功耗低于30W。该报告旨在表明NVIDIA的Arm架构CPU性能已超越Intel和AMD的x86服务器CPU,并强调在智能体AI场景下,因涉及工具调用、文件读写、代码生成等复杂任务,CPU侧工作负载变得更重。
Mistral AI通过整合Emmi AI团队,推出了专注于工业工程的物理AI基础模型。该模型旨在突破传统计算流体动力学(CFD)和有限元分析(FEM)模拟的瓶颈,后者设计周期长、成本高昂且探索的设计空间有限。物理AI能够从几何结构、边界条件或测量数据中直接学习,并在单个GPU上以秒级速度预测完整的物理场。Mistral将其构建为与现有模型及工具链并列的企业级解决方案新基石,以支持ASML、Airbus、Safran及Siemens Energy等合作伙伴在国防、能源转型、可持续航空等领域的硬件加速研发。
腾讯指出,智能体在执行长任务时面临上下文信息堆积导致的成本增加与目标遗忘问题。其提出的解决方案是结合“上下文卸载”与“Mermaid任务画布”:将详细内容存至外部,上下文仅保留索引;并用图表将执行过程结构化为带状态与依赖的任务地图。方案采用分层记忆系统。实验显示,该方案在网页搜索任务中最高节省约61% Token,代码修复任务节省31%-33% Token且完成率提升,复杂任务通过率从20%提升至30%-35%。消融实验证明,结合任务画布的结构化压缩效果更优。
Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低,同时能够将生产环境的 CPU 使用率降低 5-6 倍。
Clark Hash是一种用于紧凑存储神经网络嵌入向量的无状态编解码方法。在默认的384维句子嵌入设置下,它将一个余弦搜索向量存储为48字节的固定宽度标量量化码,相比使用f32格式的密集存储(需1536字节),实现了32倍的压缩。该方法无需训练过程、学习码本或预先计算语料库统计信息。基于多语言MiniLM编码器的评估显示,其48字节草稿与密集余弦分数在STS17和STS22测试集上的宏皮尔逊相关系数分别达到了0.910和0.946。
本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接,并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。
Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...
阿里达摩院发布“敏迭”求解器 GPU 版本。该版本利用 GPU 并行加速特性,并引入新算法缓解收敛的“长尾效应”。在约 2000 个通用线性规划算例测试中,其高精度稳定求解率超过 99%,并能支持亿级变量线性规划问题。相比业内主流产品,其在大规模问题上的成功率提升 14% 以上,速度平均提升 2.67 倍。在某数字广告平台案例中,该求解器仅用 1700 秒就对 3.3 亿变量的复杂问题求解到可靠精度。
Krea 2 from @krea_ai is available on Replicate. Generate high-fidelity, creative images with aesthetics first in mind.
关联讨论 1 条X:Krea AI (@krea_ai)AI模型聚合平台OpenRouter宣布完成1.13亿美元B轮融资。本轮融资由CapitalG领投,NVentures、ServiceNow Ventures等多家机构参投,现有投资者Andreessen Horowitz与Menlo Ventures也参与了本轮融资。
关联讨论 1 条X:OpenRouter (@OpenRouter)清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck,以 WorkSpace(工作舱)替代传统对话框,每个工作舱拥有独立文件系统、记忆和技能,实现项目隔离。三大核心能力:记忆白盒化,全链路可见可控,支持一键修改和回滚;智能路由,自动识别任务难度动态分配模型,开启后成本节省近 70%,复杂任务仅用 1/6 成本即可反超顶级模型方案;Always-on 常驻任务,AI 主动发现并持续推进工作。支持端云协同,可调用端侧模型作为子 Agent,自动部署 VoxCPM 等模型完成多语言播客等任务。
推文指出,让AI主动记录和保存对话内容,是构建“数字分身”的关键,而非仅依赖被动下达指令。作者受罗胖发布会观点启发,将 Memory OS 2.0 与自己使用的 Bloom AI 进行了整合升级。实践表明,这种整合能触发AI的“主动性记忆点”,相比传统的“被动记忆”模式更具优势。作者将分享具体的整合过程、前后对比以及主动记忆的优势分析。
http://x.com/i/article/2059820725276696576
OSP-Next是一种高效的文生视频模型,旨在解决扩散 Transformer 全注意力机制的效率瓶颈。它采用混合全-稀疏注意力架构,稀疏部分基于 Skiparse-2D 注意力。基于此,模型提出了稀疏序列并行策略,相较 Ulysses 序列并行降低了 75% 的通信量。此外,模型集成了 HiF8 量化与 Mix-GRPO 后训练。实验表明,OSP-Next 在 VBench 上超越了 Wan2.1 基线,并在 H200 上实现了最高 1.64 倍单卡与 1.52 倍八卡加速。其量化版本在保持性能的同时,在 Ascend 950PR 上实现了显著的加速。
韩国企业 FuriosaAI 宣布将与博通合作开发其第三代 AI 推理加速器,目标 2028H1 出样。该芯片将结合 2nm 制程计算裸晶、独立 I/O 裸晶、HBM4 内存堆栈,并采用博通的 SUE 技术实现机架内全连接。FuriosaAI 称其 TCP 架构针对 AI 计算进行了优化,专注于高带宽数据传输。博通方面表示,此合作旨在解决大规模智能体 AI 在通信效率方面的关键瓶颈。
小米宣布 MiMo-V2.5 系列 API 永久降价,最高降幅达 99% 且不再区分上下文窗口长度。负责人罗福莉解释,核心原因是推理框架实现了针对 SWA 的分层 KV 缓存优化,将 Token 容量提升 5 倍,相当于降低 80% 的缓存成本。结合模型 1:7 的稀疏架构,其原始推理成本远低于行业平均水平,此次降价是将结构性成本优势直接让利给开发者。她也建议 LLM 公司不要盲目降价,需有相应的架构和优化能力支撑。
Claude Code 发布 v2.1.153 版本。主要新增 skipLfs 选项以跳过 Git LFS 下载;优化了 claude agents 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题,包括:MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示(如恢复、输入响应、临时文件处理),以及跨 macOS/Windows/VSCode 平台的稳定性。此外,还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。/model 命令现在会将选择设为新会话的默认模型。
Sakana AI 提出了 DiffusionBlocks 框架。该方法通过将残差网络(Residual Networks)的层更新过程解释为反向扩散(reverse diffusion)的去噪步骤,从而将其转换为一系列可以独立训练的块。
OpenAI推出Private MCP Tunnels,允许企业将MCP服务器完全保留在内网。ChatGPT、Codex和Responses API仅通过单向HTTPS outbound安全连接,无需开放入站端口或暴露永久API Key。同时推出的Workload Identity Federation和大幅增强的Admin API,提供了支出预警、模型白名单、数据保留策略等企业级管控功能。这些更新旨在打通企业采用AI时“数据不能出墙”与“安全审查漫长”的核心障碍,将OpenAI平台升级为企业级基础设施。
Private MCP servers 🤝 OpenAI products Your team can keep MCP servers inside your network while ChatGPT, Codex, and the ...
MergePipe 是一个预算感知的执行层,将大语言模型(LLM)权重空间合并转化为专家访问集问题。它在共享权重坐标系下,根据显式 I/O 预算选择要读取的专家增量块,生成确定性访问计划并执行合并。在 Qwen 和 Llama 合并工作负载上,MergePipe 将专家读取 I/O 最多减少一个数量级,实现最高 11 倍加速;参数偏差约为 \(10^{-3}\),且下游基准测试未出现单调退化。
VideoMLA是首个在视频扩散模型中研究多头潜在注意力(MLA)的工作。该方法用共享的低秩内容潜在向量和解耦的3D-RoPE位置键替代传统的每头键值对,将每层每token的KV缓存内存大幅减少92.7%。研究发现,尽管语言模型中驱动MLA的频谱假设在视频注意力中并不成立(预训练视频注意力非低秩),但MLA瓶颈本身决定了有效秩,使得模型能在压缩下保持生成质量。在VBench评测中,VideoMLA在长期视频生成中取得了最佳综合分数,并在单块B200上将吞吐量提升了1.23倍。
研究表明,物理AI系统中的批量1大语言模型解码是内存主导的,但更快的内存并不带来比例性的延迟收益。通过对三款7-8B级别的GQA Transformer模型在四款NVIDIA GPU上的测量发现,例如在Qwen-2.5-7B(上下文长度2048)场景下,L4能达到其内存地板的81%,而H100仅为27%。CUDA Graphs优化在H100上将解码延迟提升1.259倍,在L4上仅为1.028倍。部署方面,常见的量化路径未能完全兑现预期的4倍权重流量削减,例如AutoAWQ+Marlin在bf16基线62.32 ms/step上优化至45.24 ms/step,而GPTQ+ExLlamaV2能达到17.36 ms/step。