MiMo-V2.5 系列模型(包括 MiMo-V2.5 和 MiMo-V2.5-Pro)采用混合滑动窗口注意力(Hybrid SWA)架构,将 KVCache 存储压缩至全注意力的约1/7。为将架构优势转化为实际收益,团队重新设计了 KVCache 管理、分层缓存和前缀缓存树,并优化了 SWA KVCache 处理、调度及 Prefill/Decode 流水线。经真实生产流量验证,这些优化将有效 KVCache 容量提升近5倍,主流框架下服务器端缓存命中率达93%-95%。结合 MoE 配置调优与多模态推理优化,提升了长上下文推理效率,是近期 API 降价的基础。
亚马逊推出了名为“Resilient Network Graphs”(RNG) 的新数据中心网络架构。该设计以扁平的准随机图替代了传统的树形网络,并通过Spraypoint路由系统和ShuffleBox布线设备在多个独立路径上分散流量。测试显示,RNG在性能上与传统fat-tree网络持平,但硬件需求减少69%,吞吐量提升33%,并估算成本可降低9%至45%。该架构现已成为大多数AWS工作负载的默认网络,其分散负载的能力有助于提升AI集群训练效率。
日本AI数据中心热潮正推动企业从传统空气冷却转向液冷技术,主要原因是AI GPU机架的散热需求激增。当前冷却已占数据中心用电量的30%至40%,且GPU发热量在5年内翻了一倍多。传统风冷因空气载热能力有限,面临噪声大、能耗高及物理空间限制。液冷技术通过将金属冷板直接贴合芯片,利用液体流道高效导热,能更高效地移除热量并提升芯片温度稳定性。其主要挑战在于安装成本较高且需专门的服务器机架设计。日本的Fuji Electric、Nidec、Mitsubishi Heavy等公司正积极开发相关系统。
Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。
AI工具虽使个体效率大幅提升,却未加快组织整体产出。核心在于组织普遍缺乏“记忆”:MIT Sloan 2026年报告显示95%的企业AI投资未产生可衡量回报,超过30%的团队时间用于重复建立上下文。个体生产力因AI工具(记忆留存于个人账户)而提升,但这种收益无法在组织层面整合,导致“个人在飞,组织在垮”。Sequoia在AI Ascent峰会提出,2026年将是长周期智能体的商业元年,下一轮AI将卖结果而非工具。
由于美国出口管制,华为在芯片先进制程竞赛中面临困难。为此,华为于2026年5月提出“τ(Tau)定律”,旨在为后摩尔时代的芯片性能提升提供新框架。该定律的核心是优化有效RC时间常数(τ)以提升信号传播速度。其方法是不完全依赖制程微缩,而是从晶体管、电路、芯片互连及系统架构四个层次进行优化,以压缩τ值。华为将其描述为中国公司首次提出具有全球影响力的后摩尔扩展框架。
据报道,字节跳动正在开发基于 Groq LPU 架构的自研推理芯片。该架构将模型保存在片上 SRAM 中,跳过了受美国对华出口管制最严格限制的组件——高带宽内存。字节跳动的内存合作伙伴 InnoStar 在台积电的成熟制程节点进行生产,这些节点也处于管制之外。这一系列设计选择均旨在规避美国的限制,而正是同一架构,Nvidia 刚刚花费约200亿美元获得了其授权。
论文提出了“效率前沿”框架,用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是,在部署时选择合适的上下文方法可使token使用量减少约25%,在部分记忆复用场景下可降低超50%成本,且答案质量损失较小。研究指出,上下文长度存在收益递减,后增加的token成本高但收益小。在5000个HotpotQA问题的测试中,轻量检索适合低复用率,记忆压缩在高复用率下更优,而全上下文提示仍是获取最高性能所需。
X Premium+订阅用户现已可以安装Grok Build CLI。实际测试显示,该工具能成功生成图片,但调用 video_gen 接口生成视频的功能目前不可用,尽管官方有相关表述。此外,直接读取X平台帖子的功能也尚未实现。在编程能力上,该工具被认为不及Codex与Claude Code。
推文指出,AI智能体的强弱不只取决于模型,更依赖于模型周围的系统约束(harness)。该系统决定了模型的输入、可用工具、记忆及操作验证。核心进步应来自扩展此系统,尤其要提升上下文控制、记忆可信度以及工具或子智能体的路由能力。文中强调,长上下文不等于可用上下文,记忆多不等于可信,工具多不等于会用。这使得当前仅凭单次benchmark分数的评估方式显得薄弱。未来前沿在于扩展围绕智能体的系统约束,而不仅仅是扩展模型本身。相关论文标题为《From Model Scaling to System Scaling: Scaling the Harness in Agentic AI》。
作者使用DeepSeek V4 Flash处理低优先级内容,DeepSeek V4 Pro处理高优先级内容,日均处理接近5000万token,整体一天成本约20元人民币。关键在于缓存命中率很高,显著降低了使用成本。相比此前使用的Gemini,DeepSeek的性价比表现更为突出。
🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)Kog AI 在标准数据中心 GPU 上实现了惊人的推理速度:在 8× AMD MI300X 上达到 3,000 tokens/s,在 8× NVIDIA H200 上达到 2,100 tokens/s(FP16,无推测解码),而常规速度通常为 100-300 tokens/s。其技术核心是将大语言模型解码视为内存流问题,通过将整个 token 生成循环置于单一持久 GPU 程序内、优化内存访问拓扑以降低跨芯片延迟、并采用延迟张量并行技术来大幅减少开销。Kog 今日开放技术预览,提供 2B 编码模型,并计划后续支持大型前沿 MoE。
🚀 Launch today: Kog generates 3,000+ output tokens/s per single request, on standard datacenter GPUs. We are bringing r...
The Grid AI 提出了一种新的AI推理购买模式。用户不再指定具体模型,而是根据任务复杂度选择标准(standard)、生产(prime)或极致(max)三个级别之一。平台会自动将请求路由到满足该级别要求的最便宜供应商。应用仅需接入单一API,后端模型可根据价格与质量动态变化,从而优化成本。作者曾用Hermes Agent在本地测试,通过agent-price级别处理了工单分类工作流。The Grid目前处于Beta阶段,声称通过供应商竞价可使AI API成本降低最高80%,并为新用户提供首200M tokens免费额度。
The Grid's Beta is LIVE! We can get your AI API costs down by up to 80% by making suppliers compete for your requests. Y...
Driven by investments in AI, hyperscaler capital expenditures have grown 70% per year since the release of GPT-4, nearin...
Elon Musk向投资者澄清,SpaceX为Anthropic提供AI算力的Colossus并非长期锁定租赁,而是一份为期180天的租约,并附带90天的取消路径。此前外界认为该交易价值约每月12.5亿美元并持续至2029年5月,但Musk解释称,SpaceX选择短期条款是因为考虑到AI算力未来可能变得稀缺,不宜长期外租。他强调,Colossus并非闲置资产,同一套计算基础设施将用于训练xAI模型、支持内部AI系统,或可能在未来发展为付费云服务,因此SpaceX需要保持运营灵活性。
论文指出AI智能体在部署后,其记忆系统会因摘要、存储、更新和维护而逐渐“衰老”,导致信息丢失、混淆、过时或被破坏。智能体看似仍能工作,但可靠性已悄然下降。为此提出AgingBench基准,用于评估智能体在多会话中的持续可靠性。论文将智能体比作会衰老的基础设施,强调单纯增加记忆并非解决方案。
NVIDIA发布Vera CPU基准测试报告。Vera采用Armv9.2架构,在Phoronix测试中,其整体性能比128核x86 CPU高1.5倍,比前代Grace CPU提升1.6倍(几何平均)。其每核心内存带宽是传统x86 CPU的4倍以上,使用LPDDR5X实现1.2TB/s带宽,内存功耗低于30W。该报告旨在表明NVIDIA的Arm架构CPU性能已超越Intel和AMD的x86服务器CPU,并强调在智能体AI场景下,因涉及工具调用、文件读写、代码生成等复杂任务,CPU侧工作负载变得更重。
腾讯指出,智能体在执行长任务时面临上下文信息堆积导致的成本增加与目标遗忘问题。其提出的解决方案是结合“上下文卸载”与“Mermaid任务画布”:将详细内容存至外部,上下文仅保留索引;并用图表将执行过程结构化为带状态与依赖的任务地图。方案采用分层记忆系统。实验显示,该方案在网页搜索任务中最高节省约61% Token,代码修复任务节省31%-33% Token且完成率提升,复杂任务通过率从20%提升至30%-35%。消融实验证明,结合任务画布的结构化压缩效果更优。
Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...
Krea 2 from @krea_ai is available on Replicate. Generate high-fidelity, creative images with aesthetics first in mind.
关联讨论 1 条X:Krea AI (@krea_ai)推文指出,让AI主动记录和保存对话内容,是构建“数字分身”的关键,而非仅依赖被动下达指令。作者受罗胖发布会观点启发,将 Memory OS 2.0 与自己使用的 Bloom AI 进行了整合升级。实践表明,这种整合能触发AI的“主动性记忆点”,相比传统的“被动记忆”模式更具优势。作者将分享具体的整合过程、前后对比以及主动记忆的优势分析。
http://x.com/i/article/2059820725276696576
OpenAI推出Private MCP Tunnels,允许企业将MCP服务器完全保留在内网。ChatGPT、Codex和Responses API仅通过单向HTTPS outbound安全连接,无需开放入站端口或暴露永久API Key。同时推出的Workload Identity Federation和大幅增强的Admin API,提供了支出预警、模型白名单、数据保留策略等企业级管控功能。这些更新旨在打通企业采用AI时“数据不能出墙”与“安全审查漫长”的核心障碍,将OpenAI平台升级为企业级基础设施。
Private MCP servers 🤝 OpenAI products Your team can keep MCP servers inside your network while ChatGPT, Codex, and the ...
The Grid推出新的LLM推理平台,用实时供需市场定价取代传统的固定费率。它按任务难度分层:简单任务(如分类)用“standard”,常规生产任务(如RAG、智能体步骤)用“prime”,高难度任务(如长上下文推理)用“max”。应用将请求发送至The Grid,平台会自动匹配该层级当前最便宜的可用供应商。开发者仍使用单一API,但后端模型可动态切换。新账户享受前200 million tokens免费额度。文中以Hermes Agent集成为例,展示了如何通过“agent-prime”层级处理工单。