Cloudflare 发布 Project Think 及 Agents SDK 下一版本预览,该平台从轻量级原语转型为功能完备的一站式开发平台,支持 AI 智能体实现思考、行动与状态持久化。新版本提供开箱即用的基础设施,帮助开发者构建具备持续认知能力的下一代 AI 应用。
Cloudflare 发布 Project Think 及 Agents SDK 下一版本预览,该平台从轻量级原语转型为功能完备的一站式开发平台,支持 AI 智能体实现思考、行动与状态持久化。新版本提供开箱即用的基础设施,帮助开发者构建具备持续认知能力的下一代 AI 应用。
Cloudflare 推出仪表盘内置代理 Agent Lee,将传统多标签页手动操作界面革新为单一提示词交互模式。基于沙盒化 TypeScript 构建,该工具以技术协作者身份协助用户排查故障、管理 Cloudflare 技术栈,实现从繁琐手动配置向智能化对话式运维的转变,提升基础设施管理效率与体验。
OpenAI 在欧洲的 Stargate 基础设施布局明显收缩。2025年7月,CEO Sam Altman 曾乐观预计将该巨型项目落地挪威纳尔维克,但数月后这一预期已大幅消退。随着 Microsoft 和 Google 接管了原本规划的数据中心容量,OpenAI 被迫缩减其欧洲算力扩张计划。
研究团队提出 DDTree(Diffusion Draft Tree)方法,突破 DFlash 每轮仅验证单条轨迹的局限,直接从块扩散草稿模型的逐位置分布构建草稿树。在固定节点预算下,该方法通过 best-first 堆算法筛选最可能匹配目标模型的序列,并利用祖先注意力掩码实现单次前向传播验证。基于当前领先的 DFlash 模型,DDTree 将推测解码性能提升至领域前沿水平。
OpenRouter平台现已上线视频生成服务。用户可通过单一API接口,直接调用顶级的视频生成模型。这一集成简化了开发流程,使开发者无需分别对接不同厂商,即可便捷地访问和使用当前领先的视频AI模型能力。
研究团队推出 AccelOpt,一种能自主优化 AI 加速器内核的自我改进型 LLM 智能体系统。该系统通过迭代生成和优化记忆库积累经验,无需硬件专家知识即可提升内核性能。在针对 AWS Trainium 构建的 NKIBench 基准测试中,AccelOpt 将 Trainium 1 和 Trainium 2 的平均峰值吞吐量分别从 49% 和 45% 提升至 61% 和 59%。该系统采用开源模型即可达到与 Claude Sonnet 4 相当的优化效果,成本却降低 26 倍。
多代理软件开发本质上是一个分布式系统问题。技术博客 kirancodes.me 提出这一核心观点,将多代理协作的复杂性类比为分布式系统的经典挑战,涉及代理间协调、状态一致性和通信可靠性等议题。该视角转换有助于开发者借鉴成熟的分布式系统理论来构建更稳健的多代理应用。文章在 Hacker News 获得 100 点热度。
我们与NVIDIA合作,利用自主运行的多智能体系统,在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别,实现了38%的几何平均速度提升,其中63%的问题超越基线,19%实现超2倍优化。这些内核直接影响AI训练与推理效率,传统上需资深工程师耗时数月乃至数年的优化工作,该系统在数周内即自主完成,并能探索更广阔解决方案空间,突破了人工逐项优化的限制。
Forge-UGC是面向异构加速器(如Intel NPU)的transformer四阶段编译器,通过torch.export捕获ATen图,经六种优化pass削减节点14.2%-21.9%,并采用线性扫描缓冲区分配与设备亲和性调度,使峰值缓冲区减少30%-48%、NPU-CPU切换降低42%-65%。在125M至8B参数模型测试中,较OpenVINO等编译速度提升6.9-9.2倍,推理延迟降低18.2%-35.7%,能耗减少30.2%-40.9%,且保持数值精度(logit差异<2.1e-5)。
研究团队提出 KV Packet 框架,通过轻量级可训练软 token 适配器将缓存文档封装为不可变"数据包",实现 KV 缓存的免重新计算上下文无关重用。该方法基于自监督蒸馏训练弥合上下文不连续性,在 Llama-3.1 和 Qwen2.5 上的实验表明,其计算开销(FLOPs)接近零,首 token 生成时间(TTFT)低于 CacheBlend、EPIC 等部分重新计算基线,同时 F1 分数与完全重新计算方案持平。
AMD 凭借 ROCm 开源平台采取"循序渐进"策略挑战 NVIDIA CUDA 的垄断地位,通过逐步完善编译器、库及硬件支持,为 AI 与高性能计算领域构建替代生态。
Anthropic 3 月 6 日未作公告即将缓存 TTL 从 1 小时下调至 5 分钟,变更细节见于 Claude Code GitHub issue。这一改动可能显著影响依赖长缓存窗口的应用成本与性能。
研究团队提出 IceCache,一种面向长序列 LLM 的内存高效 KV 缓存管理策略。该方法融合语义 token 聚类与 PagedAttention,通过分层动态数据结构将语义相关 token 组织为连续内存区域,提升 CPU-GPU 传输效率。LongBench 测试显示,在 256 token 预算下 IceCache 保持 99% 原始准确率,且仅用 25% 的 KV 缓存预算即可达到与其他卸载方法相当或更优的延迟和准确率。
专为金融服务业打造的AI资源合集,涵盖提示词包、GPT模型、实用指南及专业工具,助力金融机构安全、高效地部署和扩展人工智能应用,推动行业智能化升级与数字化转型。
LMSYS Org推出HiSparse分层内存系统,针对稀疏注意力仍受限于GPU内存容量的问题,将非活跃KV缓存卸载至主机内存,仅在GPU HBM保留热缓冲区,并通过专用CUDA内核高效管理数据交换(采用LRU策略与页表更新)。该系统在256并发请求下实现超3倍吞吐量提升,GLM-5.1-FP8模型长上下文场景性能提升达5倍,支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。
研究团队发布了TC-AE,一种用于深度压缩自动编码器的新方法,旨在突破现有模型的令牌容量限制。该方法通过创新的架构设计,显著提升了模型在压缩表示中保留信息的能力,实现了更高的压缩效率与重建质量。具体指标显示,TC-AE在多个基准测试中,相较于传统深度压缩自动编码器,将有效令牌容量提升了约30%,同时保持了较低的计算开销。这项工作为高密度数据压缩与表示学习提供了新的技术路径。
针对Blackwell GPU上的小批量解码,研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径,改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤,将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写,并通过warp独立性实现了更好的调度。在Blackwell GPU上,该方法实现了1.84倍的吞吐量提升,同时输出精度更高,与全FP32参考值的差距缩小了1.4倍,有效加速了模型研发流程。
针对大模型智能体技能跨平台行为不一致与执行效率问题,研究团队提出SkVM编译与运行时系统。该系统借鉴传统编译器设计,将技能视为代码、大模型视为异构处理器,基于对11.8万个技能的能力剖析,在编译时进行能力匹配与环境绑定,运行时实施JIT代码固化与自适应重编译。实验覆盖8种大模型及3种agent harness,结果显示SkVM在提升任务完成率的同时,可降低40%的token消耗,实现最高3.2倍加速及19-50倍延迟缩减。
Anthropic宣布与Google、Broadcom达成新协议,将获得多千兆瓦下一代TPU算力,预计2027年上线。这是其迄今最大的算力投资,用以支持Claude模型及激增的客户需求。数据显示,Claude年收入运行率已突破300亿美元,年消费超百万美元的企业客户两个月内从500家翻倍至超1000家。新设施主要位于美国,符合其500亿美元投资美国基础设施的承诺。公司强调将继续保持多硬件平台策略,AWS仍是主要云服务商。
为降低Transformer语言模型推理时KV缓存的内存占用,本研究提出一种名为“随机KV路由”的训练方法。该方法在训练过程中,让每一层随机选择使用本层或前一层的键值状态,从而使模型能够适应深度方向的KV缓存共享。评估表明,该方法在预训练或微调阶段应用后,可在多种模型架构中实现缓存共享,显著减少内存需求。对于数据受限的大模型,此方法还表现出类似正则化的效果,在降低内存的同时,常能保持甚至提升模型性能。
Meta的Ranking Engineer Agent系列博客第二篇,聚焦其底层基础设施优化能力。该自主AI代理能够优化支撑广告排名模型运行的低层基础设施,旨在提升系统性能与效率。本篇承接首篇介绍的机器学习实验自主探索功能,进一步展示了该代理在硬件与系统层面的自动化优化实践。
Google 为 Gemini API 新增 Flex 和 Priority 两个推理层级,帮助开发者在成本与延迟之间灵活取舍。
inclusionAI发布了cuLA项目,这是一套为线性注意力变体编写的CUDA内核。该内核完全采用NVIDIA的CuTe DSL和CUTLASS C++库进行开发,旨在高效实现Transformer模型中的线性注意力机制。此举专注于底层计算优化,通过利用先进的CUDA编程抽象和高效模板库,有望提升大语言模型在推理和训练过程中的计算性能与效率。
Agent Development Kit (ADK) SkillToolset 推出了“渐进式披露”架构,使AI智能体能够按需加载领域专业知识,与传统单体提示相比,可减少高达90%的令牌使用量。该系统通过四种模式——从简单的内联清单到智能体可自行编写代码的“技能工厂”——使智能体能在运行时利用通用的 agentskills.io 规范动态扩展其能力。这种模块化方法确保了复杂的指令和外部资源仅在相关时被访问,从而为现代AI开发构建了一个可扩展且能自我扩展的框架。
Gradio推出的gradio.Server组件,允许开发者完全使用React、Svelte或原生HTML/JS等自定义前端框架构建应用,同时无缝继承Grio的后端基础设施优势。该组件基于FastAPI扩展,集成了Gradio的队列系统、并发控制、SSE流式传输及gradio_client兼容性。以“Text Behind Image”应用为例,其后端仅需约50行Python代码,通过@app.api()装饰器封装函数,即可自动管理请求队列与GPU并发,并能在Hugging Face Spaces上获得ZeroGPU支持,极大简化了复杂全栈Web应用在Spaces上的部署流程。
Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度,旨在更深入理解用户兴趣与意图,以提升广告效果。这一举措通过自适应排序模型,优化了推理阶段的扩展曲线,使部署大规模模型服务成为可能,标志着推荐系统性能向新前沿迈进。
一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads(2万星)和Gas Town(1.3万星)两个项目,每天收到约50个PR。通过自动化处理超过半数简单PR,整体合入率约88%,中位解决时间15小时。即便如此,每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键,拒绝贡献可能导致项目被分叉或取代。
Orbax 和 MaxText 引入了连续检查点新功能,旨在优化模型训练中可靠性与性能的平衡。它改变了传统固定频率检查点的模式,通过在前一个保存操作成功完成后才异步启动新操作,最大化I/O带宽并降低故障风险。基准测试表明,该方法显著缩短了检查点间隔,并实现了可观的资源节约,这在平均故障间隔时间较短的大规模训练任务中效果尤为突出。
Meta发布了名为贝叶斯优化的新AI模型,用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物,并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行,是Meta长期路线图的一部分,旨在推动建筑业利用人工智能优化材料性能与环保指标。
Mistral AI 在改进内部CLI工具时发现,原本为人类开发者设计的交互式提示会阻碍AI智能体使用。核心解决方案是将每个交互式提示都转化为对应的命令行标志位,确保所有必要信息都能通过非交互方式提供。他们建立了插件系统,使组件可自省和序列化,并为智能体生成结构化的上下文指南。这些改进使得智能体能够自主完成从项目初始化到部署的全流程,例如将博客项目部署为Space仅需不到10分钟。面向智能体的设计最终也提升了人机协作的效率。
本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5,通过两阶段训练:首先进行侧重代码的持续预训练以深化编码知识,随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上,Composer 2得分为61.3,较前代提升37%,与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分,并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。
Mooncake团队与Volcano Engine在SGLang框架中推出Elastic EP功能,解决大规模DeepSeek MoE模型"宽"专家并行部署的可靠性瓶颈。该技术通过解耦专家与GPU的刚性绑定并维护冗余副本,可在32 GPU集群中容忍最多16个rank故障,将服务恢复时间从2-3分钟缩短至10秒以内,降幅达90%。基准测试显示,该方案在实现极端韧性的同时,吞吐量、TTFT和TPOT等关键指标与标准DeepEP持平,实现零静态性能损耗。
SGLang亮相Jensen Huang主题演讲AI生态图谱,三天内密集举办五场活动。团队与RadixArk合办200人技术聚会,在LinkedIn总部举办搜索与推荐LLM系统研讨,并参与700人规模的Novita行业论坛。官方培训实验室发布Miles RL框架,解决生产环境训练-推理不匹配难题;LinkedIn工程师分享预填充优化方案,在H100上实现2–3倍吞吐量提升并回馈上游。
Google Research推出TurboQuant压缩算法(将发表于ICLR 2026),通过融合PolarQuant与QJL技术实现大模型与向量搜索的极端压缩。PolarQuant通过随机旋转数据向量并转换为极坐标,消除传统量化的内存开销;QJL则利用Johnson-Lindenstrauss变换以1比特零开销压缩残差误差。该方法在零精度损失下显著缩减模型体积,有效缓解KV缓存瓶颈,适用于高维向量搜索等场景。
以指标平台为核心的新一代BI架构,通过建设自动语义和增强计算两种核心能力,部分解决了传统BI平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。
本文提出AgriIR,一个可配置的检索增强生成框架,旨在以低计算成本提供基于事实的领域特定答案。该框架将信息获取过程分解为声明式模块化阶段,包括查询优化、子查询规划、检索、合成与评估,无需修改架构即可适配新知识领域。参考实现面向印度农业信息获取,集成了10亿参数语言模型、自适应检索器和领域感知智能体目录。系统强制执行确定性引用,集成遥测数据以确保透明性,并包含自动化部署资产以实现可审计、可复现的运行。该设计表明,精心设计的流程能在有限资源下实现领域精准且可信的检索,体现了“农业人工智能”的理念,通过提升可访问性、可持续性和可问责性,推动检索增强生成系统的发展。
开源RL框架Miles正式支持ROCm,可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化,针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示,rollout吞吐达1.1k-1.3k tok/GPU/s,AIME准确率从66.5%提升至72.9%。现提供预构建容器,支持GRPO、Megatron-LM和FSDP后端。
YC 孵化的 Compresr 发布 Context Gateway,在 AI Agent 与 LLM 间自动压缩过长对话历史。后台预计算实现即时压缩,支持 Claude Code、Cursor 等,默认 75% 上下文阈值触发。curl 一键安装,TUI 向导配置。
Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈:电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年,受供需严重失衡及新一代芯片交付延迟影响,其市场价格与战略价值持续攀升,当前实际价值甚至超过发布初期。文章指出,这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。