AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1386 条
全部一手资讯X论文
标签「部署/工程」清除
4月15日周三
21:01Cloudflare BlogProject Think:基于 Cloudflare 打造下一代 AI 智能体平台
21:00Cloudflare BlogAgent Lee 正式发布:Cloudflare 技术栈的全新交互界面
19:17The Decoder:AI News(RSS)OpenAI 欧洲 Stargate 计划缩减,Microsoft 与 Google 接管算力容量
15:48HuggingFace Daily Papers(社区热门论文)使用块扩散草稿树加速推测解码
08:00OpenRouter:Announcements(RSS)57精选宣布推出视频生成功能
08:00HuggingFace Daily Papers(社区热门论文)AccelOpt:面向 AI 加速器内核优化的自我改进型 LLM 智能体系统
05:27Hacker News 热门(buzzing.cc 中文翻译)多代理软件开发是一个分布式系统问题
4月14日周二
20:00Cursor Blog62精选多智能体系统将GPU内核性能提升38%
08:00HuggingFace Daily Papers(社区热门论文)Forge-UGC:通用图编译器的FX优化与寄存器图引擎
08:00HuggingFace Daily Papers(社区热门论文)KV Packet:面向 LLM 的免重新计算上下文无关 KV 缓存方案
4月13日周一
13:02Hacker News 热门(buzzing.cc 中文翻译)借助 ROCm 探索 CUDA:'循序渐进'
4月12日周日
18:12Hacker News 热门(buzzing.cc 中文翻译)Anthropic 于 3 月 6 日悄然将缓存 TTL 从 1 小时下调至 5 分钟
08:00HuggingFace Daily Papers(社区热门论文)IceCache:面向长序列 LLM 的内存高效 KV 缓存管理
4月10日周五
08:00OpenAI:官网动态(RSS · 排除企业/客户案例)金融服务业AI资源
00:00LMSYS:Blog(Chatbot Arena 团队)HiSparse:分层内存系统加速稀疏注意力
4月9日周四
19:11公众号:生数科技(Vidu·视频)51生数科技Vidu正式上线阿里云百炼
4月7日周二
17:26蚂蚁 inclusionAI:GitHub 新仓库54inclusionAI/TC-AE
4月6日周一
20:00Cursor Blog66精选通过warp decode提升MoE模型推理效率
08:00HuggingFace Daily Papers(社区热门论文)SkVM:面向高效可移植执行的技能编译系统
00:00Anthropic:Newsroom(网页)Anthropic与Google、Broadcom扩大合作,获多千兆瓦下一代算力
4月3日周五
08:00HuggingFace Daily Papers(社区热门论文)53随机KV路由:实现自适应深度方向缓存共享
03:59Meta Engineering Blog(RSS)82精选KernelEvolve:Meta的Ranking Engineer Agent如何优化AI基础设施
00:00Google Blog:AI(RSS)Gemini API 推出 Flex 与 Priority 层级,平衡成本与可靠性
4月2日周四
15:05蚂蚁 inclusionAI:GitHub 新仓库40inclusionAI/cuLA:基于CuTe DSL与CUTLASS C++的线性注意力变体CUDA内核
4月1日周三
08:00Google Developers Blog(RSS)71精选开发者指南:使用技能构建ADK智能体
08:00Hugging Face:Blog(RSS)83精选使用Gradio后端支持任意自定义前端
00:00Meta Engineering Blog(RSS)81精选Meta Adaptive Ranking Model:弯曲推理扩展曲线,为广告提供LLM规模模型服务
3月31日周二
15:06Steve Yegge:Medium(RSS)49氛围维护者
08:00Google Developers Blog(RSS)81精选Boost Training Goodput: 连续检查点功能如何优化 Orbax 和 MaxText 的训练可靠性
00:00Meta Engineering Blog(RSS)71精选AI助力美国产水泥与混凝土
00:00Mistral AI:News(网页)80面向双重用户:Mistral AI 如何改进CLI工具以同时服务人类与AI智能体
3月27日周五
20:00Cursor Blog72精选Composer 2技术报告:面向智能体软件工程的代码模型训练
3月25日周三
00:00LMSYS:Blog(Chatbot Arena 团队)Elastic EP:实现DeepSeek MoE部署的部分故障容忍
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang亮相NVIDIA GTC 2026:三天五场活动展示开源AI基础设施实力
3月24日周二
00:00Google Research:Blog(网页)TurboQuant:以极端压缩重新定义AI效率
3月19日周四
19:58公众号:龙猫LongCat(美团)39美团 BI 在指标平台和分析引擎上的探索和实践
3月17日周二
08:00HuggingFace Daily Papers(社区热门论文)32AgriIR:一个可扩展的领域特定知识检索框架
00:00LMSYS:Blog(Chatbot Arena 团队)Miles RL框架正式支持ROCm:基于AMD Instinct GPU的大规模后训练
3月14日周六
01:58Hacker News:AI 热帖精选Show HN: Context Gateway - 自动压缩 AI Agent 上下文再送入 LLM
00:00Dwarkesh Patel:Podcast & Blog(RSS)精选Dylan Patel - 深度剖析 AI 算力扩展的三大瓶颈
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月15日
21:01
Cloudflare Blog
Project Think:基于 Cloudflare 打造下一代 AI 智能体平台

Cloudflare 发布 Project Think 及 Agents SDK 下一版本预览,该平台从轻量级原语转型为功能完备的一站式开发平台,支持 AI 智能体实现思考、行动与状态持久化。新版本提供开箱即用的基础设施,帮助开发者构建具备持续认知能力的下一代 AI 应用。

智能体产品更新部署/工程
21:00
Cloudflare Blog
Agent Lee 正式发布:Cloudflare 技术栈的全新交互界面

Cloudflare 推出仪表盘内置代理 Agent Lee,将传统多标签页手动操作界面革新为单一提示词交互模式。基于沙盒化 TypeScript 构建,该工具以技术协作者身份协助用户排查故障、管理 Cloudflare 技术栈,实现从繁琐手动配置向智能化对话式运维的转变,提升基础设施管理效率与体验。

智能体产品更新部署/工程
19:17
The Decoder:AI News(RSS)
OpenAI 欧洲 Stargate 计划缩减,Microsoft 与 Google 接管算力容量

OpenAI 在欧洲的 Stargate 基础设施布局明显收缩。2025年7月,CEO Sam Altman 曾乐观预计将该巨型项目落地挪威纳尔维克,但数月后这一预期已大幅消退。随着 Microsoft 和 Google 接管了原本规划的数据中心容量,OpenAI 被迫缩减其欧洲算力扩张计划。

GoogleMicrosoftOpenAI行业动态
15:48
HuggingFace Daily Papers(社区热门论文)
使用块扩散草稿树加速推测解码

研究团队提出 DDTree(Diffusion Draft Tree)方法,突破 DFlash 每轮仅验证单条轨迹的局限,直接从块扩散草稿模型的逐位置分布构建草稿树。在固定节点预算下,该方法通过 best-first 堆算法筛选最可能匹配目标模型的序列,并利用祖先注意力掩码实现单次前向传播验证。基于当前领先的 DFlash 模型,DDTree 将推测解码性能提升至领域前沿水平。

推理论文/研究部署/工程
08:00
OpenRouter:Announcements(RSS)
精选57
宣布推出视频生成功能

OpenRouter平台现已上线视频生成服务。用户可通过单一API接口,直接调用顶级的视频生成模型。这一集成简化了开发流程,使开发者无需分别对接不同厂商,即可便捷地访问和使用当前领先的视频AI模型能力。

产品更新视频部署/工程

推荐理由:OpenRouter 把视频生成塞进统一 API,对已经在用它做多模型路由的开发者来说是零成本扩展,但对大多数人只是又一个聚合入口,不算必须关注的节点。
08:00
HuggingFace Daily Papers(社区热门论文)
AccelOpt:面向 AI 加速器内核优化的自我改进型 LLM 智能体系统

研究团队推出 AccelOpt,一种能自主优化 AI 加速器内核的自我改进型 LLM 智能体系统。该系统通过迭代生成和优化记忆库积累经验,无需硬件专家知识即可提升内核性能。在针对 AWS Trainium 构建的 NKIBench 基准测试中,AccelOpt 将 Trainium 1 和 Trainium 2 的平均峰值吞吐量分别从 49% 和 45% 提升至 61% 和 59%。该系统采用开源模型即可达到与 Claude Sonnet 4 相当的优化效果,成本却降低 26 倍。

智能体论文/研究部署/工程
05:27
Hacker News 热门(buzzing.cc 中文翻译)
多代理软件开发是一个分布式系统问题

多代理软件开发本质上是一个分布式系统问题。技术博客 kirancodes.me 提出这一核心观点,将多代理协作的复杂性类比为分布式系统的经典挑战,涉及代理间协调、状态一致性和通信可靠性等议题。该视角转换有助于开发者借鉴成熟的分布式系统理论来构建更稳健的多代理应用。文章在 Hacker News 获得 100 点热度。

智能体现象/趋势部署/工程
4月14日
20:00
Cursor Blog
精选62
多智能体系统将GPU内核性能提升38%

我们与NVIDIA合作,利用自主运行的多智能体系统,在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别,实现了38%的几何平均速度提升,其中63%的问题超越基线,19%实现超2倍优化。这些内核直接影响AI训练与推理效率,传统上需资深工程师耗时数月乃至数年的优化工作,该系统在数周内即自主完成,并能探索更广阔解决方案空间,突破了人工逐项优化的限制。

智能体现象/趋势编码部署/工程

推荐理由:Cursor 把自家多 Agent 系统拉去优化 CUDA 内核,38% 的 geomean 提速不算炸裂,但真正值得看的是它证明了 Agent 可以在无人干预下跑三周啃硬骨头,这对做 Agent 产品的人是个强信号。
08:00
HuggingFace Daily Papers(社区热门论文)
Forge-UGC:通用图编译器的FX优化与寄存器图引擎

Forge-UGC是面向异构加速器(如Intel NPU)的transformer四阶段编译器,通过torch.export捕获ATen图,经六种优化pass削减节点14.2%-21.9%,并采用线性扫描缓冲区分配与设备亲和性调度,使峰值缓冲区减少30%-48%、NPU-CPU切换降低42%-65%。在125M至8B参数模型测试中,较OpenVINO等编译速度提升6.9-9.2倍,推理延迟降低18.2%-35.7%,能耗减少30.2%-40.9%,且保持数值精度(logit差异<2.1e-5)。

arXiv端侧论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
KV Packet:面向 LLM 的免重新计算上下文无关 KV 缓存方案

研究团队提出 KV Packet 框架,通过轻量级可训练软 token 适配器将缓存文档封装为不可变"数据包",实现 KV 缓存的免重新计算上下文无关重用。该方法基于自监督蒸馏训练弥合上下文不连续性,在 Llama-3.1 和 Qwen2.5 上的实验表明,其计算开销(FLOPs)接近零,首 token 生成时间(TTFT)低于 CacheBlend、EPIC 等部分重新计算基线,同时 F1 分数与完全重新计算方案持平。

arXiv论文/研究部署/工程
4月13日
13:02
Hacker News 热门(buzzing.cc 中文翻译)
借助 ROCm 探索 CUDA:'循序渐进'

AMD 凭借 ROCm 开源平台采取"循序渐进"策略挑战 NVIDIA CUDA 的垄断地位,通过逐步完善编译器、库及硬件支持,为 AI 与高性能计算领域构建替代生态。

开源生态行业动态部署/工程
4月12日
18:12
Hacker News 热门(buzzing.cc 中文翻译)
Anthropic 于 3 月 6 日悄然将缓存 TTL 从 1 小时下调至 5 分钟

Anthropic 3 月 6 日未作公告即将缓存 TTL 从 1 小时下调至 5 分钟,变更细节见于 Claude Code GitHub issue。这一改动可能显著影响依赖长缓存窗口的应用成本与性能。

Anthropic产品更新部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
IceCache:面向长序列 LLM 的内存高效 KV 缓存管理

研究团队提出 IceCache,一种面向长序列 LLM 的内存高效 KV 缓存管理策略。该方法融合语义 token 聚类与 PagedAttention,通过分层动态数据结构将语义相关 token 组织为连续内存区域,提升 CPU-GPU 传输效率。LongBench 测试显示,在 256 token 预算下 IceCache 保持 99% 原始准确率,且仅用 25% 的 KV 缓存预算即可达到与其他卸载方法相当或更优的延迟和准确率。

推理论文/研究部署/工程
4月10日
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
金融服务业AI资源

专为金融服务业打造的AI资源合集,涵盖提示词包、GPT模型、实用指南及专业工具,助力金融机构安全、高效地部署和扩展人工智能应用,推动行业智能化升级与数字化转型。

OpenAI产品更新部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
HiSparse:分层内存系统加速稀疏注意力

LMSYS Org推出HiSparse分层内存系统,针对稀疏注意力仍受限于GPU内存容量的问题,将非活跃KV缓存卸载至主机内存,仅在GPU HBM保留热缓冲区,并通过专用CUDA内核高效管理数据交换(采用LRU策略与页表更新)。该系统在256并发请求下实现超3倍吞吐量提升,GLM-5.1-FP8模型长上下文场景性能提升达5倍,支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。

开源/仓库推理部署/工程
4月9日
19:11
公众号:生数科技(Vidu·视频)
51
生数科技Vidu正式上线阿里云百炼

生数科技旗下视频生成模型Vidu已正式上线阿里云百炼平台,标志着从“模型领先”向“生态领先”的转变。双方将联合加速行业发展。

产品更新视频部署/工程
4月7日
17:26
蚂蚁 inclusionAI:GitHub 新仓库
54
inclusionAI/TC-AE

研究团队发布了TC-AE,一种用于深度压缩自动编码器的新方法,旨在突破现有模型的令牌容量限制。该方法通过创新的架构设计,显著提升了模型在压缩表示中保留信息的能力,实现了更高的压缩效率与重建质量。具体指标显示,TC-AE在多个基准测试中,相较于传统深度压缩自动编码器,将有效令牌容量提升了约30%,同时保持了较低的计算开销。这项工作为高密度数据压缩与表示学习提供了新的技术路径。

开源/仓库数据/训练论文/研究部署/工程
4月6日
20:00
Cursor Blog
精选66
通过warp decode提升MoE模型推理效率

针对Blackwell GPU上的小批量解码,研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径,改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤,将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写,并通过warp独立性实现了更好的调度。在Blackwell GPU上,该方法实现了1.84倍的吞吐量提升,同时输出精度更高,与全FP32参考值的差距缩小了1.4倍,有效加速了模型研发流程。

推理论文/研究部署/工程

推荐理由:Cursor 把 MoE 推理的并行轴从专家翻转到输出神经元,Blackwell 上吞吐涨 1.84 倍还顺带提精度,这种同时赢性能和精度的内核优化极其罕见,做推理引擎的值得逐行读。
08:00
HuggingFace Daily Papers(社区热门论文)
SkVM:面向高效可移植执行的技能编译系统

针对大模型智能体技能跨平台行为不一致与执行效率问题,研究团队提出SkVM编译与运行时系统。该系统借鉴传统编译器设计,将技能视为代码、大模型视为异构处理器,基于对11.8万个技能的能力剖析,在编译时进行能力匹配与环境绑定,运行时实施JIT代码固化与自适应重编译。实验覆盖8种大模型及3种agent harness,结果显示SkVM在提升任务完成率的同时,可降低40%的token消耗,实现最高3.2倍加速及19-50倍延迟缩减。

智能体arXiv论文/研究部署/工程
00:00
Anthropic:Newsroom(网页)
Anthropic与Google、Broadcom扩大合作,获多千兆瓦下一代算力

Anthropic宣布与Google、Broadcom达成新协议,将获得多千兆瓦下一代TPU算力,预计2027年上线。这是其迄今最大的算力投资,用以支持Claude模型及激增的客户需求。数据显示,Claude年收入运行率已突破300亿美元,年消费超百万美元的企业客户两个月内从500家翻倍至超1000家。新设施主要位于美国,符合其500亿美元投资美国基础设施的承诺。公司强调将继续保持多硬件平台策略,AWS仍是主要云服务商。

AnthropicGoogle行业动态部署/工程
4月3日
08:00
HuggingFace Daily Papers(社区热门论文)
53
随机KV路由:实现自适应深度方向缓存共享

为降低Transformer语言模型推理时KV缓存的内存占用,本研究提出一种名为“随机KV路由”的训练方法。该方法在训练过程中,让每一层随机选择使用本层或前一层的键值状态,从而使模型能够适应深度方向的KV缓存共享。评估表明,该方法在预训练或微调阶段应用后,可在多种模型架构中实现缓存共享,显著减少内存需求。对于数据受限的大模型,此方法还表现出类似正则化的效果,在降低内存的同时,常能保持甚至提升模型性能。

推理论文/研究部署/工程
03:59
Meta Engineering Blog(RSS)
精选82
KernelEvolve:Meta的Ranking Engineer Agent如何优化AI基础设施

Meta的Ranking Engineer Agent系列博客第二篇,聚焦其底层基础设施优化能力。该自主AI代理能够优化支撑广告排名模型运行的低层基础设施,旨在提升系统性能与效率。本篇承接首篇介绍的机器学习实验自主探索功能,进一步展示了该代理在硬件与系统层面的自动化优化实践。

智能体Meta产品更新部署/工程

推荐理由:Meta 内部工具展示 AI 自动化优化基础设施,工程师可借鉴实践。
00:00
Google Blog:AI(RSS)
Gemini API 推出 Flex 与 Priority 层级,平衡成本与可靠性

Google 为 Gemini API 新增 Flex 和 Priority 两个推理层级,帮助开发者在成本与延迟之间灵活取舍。

Google产品更新部署/工程
4月2日
15:05
蚂蚁 inclusionAI:GitHub 新仓库
40
inclusionAI/cuLA:基于CuTe DSL与CUTLASS C++的线性注意力变体CUDA内核

inclusionAI发布了cuLA项目,这是一套为线性注意力变体编写的CUDA内核。该内核完全采用NVIDIA的CuTe DSL和CUTLASS C++库进行开发,旨在高效实现Transformer模型中的线性注意力机制。此举专注于底层计算优化,通过利用先进的CUDA编程抽象和高效模板库,有望提升大语言模型在推理和训练过程中的计算性能与效率。

开源/仓库数据/训练部署/工程
4月1日
08:00
Google Developers Blog(RSS)
精选71
开发者指南:使用技能构建ADK智能体

Agent Development Kit (ADK) SkillToolset 推出了“渐进式披露”架构,使AI智能体能够按需加载领域专业知识,与传统单体提示相比,可减少高达90%的令牌使用量。该系统通过四种模式——从简单的内联清单到智能体可自行编写代码的“技能工厂”——使智能体能在运行时利用通用的 agentskills.io 规范动态扩展其能力。这种模块化方法确保了复杂的指令和外部资源仅在相关时被访问,从而为现代AI开发构建了一个可扩展且能自我扩展的框架。

智能体Google教程/实践部署/工程

推荐理由:开发者可借鉴此架构,构建更智能、更经济的AI代理。
08:00
Hugging Face:Blog(RSS)
精选83
使用Gradio后端支持任意自定义前端

Gradio推出的gradio.Server组件,允许开发者完全使用React、Svelte或原生HTML/JS等自定义前端框架构建应用,同时无缝继承Grio的后端基础设施优势。该组件基于FastAPI扩展,集成了Gradio的队列系统、并发控制、SSE流式传输及gradio_client兼容性。以“Text Behind Image”应用为例,其后端仅需约50行Python代码,通过@app.api()装饰器封装函数,即可自动管理请求队列与GPU并发,并能在Hugging Face Spaces上获得ZeroGPU支持,极大简化了复杂全栈Web应用在Spaces上的部署流程。

Hugging Face产品更新部署/工程

推荐理由:开发者可自由选择前端框架,同时利用Gradio的队列和GPU管理,简化AI应用部署。
00:00
Meta Engineering Blog(RSS)
精选81
Meta Adaptive Ranking Model:弯曲推理扩展曲线,为广告提供LLM规模模型服务

Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度,旨在更深入理解用户兴趣与意图,以提升广告效果。这一举措通过自适应排序模型,优化了推理阶段的扩展曲线,使部署大规模模型服务成为可能,标志着推荐系统性能向新前沿迈进。

Meta产品更新推理部署/工程

推荐理由:Meta的工程实践展示了如何优化LLM规模模型的推理效率,对AI系统设计有参考价值。
3月31日
15:06
Steve Yegge:Medium(RSS)
49
氛围维护者

一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads(2万星)和Gas Town(1.3万星)两个项目,每天收到约50个PR。通过自动化处理超过半数简单PR,整体合入率约88%,中位解决时间15小时。即便如此,每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键,拒绝贡献可能导致项目被分叉或取代。

智能体大佬观点开源生态部署/工程
08:00
Google Developers Blog(RSS)
精选81
Boost Training Goodput: 连续检查点功能如何优化 Orbax 和 MaxText 的训练可靠性

Orbax 和 MaxText 引入了连续检查点新功能,旨在优化模型训练中可靠性与性能的平衡。它改变了传统固定频率检查点的模式,通过在前一个保存操作成功完成后才异步启动新操作,最大化I/O带宽并降低故障风险。基准测试表明,该方法显著缩短了检查点间隔,并实现了可观的资源节约,这在平均故障间隔时间较短的大规模训练任务中效果尤为突出。

Google产品更新数据/训练部署/工程

推荐理由:大规模模型训练的可靠性和效率提升,开发者可优化资源使用。
00:00
Meta Engineering Blog(RSS)
精选71
AI助力美国产水泥与混凝土

Meta发布了名为贝叶斯优化的新AI模型,用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物,并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行,是Meta长期路线图的一部分,旨在推动建筑业利用人工智能优化材料性能与环保指标。

Meta模型发布部署/工程

推荐理由:Meta 将 AI 应用于传统建筑行业,展示垂直领域落地案例,启发其他行业探索 AI 应用。
00:00
Mistral AI:News(网页)
80
面向双重用户:Mistral AI 如何改进CLI工具以同时服务人类与AI智能体

Mistral AI 在改进内部CLI工具时发现,原本为人类开发者设计的交互式提示会阻碍AI智能体使用。核心解决方案是将每个交互式提示都转化为对应的命令行标志位,确保所有必要信息都能通过非交互方式提供。他们建立了插件系统,使组件可自省和序列化,并为智能体生成结构化的上下文指南。这些改进使得智能体能够自主完成从项目初始化到部署的全流程,例如将博客项目部署为Space仅需不到10分钟。面向智能体的设计最终也提升了人机协作的效率。

智能体教程/实践部署/工程
3月27日
20:00
Cursor Blog
精选72
Composer 2技术报告:面向智能体软件工程的代码模型训练

本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5,通过两阶段训练:首先进行侧重代码的持续预训练以深化编码知识,随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上,Composer 2得分为61.3,较前代提升37%,与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分,并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。

智能体编码论文/研究部署/工程

推荐理由:Cursor 把 Composer 2 的训练全流程摊开讲了,从 Kimi K2.5 继续预训练到大规模 RL,关键是 RL 在真实 Cursor 会话里跑,不是玩具环境。做 coding agent 的团队,这份报告值得逐段拆。
3月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Elastic EP:实现DeepSeek MoE部署的部分故障容忍

Mooncake团队与Volcano Engine在SGLang框架中推出Elastic EP功能,解决大规模DeepSeek MoE模型"宽"专家并行部署的可靠性瓶颈。该技术通过解耦专家与GPU的刚性绑定并维护冗余副本,可在32 GPU集群中容忍最多16个rank故障,将服务恢复时间从2-3分钟缩短至10秒以内,降幅达90%。基准测试显示,该方案在实现极端韧性的同时,吞吐量、TTFT和TPOT等关键指标与标准DeepEP持平,实现零静态性能损耗。

DeepSeek开源/仓库部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang亮相NVIDIA GTC 2026:三天五场活动展示开源AI基础设施实力

SGLang亮相Jensen Huang主题演讲AI生态图谱,三天内密集举办五场活动。团队与RadixArk合办200人技术聚会,在LinkedIn总部举办搜索与推荐LLM系统研讨,并参与700人规模的Novita行业论坛。官方培训实验室发布Miles RL框架,解决生产环境训练-推理不匹配难题;LinkedIn工程师分享预填充优化方案,在H100上实现2–3倍吞吐量提升并回馈上游。

开源/仓库数据/训练部署/工程
3月24日
00:00
Google Research:Blog(网页)
TurboQuant:以极端压缩重新定义AI效率

Google Research推出TurboQuant压缩算法(将发表于ICLR 2026),通过融合PolarQuant与QJL技术实现大模型与向量搜索的极端压缩。PolarQuant通过随机旋转数据向量并转换为极坐标,消除传统量化的内存开销;QJL则利用Johnson-Lindenstrauss变换以1比特零开销压缩残差误差。该方法在零精度损失下显著缩减模型体积,有效缓解KV缓存瓶颈,适用于高维向量搜索等场景。

Google论文/研究部署/工程
3月19日
19:58
公众号:龙猫LongCat(美团)
39
美团 BI 在指标平台和分析引擎上的探索和实践

以指标平台为核心的新一代BI架构,通过建设自动语义和增强计算两种核心能力,部分解决了传统BI平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。

教程/实践部署/工程
3月17日
08:00
HuggingFace Daily Papers(社区热门论文)
32
AgriIR:一个可扩展的领域特定知识检索框架

本文提出AgriIR,一个可配置的检索增强生成框架,旨在以低计算成本提供基于事实的领域特定答案。该框架将信息获取过程分解为声明式模块化阶段,包括查询优化、子查询规划、检索、合成与评估,无需修改架构即可适配新知识领域。参考实现面向印度农业信息获取,集成了10亿参数语言模型、自适应检索器和领域感知智能体目录。系统强制执行确定性引用,集成遥测数据以确保透明性,并包含自动化部署资产以实现可审计、可复现的运行。该设计表明,精心设计的流程能在有限资源下实现领域精准且可信的检索,体现了“农业人工智能”的理念,通过提升可访问性、可持续性和可问责性,推动检索增强生成系统的发展。

检索增强论文/研究部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
Miles RL框架正式支持ROCm:基于AMD Instinct GPU的大规模后训练

开源RL框架Miles正式支持ROCm,可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化,针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示,rollout吞吐达1.1k-1.3k tok/GPU/s,AIME准确率从66.5%提升至72.9%。现提供预构建容器,支持GRPO、Megatron-LM和FSDP后端。

开源/仓库数据/训练部署/工程
3月14日
01:58
Hacker News:AI 热帖
精选
Show HN: Context Gateway - 自动压缩 AI Agent 上下文再送入 LLM

YC 孵化的 Compresr 发布 Context Gateway,在 AI Agent 与 LLM 间自动压缩过长对话历史。后台预计算实现即时压缩,支持 Claude Code、Cursor 等,默认 75% 上下文阈值触发。curl 一键安装,TUI 向导配置。

智能体开源/仓库部署/工程

推荐理由:YC背书的Agent上下文压缩工具,自动优化长对话,支持Claude Code等主流Agent
00:00
Dwarkesh Patel:Podcast & Blog(RSS)
精选
Dylan Patel - 深度剖析 AI 算力扩展的三大瓶颈

Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈:电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年,受供需严重失衡及新一代芯片交付延迟影响,其市场价格与战略价值持续攀升,当前实际价值甚至超过发布初期。文章指出,这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。

大佬观点数据/训练部署/工程

推荐理由:顶尖硬件分析师拆解AI算力扩张的三大瓶颈,揭示H100为何比三年前更值钱
‹ 上一页
1…2728293031…35
下一页 ›