AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 497 条
全部一手资讯X论文
标签「部署/工程」清除
3月11日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 宣布首日支持 NVIDIA Nemotron 3 Super,助力构建高效多智能体系统
3月10日周二
08:00Hugging Face:Blog(RSS)83精选保持令牌流动:16个开源强化学习库的教训
08:00Hugging Face:Blog(RSS)83精选Hugging Face Hub 正式推出 Storage Buckets 存储服务
3月9日周一
08:00Hugging Face:Blog(RSS)76精选Ulysses Sequence Parallelism: 实现百万令牌上下文的训练
3月5日周四
00:30蚂蚁 inclusionAI:HuggingFace 新模型35inclusionAI/AReaL-tau2-airline-sft-30B 发布
3月4日周三
00:35Google DeepMind:Blog(RSS)Gemini 3.1 Flash-Lite:专为规模化智能构建
2月28日周六
20:30OpenAI:官网动态(RSS · 排除企业/客户案例)精选OpenAI 与 Department of War 的协议
2月27日周五
21:02公众号:月之暗面(Kimi)32Kimi API:用90%缓存命中率,把价格打到25%
13:30OpenAI:官网动态(RSS · 排除企业/客户案例)OpenAI 与 Amazon 宣布战略合作
13:30OpenAI:官网动态(RSS · 排除企业/客户案例)Amazon Bedrock 推出面向 Agents 的有状态运行时环境
2月26日周四
08:00蚂蚁百灵:Developer Blog(网页)86精选Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践
2月23日周一
08:00OpenRouter:Announcements(RSS)49OpenRouter 二月亮点发布:模型页面基准测试、免费模型路由与供应商成本透明度改进
08:00OpenRouter:Announcements(RSS)51OpenRouter 二月发布亮点:模型页面基准测试、免费模型路由与成本透明度改进
08:00OpenRouter:Announcements(RSS)43February Release Spotlight
2月22日周日
00:00智谱:研究(网页内嵌数据)精选GLM-5技术报告
2月20日周五
08:00OpenRouter:Announcements(RSS)38OpenRouter 2026年2月17日和19日故障公告
08:00OpenRouter:Announcements(RSS)31OpenRouter 在2026年2月17日和19日发生服务中断
08:00OpenRouter:Announcements(RSS)35OpenRouter 在 2026 年 2 月 17 日与 19 日的服务中断事件
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 在 NVIDIA GB300 NVL72 上实现 25 倍推理性能突破
2月19日周四
00:00LMSYS:Blog(Chatbot Arena 团队)GB300 NVL72部署DeepSeek R1优化方案:长上下文推理性能突破
2月18日周三
08:00Hugging Face:Blog(RSS)78精选使用 Gradio 的 gr.HTML 组件一键构建任意 Web 应用
2月16日周一
13:04公众号:智谱(GLM)25全网寻找"算力合伙人"
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang-Diffusion:面向生产级视频生成的高级优化
2月14日周六
00:00MiniMax:Blog(网页)44Forge:可扩展的智能体强化学习框架与算法
2月13日周五
08:00公众号:智谱(GLM)47智谱x摩尔线程:加速模型算力生态闭环
2月11日周三
18:55蚂蚁 inclusionAI:GitHub 新仓库61精选inclusionAI 发布高性能量化推理 GEMM 内核库 Humming
18:52蚂蚁 inclusionAI:GitHub 新仓库65精选inclusionAI发布新一代即时大模型Ling-2.5-1T
18:52蚂蚁 inclusionAI:GitHub 新仓库78精选inclusionAI发布全球首个开源万亿参数思维模型Ring-2.5-1T
00:00LMSYS:Blog(Chatbot Arena 团队)基于AMD MI300X的Qwen3及Qwen3-VL极致延迟优化实践
2月9日周一
08:00Hugging Face:Blog(RSS)76精选Transformers.js v4:现已在 NPM 上发布!
2月6日周五
17:06公众号:小米 MiMo35Hi, Sparse - 来自 Xiaomi MiMo 的混合稀疏注意力 HySparse
15:32美团 LongCat:HuggingFace 新模型美团 LongCat 发布 LongCat-Flash-Lite-FP8 模型
02:26Dwarkesh Patel:Podcast & Blog(RSS)Space GPUs 笔记
00:52Hugging Face:Blog(RSS)60ServiceNow AI 发布 SyGra Studio:低代码知识图谱构建平台
00:45Dwarkesh Patel:Podcast & Blog(RSS)精选埃隆·马斯克--「36个月内,部署AI最便宜的地方将是太空」
2月4日周三
18:40公众号:腾讯混元55腾讯混元开源HPC-Ops算子库,推理吞吐提升30%
1月30日周五
15:55蚂蚁 inclusionAI:GitHub 新仓库61精选高效离线推理框架 Flood:吞吐量显著领先,支持多模态与量化
1月29日周四
08:00Hugging Face:Blog(RSS)63发布 Daggr:以编程方式链接应用,以可视化方式进行检查
1月26日周一
00:00LMSYS:Blog(Chatbot Arena 团队)单卡H200部署1TB模型:INT4 QAT RL端到端实践
1月22日周四
00:00Moonshot AI:Kimi Blog精选Kimi 供应商验证器
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月11日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 宣布首日支持 NVIDIA Nemotron 3 Super,助力构建高效多智能体系统

SGLang 首日支持 NVIDIA Nemotron 3 Super 开源模型。该模型采用 120B 总参数、12B 激活参数的混合 MoE 架构,支持 1M token 超长上下文,专为多智能体协作设计。相比前代,吞吐量提升 5 倍,在 Artificial Analysis 智能指数上准确率提高 2 倍。集成 Transformer-Mamba 架构与多 Token 预测技术,兼容 B200、H100 等 GPU,提供完全开放的权重与数据集,适用于代码生成、工具调用等复杂推理场景。

智能体模型发布部署/工程
3月10日
08:00
Hugging Face:Blog(RSS)
精选83
保持令牌流动:16个开源强化学习库的教训

同步强化学习训练中,数据生成是主要瓶颈,如在320亿参数模型上生成3.2万令牌样本需数小时,导致训练GPU闲置。业界主流解决方案是将推理与训练解耦到不同GPU池,通过rollout缓冲区连接并异步传输权重。本文调研了16个实现此模式的开源库,从编排原语、缓冲区设计、权重同步协议、陈旧数据处理、部分rollout支持、LoRA支持及分布式训练后端七个维度比较。关键发现:Ray在编排层占主导(8/16库使用),NCCL广播是默认权重传输方式,LoRA训练支持普遍不足,而分布式MoE支持正成为新差异化特性。

推理论文/研究部署/工程

推荐理由:异步RL训练架构对比,助开发者优化训练效率与库选型。
08:00
Hugging Face:Blog(RSS)
精选83
Hugging Face Hub 正式推出 Storage Buckets 存储服务

Hugging Face Hub 发布 Storage Buckets,这是一种为机器学习工作流设计的可变、类 S3 的对象存储服务。它基于 Xet 存储后端,能对跨文件共享内容的 ML 工件进行高效去重,从而节省带宽、加速传输并降低存储成本。该服务还提供“预暖”功能,可将数据预先迁移至靠近计算资源的云区域,以提升分布式训练等场景的效率。目前支持 AWS 和 GCP,用户可通过 CLI 或 Python 库在 2 分钟内快速创建和同步存储桶。

Hugging Face产品更新数据/训练部署/工程

推荐理由:ML 开发者可高效管理训练数据和检查点,节省存储成本并加速工作流。
3月9日
08:00
Hugging Face:Blog(RSS)
精选76
Ulysses Sequence Parallelism: 实现百万令牌上下文的训练

研究团队发布了Ulysses序列并行方法,这是一种用于训练大型语言模型的新技术。该方法通过将长序列在设备间进行特定维度的分割与重组,实现了对极长上下文的并行处理。其核心变化在于能高效训练上下文长度高达百万令牌的模型,突破了现有方法在序列长度上的扩展瓶颈。这一进展使得在保持高训练效率的同时,处理书籍、长文档等超长文本成为可能,为推进AI的民主化与开源发展提供了关键技术支撑。

数据/训练论文/研究部署/工程

推荐理由:百万 token 训练的序列并行方案,长上下文模型训练的关键工程突破
3月5日
00:30
蚂蚁 inclusionAI:HuggingFace 新模型
35
inclusionAI/AReaL-tau2-airline-sft-30B 发布

inclusionAI团队发布了AReaL-tau2-airline-sft-30B模型。这是一个基于开源与开放科学理念开发的、参数规模达300亿的大型语言模型。该模型的发布旨在推动人工智能技术的进步与民主化,其具体训练数据与性能指标尚未在本次公告中详细披露。

开源/仓库模型发布部署/工程
3月4日
00:35
Google DeepMind:Blog(RSS)
Gemini 3.1 Flash-Lite:专为规模化智能构建

Google 发布 Gemini 3.1 Flash-Lite,为 Gemini 3 系列中速度最快、成本效益最高的模型,面向大规模智能应用场景优化。

DeepMindGoogle模型发布端侧
2月28日
20:30
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
OpenAI 与 Department of War 的协议

OpenAI 披露与 Department of War 达成的协议内容,详细划定 AI 部署的安全红线,明确相关法律保障措施,并具体说明 AI 系统接入机密环境的部署方式。

OpenAI安全/对齐部署/工程

推荐理由:OpenAI官方披露与军方合作的安全红线与机密部署框架
2月27日
21:02
公众号:月之暗面(Kimi)
32
Kimi API:用90%缓存命中率,把价格打到25%

Kimi K2.5 多模态模型的 API 输入成本,在 90% 缓存命中率下,实际价格为 1.03 元/M tokens,仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动,核心支撑是与清华大学合作研发的 Mooncake 推理架构,该架构获存储顶会 FAST 2025 最佳论文,并已开源。

开源/仓库推理教程/实践部署/工程
13:30
OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI 与 Amazon 宣布战略合作

OpenAI 与 Amazon 达成战略合作,将 Frontier 平台引入 AWS,涵盖 AI 基础设施、定制模型及企业 AI 智能体。

智能体OpenAI行业动态部署/工程
13:30
OpenAI:官网动态(RSS · 排除企业/客户案例)
Amazon Bedrock 推出面向 Agents 的有状态运行时环境

Amazon Bedrock 发布 Stateful Runtime for Agents,为 OpenAI 驱动的多步骤 AI 工作流提供持久化编排、记忆能力和安全执行环境。

智能体OpenAI产品更新部署/工程
2月26日
08:00
蚂蚁百灵:Developer Blog(网页)
精选86
Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践

为提升超长上下文下的计算效率,Ling 2.5架构将Ling 2.0的GQA改造为1:7的Lightning Attention与MLA混合线性注意力。此举旨在利用Lightning Attention提升长序列吞吐,并通过MLA极致压缩KV Cache。为确保改造后性能无损,团队设计了精细的平滑迁移训练策略,包括权重转换、QK Norm融合与Partial RoPE改造等多阶段加训。Scaling Law实验确定了1:7为最优混合比例,最终使万亿参数模型实现了更低的计算成本与更高的长文本推理效率。

开源生态推理论文/研究部署/工程
关联讨论 1 条蚂蚁百灵:Developer Blog(网页)
推荐理由:为大模型长上下文优化提供可落地的工程实践参考。
2月23日
08:00
OpenRouter:Announcements(RSS)
49
OpenRouter 二月亮点发布:模型页面基准测试、免费模型路由与供应商成本透明度改进

OpenRouter 在模型页面新增基准测试数据,方便用户对比不同模型的性能;推出免费模型路由服务,可自动选择最优供应商;同时改进了成本透明度,让各供应商之间的定价差异更加清晰。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
51
OpenRouter 二月发布亮点:模型页面基准测试、免费模型路由与成本透明度改进

OpenRouter 在模型页面上新增了基准测试数据,推出了新的免费模型路由功能,并改进了不同提供商之间的成本透明度。

产品更新推理部署/工程
08:00
OpenRouter:Announcements(RSS)
43
February Release Spotlight

本次发布在模型页面新增了基准测试功能,并推出了一款全新的免费模型路由工具。同时,平台提升了不同服务提供商之间的成本透明度,使用户能更清晰地比较和选择。这些更新旨在帮助开发者更高效地评估模型性能、优化调用路径并管理使用成本。

产品更新部署/工程
2月22日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5技术报告

GLM-5参数规模达7440亿,训练Token 28.5万亿。核心创新包括DSA稀疏注意力机制降低算力开销,异步RL基础设施与异步Agent RL算法提升长周期交互与自主决策能力。全面原生适配华为昇腾、寒武纪等七大国产芯片平台,通过W4A8混合精度量化与定制融合算子实现高效部署。模型支持复杂软件工程、终端操作、PPT生成等长程Agent任务,提供交错思考、保留思考等多种推理模式。

智能体模型发布编码部署/工程

推荐理由:智谱发布744B参数GLM-5,全面适配七大国产芯片平台,Agent与编码能力突出
2月20日
08:00
OpenRouter:Announcements(RSS)
38
OpenRouter 2026年2月17日和19日故障公告

OpenRouter 就 2 月 17 日和 19 日发生的服务中断发布说明,简述了事件经过以及为防止类似问题再次发生已采取的改进措施。公告未提供故障具体原因、影响范围或预防方案的细节。

行业动态部署/工程
08:00
OpenRouter:Announcements(RSS)
31
OpenRouter 在2026年2月17日和19日发生服务中断

OpenRouter 在2026年2月17日和19日遭遇两次服务中断。官方说明了中断原因及已采取的预防措施,以防止类似事件再次发生。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
35
OpenRouter 在 2026 年 2 月 17 日与 19 日的服务中断事件

OpenRouter 在 2026 年 2 月 17 日和 19 日遭遇了两次服务中断。故障源于其依赖的云服务提供商发生区域性网络问题,导致 API 请求失败。团队在数小时内恢复了服务,并通过实施多区域故障转移、增加备用云服务提供商以及改进监控警报机制来增强系统韧性。此次事件后,OpenRouter 的服务可用性目标已提升至 99.9%。

行业动态部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 在 NVIDIA GB300 NVL72 上实现 25 倍推理性能突破

SGLang 与 NVIDIA 合作,在最新 GB300 NVL72 服务器上实现相比 H200 最高 25 倍的推理性能提升。基于 Blackwell Ultra GPU 的架构升级包括 1.5 倍 FP4 算力和 2 倍 Softmax 吞吐量,结合 NVFP4 GEMM 低精度计算、计算通信重叠及与 NVIDIA Dynamo 的集成优化,DeepSeek R1 等 MoE 模型在 InferenceXv2 基准测试中达成突破性表现。同时,GB200 NVL72 平台性能在 4 个月内提升 8 倍,显著降低大模型部署的延迟与成本。

开源/仓库推理部署/工程
2月19日
00:00
LMSYS:Blog(Chatbot Arena 团队)
GB300 NVL72部署DeepSeek R1优化方案:长上下文推理性能突破

NVIDIA与SGLang团队发布DeepSeek R1-NVFP4在GB300 NVL72上的优化部署方案,针对128K/8K长上下文推理实现显著性能提升。通过PD分离、分块流水线并行、宽专家并行及多Token预测(MTP)等技术,系统在GB300上达226 TPS/GPU峰值吞吐量,较GB200提升1.53倍;相同延迟下性能领先1.4–1.6倍。MTP可再提升每用户TPS达1.87倍,128K预填充首Token延迟降至8.6秒。

DeepSeek开源/仓库推理部署/工程
2月18日
08:00
Hugging Face:Blog(RSS)
精选78
使用 Gradio 的 gr.HTML 组件一键构建任意 Web 应用

Gradio 的 gr.HTML 组件允许开发者通过单一 Python 文件快速构建和部署交互式 Web 应用,无需构建步骤。它通过 html、css 和 js_on_load 三个模板,将 Python 状态注入前端并实现与 JavaScript 的双向同步。应用示例涵盖生产力工具(如像素艺术番茄钟)、商业应用(如可拖拽看板)、创意组件(如抽奖转盘)以及专业的 ML 应用(如目标检测查看器)。组件可子类化复用,并能直接集成到模型流水线中,借助快速重载模式,从构思到部署仅需数秒。

Hugging Face产品更新部署/工程

推荐理由:ML 开发者可快速构建自定义 Web 应用,单文件部署,无需前端经验。
2月16日
13:04
公众号:智谱(GLM)
25
全网寻找"算力合伙人"
行业动态部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang-Diffusion:面向生产级视频生成的高级优化

SGLang-Diffusion发布六项生产级优化,包括Token级序列分片替代帧级方案,消除14.3%的padding开销并将通信量降至0.875倍;并行折叠技术解耦文本编码器与DiT的并行策略;并行VAE实现分布式编解码,消除高分辨率视频内存瓶颈。同时修复Cache-DiT多请求稳定性问题,优化视频保存I/O性能,并针对WanVideo融合LayerNorm内核。这些改进显著提升了视频生成框架的可扩展性、效率与稳定性。

开源/仓库视频部署/工程
2月14日
00:00
MiniMax:Blog(网页)
44
Forge:可扩展的智能体强化学习框架与算法

Forge是MiniMax开发的内部强化学习框架,旨在解决智能体强化学习中系统吞吐量、训练稳定性和智能体灵活性之间的核心矛盾。它通过灵活的系统架构、针对长程智能体优化的算法、尊重训练分布的异步调度以及激进的训练/推理优化,实现了突破。在MiniMax M2.5模型开发期间,Forge处理了超过十万个不同的真实世界智能体框架与环境,支持达200k的上下文长度,并实现了每日百万级样本的吞吐量。结合CISPO算法与复合奖励设计,Forge提升了模型在真实任务中的能力,支撑了M2.5的开发。

智能体推理论文/研究部署/工程
2月13日
08:00
公众号:智谱(GLM)
47
智谱x摩尔线程:加速模型算力生态闭环
行业动态部署/工程
2月11日
18:55
蚂蚁 inclusionAI:GitHub 新仓库
精选61
inclusionAI 发布高性能量化推理 GEMM 内核库 Humming

inclusionAI 开源了 Humming,这是一个专为量化推理设计的高性能、轻量级即时编译 GEMM 内核库。它支持在 FP16、BF16、FP8 等多种激活数据类型下进行 8 比特以下任意权重类型的推理,兼容多种量化策略与缩放类型,并同时支持稠密 GEMM 和混合专家 GEMM 运算。该库兼容 SM75+ 及以上的所有 NVIDIA GPU,在多种计算场景下能提供业界领先的吞吐量和效率。其依赖极简,仅需 PyTorch 和 NVCC,软件包大小仅约 100 KB,便于超轻量化部署。

开源/仓库推理部署/工程

推荐理由:蚂蚁 inclusionAI 开源了一个 100KB 级的量化 GEMM 库,支持从 INT1 到 FP8 全家桶,SM75+ 全覆盖,做推理部署的工程师值得花半小时跑一下 benchmark,看看能不能替换掉现有的 Marlin 方案。
18:52
蚂蚁 inclusionAI:GitHub 新仓库
精选65
inclusionAI发布新一代即时大模型Ling-2.5-1T

inclusionAI推出新一代旗舰即时模型Ling-2.5-1T,其总参数量达1T,活跃参数为63B,预训练语料扩展至29T tokens。该模型采用混合线性注意力架构,支持1M tokens上下文长度,并通过结合“正确性”与“过程冗余”的复合奖励机制,在相近的token效率下,其推理能力显著超越前代,接近前沿思维模型水平。经双向RL反馈和智能体验证等对齐策略优化,模型在创意写作和指令遵循任务上表现提升。它已兼容主流智能体平台,并在通用工具调用基准BFCL-V4上取得领先的开源性能。

开源/仓库推理模型发布部署/工程

推荐理由:蚂蚁把 1T 参数的即时模型开源了,63B 活跃参数加 1M 上下文,主打效率而非堆算力,对国内做开源推理模型的团队来说是个值得对标的基线。
18:52
蚂蚁 inclusionAI:GitHub 新仓库
精选78
inclusionAI发布全球首个开源万亿参数思维模型Ring-2.5-1T

inclusionAI发布了全球首个基于混合线性注意力架构的开源万亿参数思维模型Ring-2.5-1T。该模型通过高效的1:7 MLA与闪电线性注意力提升了推理速度与探索能力,并借助扩展的强化学习训练增强了深度思考和长程任务执行能力。其在IMO 2025和CMO 2025数学竞赛中均达到了金牌级别的性能。模型支持128K上下文长度,并可通过YaRN技术扩展至256K,现已于Hugging Face和ModelScope平台开源。部署方面,已支持SGLang,并提供了多GPU节点的服务器启动示例。

开源/仓库推理模型发布部署/工程

推荐理由:蚂蚁把万亿参数的开源 thinking model 放出来了,混合线性注意力架构是真新路线而非换皮,IMO/CMO 金牌级数学推理说明这不是纯堆参数。做开源大模型部署的团队值得认真看看它的架构选择。
00:00
LMSYS:Blog(Chatbot Arena 团队)
基于AMD MI300X的Qwen3及Qwen3-VL极致延迟优化实践

阿里云Qwen团队与AMD AI框架团队基于SGLang框架,在AMD MI300X GPU上实现了Qwen3-235B与Qwen3-VL-235B的极致延迟优化。通过PTPC FP8量化、TP8张量并行、MoE负载均衡及rocJPEG图像解码等技术,Qwen3-235B的TTFT和TPOT性能分别提升1.67倍与2.12倍,Qwen3-VL-235B分别提升1.62倍与1.90倍。相关优化代码已全面开源。

多模态论文/研究部署/工程
2月9日
08:00
Hugging Face:Blog(RSS)
精选76
Transformers.js v4:现已在 NPM 上发布!

Transformers.js 发布第四个主要版本 v4,该版本现已通过 NPM 包管理器提供。这一更新延续了项目通过开源与开放科学推动人工智能技术进步与普及的使命,使开发者能够更便捷地获取并在项目中集成这一机器学习库。

Hugging Face开源/仓库端侧部署/工程

推荐理由:浏览器和 Node.js 直接跑 HF 模型的大版本升级,前端开发者可零门槛接入 AI
2月6日
17:06
公众号:小米 MiMo
35
Hi, Sparse - 来自 Xiaomi MiMo 的混合稀疏注意力 HySparse
论文/研究部署/工程
15:32
美团 LongCat:HuggingFace 新模型
美团 LongCat 发布 LongCat-Flash-Lite-FP8 模型

美团 LongCat 团队发布 LongCat-Flash-Lite-FP8 模型。该版本采用 FP8(8位浮点)精度格式,属于 Flash-Lite 轻量化系列,旨在提升推理效率并降低显存占用。目前公开信息仅包含平台默认标语,具体参数规模、基准测试成绩及技术细节有待进一步披露。

Hugging Face模型发布端侧部署/工程
02:26
Dwarkesh Patel:Podcast & Blog(RSS)
Space GPUs 笔记

作者将为与 Elon Musk 会面所做的背景研究整理成这篇博客文章,核心议题围绕 Space GPUs 展开。文章记录了针对太空计算架构、星链或星舰相关技术基础设施的调研与思考过程,但正文未披露具体的 GPU 型号、性能参数、算力指标或产品发布细节。

xAI大佬观点部署/工程
00:52
Hugging Face:Blog(RSS)
60
ServiceNow AI 发布 SyGra Studio:低代码知识图谱构建平台

ServiceNow AI 在 Hugging Face 上推出了 SyGra Studio,这是一个低代码平台,旨在简化知识图谱的构建、可视化与分析。该平台允许用户通过直观界面整合多源数据,并支持与 GPT、Claude 等大语言模型集成,以增强语义理解和推理能力,显著降低了领域专家构建知识图谱的技术门槛。

Hugging Face开源/仓库部署/工程
00:45
Dwarkesh Patel:Podcast & Blog(RSS)
精选
埃隆·马斯克--「36个月内,部署AI最便宜的地方将是太空」

埃隆·马斯克预测,36个月后太空将成为部署人工智能成本最低的地点。他指出,长期专注于软件领域的从业者即将面临硬件层面的严峻挑战。这一判断暗示,随着AI算力需求爆发式增长,地面数据中心的能源消耗与散热限制将推高计算成本,而太空环境凭借丰富的太阳能和天然散热优势,可能在未来三年内成为AI基础设施部署的更经济选择。

xAI大佬观点部署/工程

推荐理由:Musk预判三年内太空将成为AI算力最优解,软件工程师需直面硬件物理约束
2月4日
18:40
公众号:腾讯混元
55
腾讯混元开源HPC-Ops算子库,推理吞吐提升30%

腾讯混元开源生产级高性能LLM推理核心算子库HPC-Ops,可带来30%的推理吞吐提升。

开源/仓库推理部署/工程
1月30日
15:55
蚂蚁 inclusionAI:GitHub 新仓库
精选61
高效离线推理框架 Flood:吞吐量显著领先,支持多模态与量化

Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销,并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明,其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时,解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代,已支持前瞻解码等新特性。

开源/仓库推理部署/工程

推荐理由:蚂蚁的 FLOOD 框架用流水线并行替代张量并行来压通信开销,实测吞吐比 vLLM 高 1.4 到 2.4 倍,做离线推理部署的团队值得花半小时跑一下 benchmark 看看自家场景能不能吃这个红利。
1月29日
08:00
Hugging Face:Blog(RSS)
63
发布 Daggr:以编程方式链接应用,以可视化方式进行检查

Meta AI 团队发布了开源工具 Daggr,旨在通过编程方式链接不同的 AI 应用,并支持对工作流进行可视化检查与调试。该工具允许开发者将多个模型(如 GPT、Claude、LLaMA)和数据处理步骤串联成自动化流程,同时提供直观的图形界面来监控数据流转和状态变化。此举是其通过开源与开放科学推进人工智能民主化进程的一部分。

智能体Hugging Face产品更新部署/工程
1月26日
00:00
LMSYS:Blog(Chatbot Arena 团队)
单卡H200部署1TB模型:INT4 QAT RL端到端实践

SGLang RL团队联合多家机构开源INT4量化感知训练端到端方案。受Kimi K2启发,训练阶段采用伪量化,推理阶段使用W4A16(INT4权重、BF16激活)真实量化,实现与BF16全精度相当的稳定性。该方案将约1TB模型压缩至单张H200(141GB)GPU即可完成rollout,彻底消除跨节点通信瓶颈,显著提升推理效率,为大规模模型训练提供高性能、低成本的开源实践参考。

数据/训练论文/研究部署/工程
1月22日
00:00
Moonshot AI:Kimi Blog
精选
Kimi 供应商验证器

Kimi 发布 K2.5 模型时开源 Kimi Vendor Verifier(KVV),用于验证第三方推理实现的准确性。针对开源模型部署渠道多样化导致的质量失控问题,KVV 提供六项关键基准测试,覆盖参数约束验证、多模态流水线、长输出压力测试、工具调用一致性及编程能力评估。项目与 vLLM/SGLang 社区合作修复根因,并提供预发布验证和实时更新的公开排行榜。完整评估在双 H20 8 卡服务器上约需 15 小时。

开源/仓库评测/基准部署/工程

推荐理由:Kimi开源Vendor Verifier,系统性解决开源模型第三方部署质量验证难题
‹ 上一页
1…678910…13
下一页 ›