AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1386 条
全部一手资讯X论文
标签「部署/工程」清除
12月1日周一
08:00Hugging Face:Blog(RSS)93精选Transformers v5:以简化模型定义驱动AI生态
00:00LMSYS:Blog(Chatbot Arena 团队)从研究到生产:在Vertex AI上用EAGLE-3加速开源大模型
11月26日周三
17:00蚂蚁 inclusionAI:GitHub 新仓库39inclusionAI/asystem-amem
11月25日周二
08:00Hugging Face:Blog(RSS)76精选从第一性原理看连续批处理
01:40Hugging Face:Blog(RSS)83精选构建深度研究智能体:实现顶尖水平的经验
00:08Hugging Face:Blog(RSS)73精选OVHcloud 成为 Hugging Face 官方推理服务提供商
00:00LMSYS:Blog(Chatbot Arena 团队)统一 FP8:超越混合精度,实现稳定且加速的 MoE RL
11月21日周五
08:00Hugging Face:Blog(RSS)80精选RapidFire AI 实现20倍更快的 TRL 微调
11月20日周四
08:00Hugging Face:Blog(RSS)83精选介绍 AnyLanguageModel:为苹果平台提供本地与云端大语言模型的统一 API
11月19日周三
08:00xAI:News(网页)精选Grok 与沙特阿拉伯达成全国性部署合作
00:00Mistral AI:News(网页)49Mistral AI 宣布在德国的长期战略承诺
00:00LMSYS:Blog(Chatbot Arena 团队)RadixArk发布Miles:面向大规模MoE训练的企业级强化学习框架
11月17日周一
10:43蚂蚁 inclusionAI:GitHub 新仓库39inclusionAI/asystem-awex
08:00Hugging Face:Blog(RSS)73精选使用Hugging Face轻松构建和共享ROCm内核
11月14日周五
00:00LMSYS:Blog(Chatbot Arena 团队)AutoRound 与 SGLang 正式集成,实现低比特量化模型高效推理
11月13日周四
08:00Hugging Face:Blog(RSS)88精选共建开放未来:Hugging Face与Google Cloud达成新合作
11月7日周五
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang Diffusion:加速视频与图像生成
11月5日周三
17:54蚂蚁 inclusionAI:GitHub 新仓库49inclusionAI/dFactory:轻松高效的 dLLM 微调
11月4日周二
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)74精选通过代码执行提升MCP智能体效率
00:00LMSYS:Blog(Chatbot Arena 团队)MiniMax M2 发布:从高效注意力回退全注意力的工业部署反思
10月29日周三
21:56Hugging Face:Blog(RSS)63论全球计算格局的变迁
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang-Jax:面向TPU的开源推理引擎
10月24日周五
00:00Mistral AI:News(网页)56介绍 Mistral AI Studio
10月23日周四
08:00OpenRouter:Announcements(RSS)45OpenRouter 探讨隐式缓存是否等同于 ZDR
08:00OpenRouter:Announcements(RSS)35OpenRouter 提出隐式缓存是否视为 ZDR 的问题
08:00OpenRouter:Announcements(RSS)47隐式缓存是提示词保留吗?
01:58Dwarkesh Patel:Podcast & Blog(RSS)精选AI基建扩张观察
10月22日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang集成KTransformers:基于AMX优化与专家延迟的MoE混合推理加速
10月21日周二
08:00OpenRouter:Announcements(RSS)40Provider Variance:OpenRouter 推出 Exacto
08:00OpenRouter:Announcements(RSS)52OpenRouter 推出 Exacto,聚焦模型在不同提供商的性能差异
08:00OpenRouter:Announcements(RSS)68精选Provider Variance: Introducing Exacto
10月14日周二
17:50蚂蚁 inclusionAI:GitHub 新仓库48inclusionAI/linghe
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化
10月13日周一
00:00LMSYS:Blog(Chatbot Arena 团队)NVIDIA DGX Spark深度评测:本地AI推理的新标杆
10月1日周三
08:00OpenRouter:Announcements(RSS)58精选OpenRouter 推出每月100万免费BYOK请求
08:00OpenRouter:Announcements(RSS)52OpenRouter 推出每月 100 万次免费 BYOK 请求
08:00OpenRouter:Announcements(RSS)60精选每月 100 万次免费 BYOK 请求
9月29日周一
16:07蚂蚁 inclusionAI:GitHub 新仓库58精选inclusionAI/dInfer
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang 发布首日支持 DeepSeek-V3.2:集成稀疏注意力机制
9月28日周日
00:00LMSYS:Blog(Chatbot Arena 团队)PD-Multiplexing:基于 GreenContext 解锁高有效吞吐 LLM 服务
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
12月1日
08:00
Hugging Face:Blog(RSS)
精选93
Transformers v5:以简化模型定义驱动AI生态

Transformers v5正式发布,其每日pip安装量从v4的2万次大幅提升至300万次以上,总安装量突破12亿次。模型架构数量从40个扩展至超400个,Hub上兼容的模型检查点从约1,000个增至75万个。新版本聚焦于简化模型定义、训练、推理与生产部署,通过引入AttentionInterface等模块化设计,显著降低了代码贡献与维护成本。此外,库将明确以PyTorch为唯一后端,逐步淘汰Flax/TensorFlow支持,并简化分词处理,以推动标准化与生态兼容性。

Hugging Face开源/仓库部署/工程

推荐理由:Transformers v5 大幅简化模型集成,提升训练推理效率,开发者可快速上手最新 AI 模型。
00:00
LMSYS:Blog(Chatbot Arena 团队)
从研究到生产:在Vertex AI上用EAGLE-3加速开源大模型

Vertex AI团队推出基于EAGLE-3的推测解码加速方案,通过为目标模型(如Llama 70B)添加仅占2-5%参数量的轻量级draft head,取代传统独立draft模型,实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路:构建合成数据生成管道解决版权与PII问题,采用离线训练策略预计算embeddings,并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用,最终解决CPU瓶颈问题实现规模化部署。

Google数据/训练论文/研究部署/工程
11月26日
17:00
蚂蚁 inclusionAI:GitHub 新仓库
39
inclusionAI/asystem-amem

该项目是一个针对NCCL通信库的扩展库,核心功能是高效卸载NCCL所分配的GPU内存。它通过将NCCL占用的显存资源进行智能释放与转移,旨在缓解大规模分布式训练中的显存压力,从而提升整体系统效率与资源利用率。

开源/仓库部署/工程
11月25日
08:00
Hugging Face:Blog(RSS)
精选76
从第一性原理看连续批处理

连续批处理是优化大型语言模型推理吞吐量的核心技术,通过并行处理多个对话并在生成完成后动态交换任务,以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发,文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度,但连续批处理允许查询、键和值张量容纳不同长度的令牌序列,从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本,适用于高负载服务场景,提升响应速度。

Hugging Face推理教程/实践部署/工程

推荐理由:深入理解LLM推理优化原理,助力高效模型部署。
01:40
Hugging Face:Blog(RSS)
精选83
构建深度研究智能体:实现顶尖水平的经验

Tavily团队因模型迭代重建了深度研究系统,核心是从工作流转向智能体架构,并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索,高效获取高相关度内容,避免信息过载。智能体设计模仿人类研究模式:收集信息、提炼要点、决策下一步,仅在生成最终交付物时引用原始资料,大幅减少令牌消耗,实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则,以构建能随模型进化而持续改进的智能体系统。

智能体Hugging Face教程/实践部署/工程

推荐理由:分享构建高效 AI 代理的实战技巧,优化上下文工程以提升性能。
00:08
Hugging Face:Blog(RSS)
精选73
OVHcloud 成为 Hugging Face 官方推理服务提供商

OVHcloud 现已正式加入 Hugging Face Hub 的推理服务提供商生态。用户可直接在模型页面使用其全托管、无服务器化的 AI 端点服务,便捷调用 gpt-oss、Qwen3 等热门开源模型。该服务基于欧洲数据中心,保障数据主权与低延迟,首 token 响应时间低于 200 毫秒,并支持结构化输出等高级功能。定价为每百万 token 0.04 欧元起,用户可选择使用自定义 API 密钥或通过 Hugging Face 账户路由请求并计费。

Hugging Face产品更新部署/工程

推荐理由:欧洲开发者可低成本合规访问前沿AI模型,推理选项更丰富。
00:00
LMSYS:Blog(Chatbot Arena 团队)
统一 FP8:超越混合精度,实现稳定且加速的 MoE RL

InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明,MoE 模型在使用 BF16 训练与 FP8 推理时,规模越大训练-推理差异越显著;统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性,显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型,并在 miles 框架中开箱即用。

数据/训练论文/研究部署/工程
11月21日
08:00
Hugging Face:Blog(RSS)
精选80
RapidFire AI 实现20倍更快的 TRL 微调

RapidFire AI 发布了一套加速 TRL 微调的工具,通过自适应分块调度方案,允许在单个或多个 GPU 上并发启动多个训练配置并实时比较。内部基准测试显示,实验吞吐量比顺序执行高出约 16 至 24 倍。该工具提供即插即用的 TRL 配置包装器、分块并发训练、支持实时停止/恢复/克隆修改的交互式控制操作、自动多 GPU 编排以及 MLflow 仪表板,使用户能快速筛选最优配置,极大提升微调效率。

Hugging Face开源/仓库数据/训练部署/工程

推荐理由:开发者可并发测试多个微调配置,大幅提升实验效率。
11月20日
08:00
Hugging Face:Blog(RSS)
精选83
介绍 AnyLanguageModel:为苹果平台提供本地与云端大语言模型的统一 API

AnyLanguageModel 是一个 Swift 包,旨在为苹果平台上的大语言模型集成提供统一解决方案。它作为苹果原生 Foundation Models 框架的替代品,允许开发者通过相同的 API 接口,灵活调用本地模型(如通过 Core ML、MLX、llama.cpp 运行)与云端服务(如 OpenAI、Anthropic)。该方案复用苹果精心设计的 API 作为基础,大幅降低了在不同模型提供商之间切换的代码修改成本,并利用 Swift 的包特性功能避免依赖膨胀,从而简化开发流程,鼓励对本地开源模型的探索。

开源/仓库开源生态部署/工程

推荐理由:Apple开发者可一键切换本地与云端模型,大幅降低AI应用开发门槛。
11月19日
08:00
xAI:News(网页)
精选
Grok 与沙特阿拉伯达成全国性部署合作

xAI 与沙特阿拉伯及 PIF 旗下 HUMAIN 签署框架协议,将在沙特建设超大规模 GPU 数据中心,并全国范围内部署 Grok 至 HUMAIN ONE 平台,为政府和企业提供实时智能与自主工作流。这是 Grok 首次在国家层面全面落地。

智能体xAI行业动态部署/工程

推荐理由:xAI与沙特达成国家级合作,将全国部署Grok并建设超大规模AI算力基础设施
00:00
Mistral AI:News(网页)
49
Mistral AI 宣布在德国的长期战略承诺

Mistral AI宣布在德国的多项长期战略承诺。公司正与SAP建立多年期合作伙伴关系,将Mistral模型整合至SAP AI Foundation,为德国和欧洲构建完全自主可控的AI技术栈,并针对复杂行业和管理部门共同开发解决方案。同时,与Helsing合作加速开发用于现实防务与安全应用的视觉语言动作模型,以支持欧洲的战略自主性。Mistral AI计划未来几个月内在德国设立办公室,并大幅扩充本地团队,旨在让德国乃至欧洲的客户能够拥有自己的AI发展路径,无需牺牲战略自主性或将关键数据送出境外。

数据/训练行业动态部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
RadixArk发布Miles:面向大规模MoE训练的企业级强化学习框架

RadixArk团队发布企业级强化学习框架Miles,专为大规模MoE训练设计。该框架基于曾支撑GLM-4.6训练的slime构建,首创True On-Policy技术,实现训练与推理零KL散度对齐。新版本引入在线草稿模型推测解码,rollout加速超25%,并针对GB300等新硬件优化内存管理,支持Flash Attention 3与DeepGEMM。框架采用模块化架构,四大核心组件完全解耦,兼顾研究灵活性与企业级稳定性。

开源/仓库数据/训练部署/工程
11月17日
10:43
蚂蚁 inclusionAI:GitHub 新仓库
39
inclusionAI/asystem-awex

inclusionAI 发布了 asystem-awex,这是一个专为强化学习工作流设计的高性能训练-推理权重同步框架。该框架的核心目标是实现从训练到推理的秒级参数更新,从而显著提升强化学习模型的迭代效率与部署实时性。它解决了传统流程中参数同步延迟高的问题,为需要快速在线学习和决策的应用场景提供了关键技术支撑。

开源/仓库数据/训练部署/工程
08:00
Hugging Face:Blog(RSS)
精选73
使用Hugging Face轻松构建和共享ROCm内核

Hugging Face的kernels库简化了高性能深度学习内核的构建与共享,支持CUDA、ROCm等多种后端。本文以ROCm兼容内核为例,展示如何利用kernel-builder工具构建、测试并共享内核。以RadeonFlow的GEMM内核为具体案例,该内核是针对AMD Instinct MI300X GPU优化的FP8块状矩阵乘法实现,采用e4m3fnuz浮点格式和每块缩放因子以保持低精度计算准确性,并在2025年AMD开发者挑战赛中获最高奖。指南涵盖项目设置、构建配置及通过kernels社区分享的完整步骤。

Hugging Face开源生态教程/实践部署/工程

推荐理由:AMD GPU开发者可快速上手构建高性能AI内核,提升部署效率。
11月14日
00:00
LMSYS:Blog(Chatbot Arena 团队)
AutoRound 与 SGLang 正式集成,实现低比特量化模型高效推理

AutoRound 与 SGLang 宣布合作,支持 INT2-INT8 低比特量化模型的高效推理部署。基于符号梯度优化算法,AutoRound 在 INT2 精度下准确率较主流基线提升 2.1 倍,单 GPU 量化 72B 模型仅需 37 分钟。开发者可将 GPTQ、AWQ 或 GGUF 格式的量化模型直接部署至 SGLang v0.5.4.post2+,兼容 LLM、VLM 及 MoE 架构,在最小精度损失下显著降低推理延迟。

开源/仓库部署/工程
11月13日
08:00
Hugging Face:Blog(RSS)
精选88
共建开放未来:Hugging Face与Google Cloud达成新合作

Hugging Face与Google Cloud宣布建立深度战略合作,旨在将Google Cloud打造为使用开放模型的最佳平台。双方将合作构建CDN网关,把Hugging Face上的模型和数据集直接缓存在Google Cloud上,显著提升下载速度并增强供应链稳定性。Google Cloud客户在Vertex AI、GKE等服务中部署模型时将获得更快的首次响应。同时,Hugging Face的1000万开发者将受益于更多新型计算实例、价格下降以及通过Google安全技术强化的模型安全性。此次合作还将推动TPU在开放模型开发中的普及应用。

GoogleHugging Face开源生态行业动态

推荐理由:开发者将享受更快的模型下载、TPU 原生支持和增强安全,简化 AI 部署流程。
11月7日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang Diffusion:加速视频与图像生成

SGLang 推出 Diffusion 推理引擎,将高性能 LLM 服务架构扩展至视频与图像生成领域。该系统支持 Wan、Hunyuan、Qwen-Image、Flux 等主流开源扩散模型,在 H100/H200 GPU 上实现 1.2-5.9 倍加速。通过 ComposedPipelineBase 架构抽象与统一序列并行技术,提供 OpenAI 兼容 API、CLI 及 Python 接口,并与 FastVideo 合作覆盖从训练到部署的全流程。

图像生成开源/仓库视频部署/工程
11月5日
17:54
蚂蚁 inclusionAI:GitHub 新仓库
49
inclusionAI/dFactory:轻松高效的 dLLM 微调

inclusionAI 发布了 dFactory 平台,旨在简化去中心化大语言模型的微调过程。该平台通过自动化工作流和优化的资源调度,显著降低了技术门槛与计算成本。用户无需深厚专业知识,即可利用分布式计算资源对如 LLaMA 等模型进行高效定制。关键改进包括将典型微调任务时间缩短约 40%,并支持多节点协作训练,提升了模型迭代效率。

开源/仓库数据/训练部署/工程
11月4日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选74
通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议(MCP)连接的工具数量激增,传统预先加载所有工具定义并通过上下文传递中间结果的方法,导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间,且中间结果(如完整会议记录)在多次工具调用间重复传递,额外消耗数万令牌。文章提出解决方案:将MCP服务器呈现为代码API,使智能体能按需加载工具,并在执行环境中处理数据,仅将精简结果传回模型,从而显著减少令牌消耗、提升效率并降低成本。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」,用代码执行替代直接工具调用,token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition,这篇是必读的架构升级指南。
00:00
LMSYS:Blog(Chatbot Arena 团队)
MiniMax M2 发布:从高效注意力回退全注意力的工业部署反思

MiniMax发布新一代旗舰模型M2,采用230B总参数、10B激活参数的MoE架构,已在SGLang平台提供首日支持。团队从M1的Lightning Attention回退至Full Attention,指出高效注意力机制虽能降低理论计算复杂度,但在实际工业部署中面临多重挑战:标准基准无法暴露多跳推理等深层能力缺陷,与前缀缓存、推测解码等系统兼容性不足,且受内存带宽限制难以兑现理论效率。MiniMax认为,开放场景部署中模型质量优先于计算效率。

智能体论文/研究部署/工程
10月29日
21:56
Hugging Face:Blog(RSS)
63
论全球计算格局的变迁

Hugging Face发布博客,分析了全球AI计算资源的分布与流动趋势。当前格局正从高度集中转向更为分散,开源模型与社区驱动的计算集群影响力增强。关键变化包括企业专用计算与公共云资源的比例调整,以及新兴地区计算中心的崛起。这一变迁直接影响了大型语言模型(如GPT、Claude、LLaMA)的开发成本与可及性,预示着未来AI创新将更依赖于多元化的计算基础设施。

现象/趋势部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang-Jax:面向TPU的开源推理引擎

SGLang团队发布基于Jax和XLA的开源推理引擎SGLang-Jax,专为原生TPU推理优化。该引擎采用纯Jax架构,集成Ragged Paged Attention v3、EAGLE推测解码及MoE内核优化,支持连续批处理与前缀缓存。关键性能指标显示,重叠调度器将Qwen3-32B批处理间隔从12毫秒压缩至38微秒,EPMoE策略带来3-4倍延迟加速。基准测试表明,其性能匹配或超越现有TPU推理方案。

开源/仓库部署/工程
10月24日
00:00
Mistral AI:News(网页)
56
介绍 Mistral AI Studio

企业AI团队常将原型卡在生产环节,主要瓶颈在于缺乏一套系统来跟踪模型输出变化、复现结果、监控真实使用数据、运行领域特定评估、私有增量微调模型以及满足安全合规的部署。Mistral AI Studio 作为生产级AI平台,基于 Mistral 运营大规模系统的经验而构建,为团队提供构建、评估和运行AI所需的基础设施。其核心功能包括:用于数据驱动闭环的可观测性、基于 Temporal 的有状态智能体运行时,以及用于模型和提示词版本管理的 AI 注册表。

智能体产品更新部署/工程
10月23日
08:00
OpenRouter:Announcements(RSS)
45
OpenRouter 探讨隐式缓存是否等同于 ZDR

OpenRouter 在公告中提出问题:是否应将提供隐式缓存(implicit caching)的供应商视为“ZDR”?

教程/实践部署/工程
08:00
OpenRouter:Announcements(RSS)
35
OpenRouter 提出隐式缓存是否视为 ZDR 的问题

OpenRouter 向客户提问:是否应将提供隐式缓存的供应商视为“ZDR”(零数据保留)?该公告未提供更多背景或结论。

行业动态部署/工程
08:00
OpenRouter:Announcements(RSS)
47
隐式缓存是提示词保留吗?

文章探讨了AI服务提供商采用的隐式缓存技术是否应被视为零数据保留策略。隐式缓存指服务商为提高响应速度与效率,在系统内部临时存储用户提示词与生成结果,而非明确告知用户。这引发了数据隐私与透明度争议,关键问题在于这种未声明的缓存行为是否违背了用户对数据立即删除的预期。客户需评估该技术是否满足其数据保留要求,尤其在处理敏感信息时。

安全/对齐行业动态部署/工程
01:58
Dwarkesh Patel:Podcast & Blog(RSS)
精选
AI基建扩张观察

AI基础设施建设正面临晶圆厂资本支出过剩的风险,同时算力扩张带来每周1吉瓦的能源消耗压力。文章指出,在长周期基础设施竞赛中,中国凭借产业链整合优势占据有利地位。分析涵盖了AI基建中的产能过剩隐忧、电力瓶颈挑战,以及地缘政治背景下的技术长跑格局,揭示了算力军备竞赛背后的资本与能源约束。

大佬观点部署/工程

推荐理由:AI基建泡沫与地缘博弈的冷思考,长期格局研判必读
10月22日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang集成KTransformers:基于AMX优化与专家延迟的MoE混合推理加速

SGLang现已集成KTransformers后端,为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核,使单路Xeon算力达21.3 TFLOPS,较PyTorch原生实现快3.9倍;通过NUMA感知张量并行和CUDA Graph调度,双路服务器解码吞吐量提升63%,GPU内核启动开销从20%降至接近零;专家延迟机制支持跨层重排计算以重叠CPU与GPU执行,在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。

DeepSeek开源/仓库推理部署/工程
10月21日
08:00
OpenRouter:Announcements(RSS)
40
Provider Variance:OpenRouter 推出 Exacto

OpenRouter 推出 Exacto,旨在回答同一个大语言模型在不同 AI 服务供应商上是否表现不同的问题。该工具帮助用户量化供应商间的性能差异,为模型部署选择提供参考。

MCP/工具产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
52
OpenRouter 推出 Exacto,聚焦模型在不同提供商的性能差异

OpenRouter 发布 Exacto 功能,旨在解决同一模型在不同 AI 提供商之间的表现差异问题。该工具帮助用户识别并评估不同部署环境下的模型输出质量变化。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
精选68
Provider Variance: Introducing Exacto

同一AI模型在不同服务提供商上的性能表现可能存在显著差异。为了量化这种“提供商方差”,研究团队推出了Exacto评估平台。该平台通过标准化测试揭示,即使是相同的模型(如GPT-4、Claude或LLaMA),在不同云服务或API提供商处运行时,其输出质量、响应速度和稳定性都可能产生高达30%的波动。这一发现对企业和开发者的模型部署策略具有直接影响,强调在选择服务商时需进行针对性性能基准测试。

产品更新部署/工程

推荐理由:OpenRouter 推出 Exacto,直接回答了开发者最头疼的问题:同一个模型换家供应商跑出来的结果到底差多少。做 Agent 或多模型路由的产品人,这个工具能帮你少踩很多坑。
10月14日
17:50
蚂蚁 inclusionAI:GitHub 新仓库
48
inclusionAI/linghe

inclusionAI 开源了专为大语言模型训练设计的高性能内核库 Linghe。该库旨在优化 LLM 训练过程中的计算效率,通过底层内核创新提升训练速度并降低资源消耗。Linghe 支持当前主流的 Transformer 架构模型,为开发者和研究者提供了更高效的训练工具,有望加速 LLM 的开发与迭代进程。

开源/仓库数据/训练部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化

SGLang与NVIDIA针对Blackwell架构(GB200 NVL72)深度优化,在DeepSeek R1模型上实现每GPU 26k输入与13k输出tokens/秒的高吞吐。通过Prefill-Decode分离架构、大规模专家并行及FP8/NVFP4内核优化,SGLang在SemiAnalysis InferenceMAX基准测试中较Hopper代际获得4倍性能提升,并被选为该基准在NVIDIA与AMD硬件上运行DeepSeek模型的默认推理引擎。

DeepSeek开源/仓库部署/工程
10月13日
00:00
LMSYS:Blog(Chatbot Arena 团队)
NVIDIA DGX Spark深度评测:本地AI推理的新标杆

NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片,在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型,双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽,该设备更适合小模型批处理推理与AI原型开发,而非大模型生产部署。支持SGLang和Ollama框架,为开发者提供本地AI开发新选择。

端侧评测/基准部署/工程
10月1日
08:00
OpenRouter:Announcements(RSS)
精选58
OpenRouter 推出每月100万免费BYOK请求

OpenRouter 向每位客户每月提供100万次“Bring Your Own Key”(BYOK)请求,完全免费。

智能体产品更新部署/工程

推荐理由:这个公告虽然旧了,但 OpenRouter 的 BYOK 免费额度至今仍在,对想低成本折腾模型的个人开发者来说,每月 100 万次请求比很多付费计划都香。
08:00
OpenRouter:Announcements(RSS)
52
OpenRouter 推出每月 100 万次免费 BYOK 请求

OpenRouter 为每位客户每月免费提供 100 万次 BYOK(Bring Your Own Key)请求,用户可携带自有 API 密钥使用服务。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
精选60
每月 100 万次免费 BYOK 请求

所有客户每月可免费获得 100 万次“自带密钥”(BYOK)请求。这一政策将 BYOK 功能从付费服务转变为免费提供的基础配额,大幅降低了企业使用自有密钥管理数据安全的技术与成本门槛。免费额度覆盖了绝大多数中小规模企业的典型月请求量。

产品更新部署/工程

推荐理由:OpenRouter 给 BYOK 用户每月免 100 万次请求,对用自己 API key 跑 Agent 的开发者来说是实打实的成本减免,值得顺手薅。
9月29日
16:07
蚂蚁 inclusionAI:GitHub 新仓库
精选58
inclusionAI/dInfer

inclusionAI团队发布了dInfer,一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术,显著提升了推理效率,能够更快地生成文本,同时降低计算成本,为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。

开源/仓库推理部署/工程

推荐理由:蚂蚁把扩散语言模型的推理框架开源了,这类模型的推理效率一直是落地瓶颈,做端侧或低成本部署的团队值得看看能不能接上。
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang 发布首日支持 DeepSeek-V3.2:集成稀疏注意力机制

SGLang 在发布首日即支持 DeepSeek-V3.2,该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk),在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端,并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。

DeepSeek开源/仓库开源生态部署/工程
9月28日
00:00
LMSYS:Blog(Chatbot Arena 团队)
PD-Multiplexing:基于 GreenContext 解锁高有效吞吐 LLM 服务

SGLang 团队推出 PD-Multiplexing 服务范式,利用 NVIDIA GreenContext(CUDA 12.4+)的 GPU 细粒度分区能力,通过单卡内部空间共享多路复用 prefill 与 decode 阶段,消除传统 PD 分离的跨实例 KV 缓存迁移开销。该方案将 prefill 切分为小块以消除 GPU 气泡,结合离线训练的延迟预测器实现 SLO 感知调度,动态分配 SM 资源以适应负载变化,从而在满足 TTFT 与 ITL 延迟 SLO 的同时显著提升模型即服务(MaaS)的 goodput。

开源/仓库部署/工程
‹ 上一页
1…303132333435
下一页 ›