AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1385 条
全部一手资讯X论文
标签「部署/工程」清除
12月20日周五
08:00OpenRouter:Announcements(RSS)47OpenRouter 推出"自带 API 密钥"功能,整合提供商限额与云积分
08:00OpenRouter:Announcements(RSS)49OpenRouter 推出 Bring Your Own API Keys 功能,允许自带密钥并整合限制与积分
08:00OpenRouter:Announcements(RSS)49OpenRouter 推出 Crypto Payments API
08:00OpenRouter:Announcements(RSS)45Bring Your Own API Keys
08:00OpenRouter:Announcements(RSS)29Crypto Payments API
12月12日周四
08:00OpenRouter:Announcements(RSS)39Structured Outputs 与免费的 Gemini Flash 2.0
12月5日周四
08:00OpenRouter:Announcements(RSS)33Author Pages & Amazon Nova
12月4日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang v0.4:零开销批处理调度器、缓存感知负载均衡器及更快的结构化输出
11月7日周四
00:00Mistral AI:News(网页)52Mistral Batch API 2024年11月7日 Mistral AI团队
9月19日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)72精选引入上下文检索:大幅提升RAG系统准确性的新方法
9月16日周一
00:00Runway:News(网页)Runway 推出 Gen-3 Alpha Turbo API
9月4日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang v0.3 发布:DeepSeek MLA 吞吐量提升 7 倍,支持多模态视频理解
8月7日周三
00:00Mistral AI:News(网页)42Mistral AI 平台更新
7月26日周五
15:00公众号:DeepSeek(深度求索)44DeepSeek API 升级,支持续写、FIM、Function Calling、JSON Output
7月25日周四
00:00LMSYS:Blog(Chatbot Arena 团队)使用 SGLang Runtime 实现更快的开源 Llama3 推理(对比 TensorRT-LLM、vLLM)
7月1日周一
00:00LMSYS:Blog(Chatbot Arena 团队)RouteLLM:面向高性价比 LLM 路由的开源框架
2月5日周一
00:00LMSYS:Blog(Chatbot Arena 团队)基于压缩有限状态机实现本地LLM快速JSON解码
1月17日周三
00:00LMSYS:Blog(Chatbot Arena 团队)利用 RadixAttention 与 SGLang 实现快速且灵活的 LLM 推理
11月21日周二
00:00LMSYS:Blog(Chatbot Arena 团队)利用 Lookahead Decoding 打破 LLM 推理的顺序依赖
11月15日周三
00:00LMSYS:Blog(Chatbot Arena 团队)服务数千个并发 LoRA 适配器的方案
5月23日周二
09:00EleutherAI:BlogSafetensors 通过安全审计并将成为默认格式
4月18日周二
07:00EleutherAI:BlogTransformer 数学基础:计算与内存入门
3月22日周三
00:00Runway:News(网页)与 AWS 合作扩展内部研究基础设施
1月11日周三
01:00Lilian Weng:Lil'Log(RSS)48大型Transformer模型推理优化
9月24日周五
08:00Lilian Weng:Lil'Log(RSS)47如何在大量GPU上训练超大规模模型?
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
12月20日
08:00
OpenRouter:Announcements(RSS)
47
OpenRouter 推出"自带 API 密钥"功能,整合提供商限额与云积分

OpenRouter 允许用户自带 API 密钥,将来自不同提供商的限额或云积分整合到平台中,并统一管理分析数据。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
49
OpenRouter 推出 Bring Your Own API Keys 功能,允许自带密钥并整合限制与积分

OpenRouter 上线 Bring Your Own API Keys 功能,用户可结合自有提供商的调用限制或云积分,并在平台端统一分析使用情况。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
49
OpenRouter 推出 Crypto Payments API

OpenRouter 推出 Crypto Payments API,这是首个能让任何大语言模型(LLM)编写链上支付脚本的接口。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
45
Bring Your Own API Keys

OpenRouter推出新功能,允许用户绑定自己的提供商API密钥或云服务积分。此举将用户的现有额度与OpenRouter平台相结合,统一管理不同模型(如GPT、Claude、LLaMA)的使用。用户可以在一个界面下集中监控和分析所有API调用情况,优化资源分配与成本控制。

产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
29
Crypto Payments API

该API首次实现了为任意大语言模型(如GPT、Claude、LLaMA)编写链上支付脚本的功能。它使LLM能够直接发起和处理加密货币支付,标志着AI与区块链交易整合的关键进展。这一工具将自动化支付流程引入LLM应用生态,为开发者提供了标准化的加密支付集成方案。

产品更新部署/工程
12月12日
08:00
OpenRouter:Announcements(RSS)
39
Structured Outputs 与免费的 Gemini Flash 2.0

OpenAI 的 GPT-4o 模型和 Fireworks 模型现已支持结构化输出功能,开发者可以更可靠地获取格式化的 JSON 数据。与此同时,谷歌宣布其 Gemini Flash 2.0 模型转为免费提供,这为开发者和研究者提供了一个新的、无需付费的高性能大语言模型选项。这两项进展旨在降低应用开发门槛,并提升模型响应的可控性与实用性。

产品更新部署/工程
12月5日
08:00
OpenRouter:Announcements(RSS)
33
Author Pages & Amazon Nova

亚马逊发布了全新的Nova模型家族。此次发布标志着亚马逊在大型语言模型领域推出了新的产品线,旨在增强其AI服务能力。新模型家族预计将在理解能力、生成效率等方面进行关键升级,以应对当前市场上GPT、Claude、LLaMA等模型的竞争。具体性能指标和细节尚未完全披露,但此举明确显示了亚马逊加速布局生成式AI市场的决心。

产品更新部署/工程
12月4日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang v0.4:零开销批处理调度器、缓存感知负载均衡器及更快的结构化输出

SGLang v0.4版本正式发布,通过零开销批处理调度器将CPU调度与GPU计算重叠,吞吐量提升1.1倍,较其他基线快1.3倍。新版本引入缓存感知负载均衡器,预测KV缓存命中率,使吞吐量最高提升1.9倍,缓存命中率从20%提升至75%。针对DeepSeek模型的数据并行注意力机制带来1.9倍解码吞吐量提升,XGrammar结构化输出速度提升达10倍。

DeepSeek开源/仓库部署/工程
11月7日
00:00
Mistral AI:News(网页)
52
Mistral Batch API 2024年11月7日 Mistral AI团队

Mistral AI 推出 Mistral Batch API,为开发者提供一种处理大量请求的高效方式,其成本比同步 API 调用降低 50%。用户只需上传批处理文件,待处理完成后下载输出文件即可。该 API 适用于客户反馈分析、文档批量总结与翻译、向量嵌入生成等场景,现已在 La Plateforme 上对所有模型开放,每个工作区并发请求限制为 100 万。

产品更新部署/工程
9月19日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
引入上下文检索:大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文,导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术,在检索前为文本块添加解释性上下文,能将检索失败次数减少49%,结合重排序后降幅可达67%,显著提升了下游任务性能。对于小于20万token的小型知识库,可直接将其完整内容放入提示词,结合Claude的提示词缓存功能,能降低超过2倍的延迟和高达90%的成本。对于大型知识库,上下文检索则提供了可扩展的解决方案。

Anthropic检索增强教程/实践部署/工程

推荐理由:Anthropic 把 RAG 检索失败率砍了 67%,方法不复杂但数据扎实,做知识库的开发者可以直接抄 cookbook 上手,是那种读完当天就能改进生产环境的实用帖。
9月16日
00:00
Runway:News(网页)
Runway 推出 Gen-3 Alpha Turbo API

Runway 正式发布 Gen-3 Alpha Turbo API,开发者可将其视频生成能力集成至各类应用。目前采取分阶段开放策略,已向 Omnicom 等战略合作伙伴提供访问权限,现阶段主要面向大型团队和组织,未来几周将逐步扩大开放范围。

产品更新视频部署/工程
9月4日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang v0.3 发布:DeepSeek MLA 吞吐量提升 7 倍,支持多模态视频理解

SGLang v0.3 正式发布,实现显著性能提升与新架构支持。针对 DeepSeek MLA 机制深度优化,采用权重吸收、FP8 量化等技术,在 H100 GPU 上吞吐量最高提升 7 倍。集成 torch.compile 使批量 1-32 场景延迟降低 1.5 倍。新增 LLaVA-OneVision 支持,可处理交错文本、多图像及视频输入,速度提升 4.5 倍。同时全面支持 Gemma-2 的 8K 上下文与交错窗口注意力,突破 4K 限制。

DeepSeek开源/仓库部署/工程
8月7日
00:00
Mistral AI:News(网页)
42
Mistral AI 平台更新

Mistral AI 于 2024 年 8 月 7 日在 La Plateforme 平台发布更新,允许开发者对旗舰模型 Mistral Large 2 与专业模型 Codestral 进行定制,方式包括基础提示、少样本提示或微调,并支持自带数据集。同时,平台推出了能封装模型的早期版本智能体功能,可通过 Le Chat 或 API 使用。此外,发布了稳定的 mistralai 1.0 SDK,支持 Python 和 Typescript。

智能体产品更新部署/工程
7月26日
15:00
公众号:DeepSeek(深度求索)
44
DeepSeek API 升级,支持续写、FIM、Function Calling、JSON Output

DeepSeek API 新增续写、FIM、Function Calling 和 JSON Output 功能,所有新功能均可通过 deepseek-chat 和 deepseek-coder 模型调用。

DeepSeek产品更新推理部署/工程
7月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
使用 SGLang Runtime 实现更快的开源 Llama3 推理(对比 TensorRT-LLM、vLLM)

LMSYS.org 推出 SGLang Runtime v0.2,一个纯 Python 开发的开源 LLM 推理引擎。在覆盖 Llama-8B 至 405B 的基准测试中,该系统在 A100 和 H100 GPU 上展现出优于 vLLM 最高 3.1 倍的离线吞吐量(Llama-70B 场景),并与 TensorRT-LLM 性能相当。SGLang 支持 FP8/FP16 精度,核心调度器仅约 4000 行代码,已在 Chatbot Arena 等平台累计生成数万亿 token。

开源/仓库开源生态部署/工程
7月1日
00:00
LMSYS:Blog(Chatbot Arena 团队)
RouteLLM:面向高性价比 LLM 路由的开源框架

RouteLLM 是一个基于偏好数据训练的开源 LLM 路由框架,通过智能分配查询至强模型(如 GPT-4)或弱模型(如 Mixtral 8x7B)来平衡成本与性能。该框架提供四种路由器,其中矩阵分解模型在 MT Bench 上表现最优,仅需调用 14% 的 GPT-4 即可达到其 95% 的性能,整体成本降低 75%。在 MMLU 和 GSM8K 基准测试中,RouteLLM 分别实现 45% 和 35% 的成本削减,同时保持 95% 的 GPT-4 水平。项目已开源全部代码与数据集。

开源/仓库数据/训练部署/工程
2月5日
00:00
LMSYS:Blog(Chatbot Arena 团队)
基于压缩有限状态机实现本地LLM快速JSON解码

SGLang团队提出Jump-Forward Decoding算法,通过压缩有限状态机中的单一路径,将多token预填充合并为单步执行,突破传统方法逐token解码的限制。该技术兼容任意正则表达式与JSON/YAML schema,相比guidance+llama.cpp和outlines+vLLM等现有方案,延迟降低2倍,吞吐量提升2.5倍,使约束解码速度超越普通解码。

开源/仓库部署/工程
1月17日
00:00
LMSYS:Blog(Chatbot Arena 团队)
利用 RadixAttention 与 SGLang 实现快速且灵活的 LLM 推理

研究团队发布 SGLang 结构化生成语言及后端技术 RadixAttention,通过基数树数据结构自动管理并重用 KV 缓存,显著减少多轮生成调用中的冗余计算。在 NVIDIA A10G GPU 上运行 Llama-7B 和 Mixtral-8x7B 模型的测试显示,该系统吞吐量较 Guidance 和 vLLM 等现有系统提升最高达 5 倍。前端提供嵌入 Python 的领域特定语言,支持解释器与编译器双模式执行,有效提升复杂 LLM 程序的编程与执行效率。

开源/仓库部署/工程
11月21日
00:00
LMSYS:Blog(Chatbot Arena 团队)
利用 Lookahead Decoding 打破 LLM 推理的顺序依赖

研究团队发布 lookahead decoding 并行解码算法,基于 Jacobi 迭代同时提取验证 n-grams,无需草稿模型即可打破自回归解码的顺序依赖。该方法可将 LLaMA-2-Chat 7B 等模型的推理延迟降低 1.5 至 2.3 倍,解码步骤数随每步 log(FLOPs) 线性减少,且已与 HuggingFace Transformers 兼容,仅需数行代码即可集成。

论文/研究部署/工程
11月15日
00:00
LMSYS:Blog(Chatbot Arena 团队)
服务数千个并发 LoRA 适配器的方案

S-LoRA 是一个专为大规模并发 LoRA 适配器服务设计的系统,通过统一分页技术动态管理 KV 缓存与适配器权重内存以减少碎片,并采用异构批处理优化不同秩的 LoRA 计算。该系统支持张量并行扩展至多 GPU,相比 HuggingFace PEFT 和 vLLM,吞吐量提升最高达 4 倍,可同时服务的适配器数量增加数个数量级。

开源/仓库数据/训练部署/工程
5月23日
09:00
EleutherAI:Blog
Safetensors 通过安全审计并将成为默认格式

Hugging Face 联合 EleutherAI 与 Stability AI 委托 Trail of Bits 对 Safetensors 库完成独立安全审计,结果证实该库安全可靠,具备成为默认格式的条件。三方组织宣布将推动 Safetensors 作为模型保存的默认格式。完整审计报告已公开发布,相关博客文章将进一步阐述该库的技术背景与后续实施计划。

Hugging Face开源/仓库开源生态部署/工程
4月18日
07:00
EleutherAI:Blog
Transformer 数学基础:计算与内存入门

系统阐述 Transformer 架构在计算负载与内存占用方面的基础数学原理,涵盖前向传播与反向传播过程中的浮点运算量(FLOPs)估算、模型参数量与显存需求的计算公式,以及注意力机制的复杂度分析。通过量化方法解析大语言模型训练与推理阶段的资源消耗规律,为模型设计与硬件选型提供理论依据。

教程/实践部署/工程
3月22日
00:00
Runway:News(网页)
与 AWS 合作扩展内部研究基础设施

Runway 宣布与 AWS 达成多年战略合作,AWS 成为其首选云提供商以扩展高性能计算集群。Runway 已将全部模型开发与训练迁至内部,加速新模型训练与产品部署。双方此前在 AWS 上合作完成了多模态视频生成模型 Gen-2 的训练,该模型支持通过文本、图像或视频片段生成新视频,代表了视频生成 AI 的重大进步。

行业动态视频部署/工程
1月11日
01:00
Lilian Weng:Lil'Log(RSS)
48
大型Transformer模型推理优化

当前,大型Transformer模型已成为AI领域的主流架构,在多项任务中表现出色。然而,其极高的训练与推理成本,尤其是对计算时间与内存的大量消耗,严重阻碍了在大规模实际场景中的部署。除了模型参数规模的增长,Pope等(2022)的研究指出,还存在其他关键因素加剧了推理挑战。为此,研究者们不断探索各种优化技术以突破这一瓶颈,相关的知识蒸馏等模型压缩方法也日益受到关注。

教程/实践部署/工程
9月24日
08:00
Lilian Weng:Lil'Log(RSS)
47
如何在大量GPU上训练超大规模模型?

训练大型神经网络面临GPU内存需求巨大和训练时间漫长的双重挑战。文章系统梳理了多种主流的并行训练范式,以及模型架构与内存优化设计方案,为跨多GPU训练超大规模神经网络提供了可行路径。文中进一步补充了专家选择路由等新技术,并提及本文的精简升级版已作为《训练大型神经网络的技术》发布于OpenAI官方博客。

OpenAI教程/实践数据/训练部署/工程
‹ 上一页
1…333435
下一页 ›