OpenAI 的 GPT-4o 模型和 Fireworks 模型现已支持结构化输出功能，开发者可以更可靠地获取格式化的 JSON 数据。与此同时，谷歌宣布其 Gemini Flash 2.0 模型转为免费提供，这为开发者和研究者提供了一个新的、无需付费的高性能大语言模型选项。这两项进展旨在降低应用开发门槛，并提升模型响应的可控性与实用性。

产品更新部署/工程

12月5日

08:00

OpenRouter：Announcements（RSS）

Author Pages & Amazon Nova

亚马逊发布了全新的Nova模型家族。此次发布标志着亚马逊在大型语言模型领域推出了新的产品线，旨在增强其AI服务能力。新模型家族预计将在理解能力、生成效率等方面进行关键升级，以应对当前市场上GPT、Claude、LLaMA等模型的竞争。具体性能指标和细节尚未完全披露，但此举明确显示了亚马逊加速布局生成式AI市场的决心。

产品更新部署/工程

12月4日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang v0.4：零开销批处理调度器、缓存感知负载均衡器及更快的结构化输出

SGLang v0.4版本正式发布，通过零开销批处理调度器将CPU调度与GPU计算重叠，吞吐量提升1.1倍，较其他基线快1.3倍。新版本引入缓存感知负载均衡器，预测KV缓存命中率，使吞吐量最高提升1.9倍，缓存命中率从20%提升至75%。针对DeepSeek模型的数据并行注意力机制带来1.9倍解码吞吐量提升，XGrammar结构化输出速度提升达10倍。

DeepSeek 开源/仓库部署/工程

11月7日

00:00

Mistral AI：News（网页）

Mistral Batch API 2024年11月7日 Mistral AI团队

Mistral AI 推出 Mistral Batch API，为开发者提供一种处理大量请求的高效方式，其成本比同步 API 调用降低 50%。用户只需上传批处理文件，待处理完成后下载输出文件即可。该 API 适用于客户反馈分析、文档批量总结与翻译、向量嵌入生成等场景，现已在 La Plateforme 上对所有模型开放，每个工作区并发请求限制为 100 万。

产品更新部署/工程

9月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

引入上下文检索：大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文，导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术，在检索前为文本块添加解释性上下文，能将检索失败次数减少49%，结合重排序后降幅可达67%，显著提升了下游任务性能。对于小于20万token的小型知识库，可直接将其完整内容放入提示词，结合Claude的提示词缓存功能，能降低超过2倍的延迟和高达90%的成本。对于大型知识库，上下文检索则提供了可扩展的解决方案。

Anthropic 检索增强教程/实践部署/工程

推荐理由：Anthropic 把 RAG 检索失败率砍了 67%，方法不复杂但数据扎实，做知识库的开发者可以直接抄 cookbook 上手，是那种读完当天就能改进生产环境的实用帖。

9月16日