6月17日

18:00

公众号：小红书技术（dots.llm）

小红书联合浙大推出 RedParrot：基于语义缓存的 NL-to-DSL 加速框架（ICDE 2026）

RedParrot 是一种面向企业级商业分析的 NL-to-DSL 加速框架，通过查询语义缓存、骨架匹配、实体无关表示学习和多源异构 RAG，将多阶段 LLM 工作流压缩为短链路生成。在小红书真实业务数据集上，平均实现 3.6x 推理加速，执行准确率提升 8.26%，表选择准确率达 85.99%；在开放基准 Spider-DSL 和 BIRD-DSL 上，准确率分别提升 29.9 和 39.7 个百分点。P90 延迟降低至约 21 秒。框架采用短链路与长链路双路径兜底，支持增量缓存更新。

检索增强数据/训练论文/研究

6月6日

04:30

Google Research：Blog（网页）

精选64

谷歌推出基于 Gemini Enterprise Agent Platform 的 Agentic RAG 框架

Google Research 与 Google Cloud 合作推出跨语料库检索（Cross-Corpus Retrieval）框架，作为 Gemini Enterprise Agent Platform 的 Agentic RAG。该多智能体工作流将复杂企业查询分解为子任务，通过规划、重写和路由，迭代搜索多个数据源直至获得充分上下文，再生成可靠回答。与标准 RAG 相比，在事实性数据集上准确率最高提升 34%；在多个领域特定内部数据集上也实现了更好的接地与推理准确性。

Google 检索增强产品更新

推荐理由：企业级 RAG 的新标杆，多 agent 架构加上‘足够上下文’检查，准确度提升 34%。做知识库问答的产品经理和架构师都应该认真看。

5月28日

20:47

Mistral AI：News（网页）

精选77

发布 Search Toolkit

Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时，因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中，使团队能更专注于提升搜索质量。该工具开源，可部署在云端、本地或边缘环境，并支持企业搜索、RAG 等多种检索场景。

MCP/工具检索增强产品更新搜索

推荐理由：做 RAG 的团队都该看一眼，它把 ingestion、retrieval、evaluation 揉进一个开源框架，省下的大把集成时间够你调几次检索策略了。

5月19日

23:01

Hugging Face：Blog（RSS）

精选60

引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型（17m、32m、68m、150m、400m、1b），基于 Ettin ModernBERT 编码器，蒸馏 self-mxbai-rerank-large-v2 分数训练，在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供，三行代码可调用。同时发布 train-sentence-transformers Agent Skill（v5.5.0），允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face 检索增强开源/仓库搜索

推荐理由：从17M到1B的全尺寸reranker家族，每个量级都是SOTA，而且训练数据和代码全开放，做搜索和RAG的开发者可以无痛替换旧模型。

5月18日

23:52

Hugging Face：Blog（RSS）

精选68

PaddleOCR 3.5：使用Transformers后端运行OCR和文档解析任务

PaddleOCR 发布 3.5 版本，正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 engine 与 engine_config 参数，允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于，显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈（如 RAG、智能体、文档AI）的门槛，使开发者能更便捷地利用现有生态，减少集成阻力，从而专注于下游应用构建。

Hugging Face 检索增强产品更新多模态

推荐理由：PaddleOCR 3.5 最大的变化不是新模型，而是终于能跑在 Transformers 上了，做 RAG 和文档智能的开发者可以少写一堆胶水代码。

5月15日

03:45

Hugging Face：Blog（RSS）

精选60

IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型

IBM 发布两个 Apache 2.0 开源多语言嵌入模型：97M 参数的紧凑型（granite-embedding-97m-multilingual-r2）在 MTEB Multilingual Retrieval 上得 60.3 分，超越所有开放子 1 亿参数模型；311M 全尺寸模型（granite-embedding-311m-multilingual-r2）得 65.2 分，在 500M 以下开放模型中排第二，并支持 Matryoshka 维度。两者均基于 ModernBERT 架构，支持 200+ 种语言，针对 52 种语言和 9 种编程代码检索训练，上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型，预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。

检索增强开源生态搜索模型发布

推荐理由：97M小模型在跨语言检索上打败很多300M级选手，32K上下文让长文档处理不再鸡肋，Apache 2.0开源意味着做多语言RAG的可以直接拿来当默认嵌入模型了。

5月10日

02:42

Hugging Face：Blog（RSS）

精选68

OncoAgent：一个用于隐私保护肿瘤临床决策支持的双层多智能体框架

研究团队发布了开源肿瘤临床决策支持系统OncoAgent。该系统采用双层多智能体框架，结合LangGraph拓扑与四阶段Corrective RAG流程，检索超过70份权威临床指南。系统根据查询复杂度，将任务路由至9B参数的速度优化模型或27B参数的深度推理模型，两者均通过QLoRA在AMD MI300X硬件上使用包含26万余病例的数据集进行微调。系统强制执行严格的零受保护健康信息政策，并通过三层反射安全验证器确保安全，支持完全本地部署以保护患者数据主权。

智能体 Hugging Face 检索增强开源生态

推荐理由：这个开源肿瘤AI系统把多智能体、RAG和隐私合规全塞进一台AMD服务器，临床落地又近了一步，不是那种只发论文不交代码的项目。

5月1日

02:13

Google Developers Blog（RSS）

精选62

基于Gemini Embedding 2构建：智能多模态RAG及其他应用

Google正式发布Gemini Embedding 2统一嵌入模型，该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入，显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言，并提供任务特定前缀和马特廖什卡降维等特性，为构建复杂AI智能体提供高效精准的基础。

Google 检索增强多模态模型发布

推荐理由：开发者做多模态RAG的苦日子结束了，Gemini Embedding 2把文本、图片、视频塞进同一个语义空间，还自带Matryoshka降维，直接省掉一堆胶水代码。

4月27日