一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现：最佳模型在32K上下文下虚构率1.19%；强模型通常为5%-7%；中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时，所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明，幻觉不仅是检索失败，模型即便能正确找到事实，也易在事实缺失时过度作答。

arXiv 检索增强安全/对齐论文/研究

6月19日

13:19

AYi@AYi_AInotes

精选79

阿里开源向量数据库Zvec，UCSD黄碧薇教授提出因果AI第四代范式

阿里开源内部向量数据库Zvec，pip install zvec免费使用，对标Pinecone每月70美元能力。支持十亿向量毫秒级检索，无需单独起服务，全平台兼容；v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授（causal-learn作者）提出AI四代范式：相关性小模型→因果小模型→相关性大模型（LLM）→因果大模型，认为当前正站在第四代门口。其创立的Aether AI完成首轮融资，致力于从视频中自动抽取物理规律，探索下一代因果AI范式。

AYi: 人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...

检索增强产品更新开源生态搜索

推荐理由：阿里把内部跑了多年的向量数据库开源了，pip一行直接跑，十亿级毫秒检索还不占额外服务，做RAG和搜索的不用再每月给Pinecone交钱，虽然刚起步，但免费生产级轮子值得一试。

6月15日

21:43

OpenBMB@OpenBMB

面壁智能 OpenBMB 联合发布 FactNet：十亿级开源多语言知识图谱

面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet，构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets，附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据（页面ID、修订版ID、Unicode偏移），99.63% 精确重定位。人工审计 4,200 项，设计加权精度 92.1%（低资源语言 88.5%）。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务，显式惩罚信息泄露，为可验证 AI 提供结构化事实基础。

检索增强数据/训练论文/研究

6月14日

11:46

AYi@AYi_AInotes

OpenDataLoader PDF：开源RAG PDF解析器，比Marker快116倍

OpenDataLoader PDF是专为RAG管道设计的开源PDF解析器，在200份真实文档（含多栏、学术论文、财报）测试中综合基准得分0.907排名第一，GitHub 2.4万星。本地CPU运行，无需GPU，每页处理仅0.46秒，比Marker快116倍且准确率更高。支持表格、公式、图片、图表解析及OCR（80+语言），输出Markdown、JSON（含坐标边界框）、HTML。原生集成LangChain（pip install langchain-opendataloader-pdf）。采用Apache 2.0许可，可商用。

AYi: Claude Code、OpenClaw、Hermes、Codex,一个比一个能干, 但 2026 年了,这批最先进的 Agent 还集体卡在同一件小事上: 上不了网,查推特要付费 API,读小红书卡登录,上 Reddit 动不动被封 IP...

检索增强开源/仓库数据/训练

6月12日

01:37

AYi@AYi_AInotes

QuantMind：量化金融知识处理框架开源（MIT协议）

一群AI研究员开源了量化金融知识处理框架QuantMind（MIT协议）。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱，支持多模态解析（表格、公式、图表）及自然语言多跳推理，可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

AYi: http://x.com/i/article/2064536412670562304

GitHub 检索增强多模态开源/仓库

6月10日

07:19

ginobefun@hongming731

BestBlogs 早报 · 06-10

Anthropic发布Claude Fable 5与Mythos 5，输入$10/M、输出$50/M，5%高风险请求降级到Opus 4.8，药物设计加速10倍。ServiceNow发布语码转换ASR基准，覆盖4组语言对、7个ASR系统，Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结：支持Agent处理3百万次对话，上线后运营是难点。

ginobefun: http://x.com/i/article/2064485562875260928

智能体 Anthropic 检索增强模型发布

01:32

AYi@AYi_AInotes

headroom：开源token压缩工具，可省60%-95% token

开源免费的 token 压缩工具 headroom 本周增速最快，已获 17k star。它专为所有 AI API 调用（输出、日志、文件、RAG 块）设计，压缩 60%-95% 的 token，将账单直接砍到原来的 1/5，且回答质量不变。无需修改一行现有代码，可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词，一行配置即可大幅降低 API 成本。

GitHub MCP/工具检索增强开源/仓库

6月8日

15:35

小互@xiaohu

Google 发布 Agentic RAG："质检 Agent"让系统知道没搜全，准确率提升 34%

Google 发布 Agentic RAG 框架，核心新增 Sufficient Context Agent，负责在生成答案前检查检索材料是否充分，若不充分则生成缺失分析并引导系统迭代搜索。在 FramesQA 多跳测试中准确率最高提升 34%，从 4 个数据库检索时正确率达 90.1%，速度仅慢 3% 以内。该设计基于前作发现：Gemini 1.5 Pro 判断“上下文充分性”准确率达 93%，且“相关≠够用”是幻觉关键原因。目前以公开预览在 Gemini Enterprise Agent Platform 开放。

智能体 Google 检索增强产品更新

03:27

AYi@AYi_AInotes

Google向量存储压缩：31GB→4GB，速度超FAISS

Google提出一种AI记忆压缩技术，可将1000万个文档的向量存储从31GB内存压缩至仅4GB，且搜索速度超过目前最常用的FAISS方法。该技术使本地运行大语言模型并结合个人数据变得更加可行。

AYi: http://x.com/i/article/2060717603987791878

Google 检索增强数据/训练论文/研究

6月5日

14:07

ginobefun@hongming731

精选78

你的 Agent 还在全网垃圾里捞内容？不如先喂它 375 个高质量微信公众号 RSS 源。 🔽

ginobefun: http://x.com/i/article/2062762354149146624

智能体检索增强搜索教程/实践

推荐理由：这个整理直接命中了 Agent 在中文垃圾信息里捞内容的痛点，375 个高质量公众号 RSS 源，做中文信息追踪的可以直接导入，比全网乱爬靠谱太多。

09:06

ginobefun@hongming731

BestBlogs早报：ChatGPT记忆升级、AI研发自动化、SpaceX资本版图

本期早报聚焦三则动态：OpenAI发布ChatGPT dreaming V3，记忆架构重写为“写入时合成”，效率提升5倍，免费用户可用个性化记忆摘要；阿里云工程师落地LLM-Wiki模式，从传统RAG转向“写入时合成”知识库，封装五大研发技能包实现PRD到全自动研发；SpaceX招股书披露与Anthropic签订450亿美元算力合同，每月12.5亿美元至2029年5月，年收入增加80%，并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。

Anthropic OpenAI 检索增强现象/趋势

09:06

ginobefun@hongming731

BestBlogs早报06-05

今日早报推荐三篇AI相关文章：① ChatGPT升级记忆系统，可自动整理用户对话历史并记住偏好，无需反复提示，免费用户也可使用。② 阿里云工程师分享实战经验，将团队代码库和文档整理成AI可直接调用的知识库，搭配专项技能包，目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露，Anthropic每月支付12.5亿美元购买算力，该数字反映其大规模AI训练与推理的算力需求。

智能体 Anthropic OpenAI 检索增强

6月1日

21:09

AK@_akhaliq

GrepSeek 训练搜索智能体以直接交互语料库

智能体检索增强搜索论文/研究

10:04

Rohan Paul@rohanpaul_ai

AI聊天机器人处理新闻：优势与脆弱性并存

该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现，当以多选题形式提问时，最佳系统对数小时前新闻的准确率已超过90%，这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而，这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语，或用户提问包含错误预设时，其表现显著下降。超过70%的错误源于检索失败或来源偏差，即系统检索到了近似但不精确的信息，随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》（arxiv.org/abs/2605.22785）。

检索增强搜索论文/研究

01:48

elvis@omarsar0

效率前沿

该论文指出，当AI智能体在多轮对话中重复使用相同文档和历史记录时，固定的上下文策略并非最优。研究提出了“效率前沿”框架，将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描，可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明，部署感知的选择能在保持相同性能下减少约25%的有效token使用量，而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。

智能体 arXiv 检索增强论文/研究

5月31日

08:45

meng shao@shao__meng

如何从 PDF 构建金融知识图谱？

LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程：上传后通过 ADE 提取为结构化 Markdown，超过 15MB 的文档异步处理。提取后按文档类型路由归一化：发票/贷款/合同采用确定性解析（无 LLM）；10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j（500 词分块，100 词重叠，all-mpnet-base-v2 向量化），图谱包含 10 类实体和 26 种规范关系，并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

LandingAI: http://x.com/i/article/2060438013273108480

检索增强教程/实践数据/训练

07:45

ginobefun@hongming731

#BestBlogs 早报 05-31

今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效，指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。

OpenAI 检索增强现象/趋势编码

5月30日

00:15

AK@_akhaliq

OmniRetrieval 跨异构知识源的统一检索

检索增强论文/研究

5月24日

21:17

AYi@AYi_AInotes

PDF与Markdown喂AI的效率差异与最佳实践

作者发现直接使用PDF文档喂给AI存在严重问题。AI处理PDF时并非进行“阅读”，而是在执行字符坐标识别、结构猜测等复杂任务，这不仅消耗更多Token，还容易导致数据错乱（如数字位置被调换）。相比之下，Markdown具有清晰的结构化标记，能直接被模型高效理解。经过咨询Claude和Grok，确认在大量RAG工程实践中，将PDF转换为Markdown再输入是标准流程。因此，建议对技术文档等非视觉主导内容，优先以Markdown格式创建，现有PDF可借助markitdown、LlamaParse等工具进行转换。

检索增强教程/实践

5月23日

10:49

宝玉@dotey

当前AI Agent开发实习生的招聘需求显著上升，其核心技术栈已从传统的后台开发项目（如秒杀、电商）转向集中应用Langchain框架与RAG（检索增强生成）技术。这反映出市场对AI应用开发岗位的技能要求正发生明确转变，具备相关实践经验的实习生受到青睐。

Leo Xiang: 之前招后台的研发的实习生项目都是秒杀、电商。如今招 AI Agent 开发的实习生项目都是 Langchain + Rag。话说 X 上有想找 AI Agent 开发实习生方向的工作的不? 我这里在招实习生。

智能体检索增强行业动态

5月21日

08:48

Google DeepMind@GoogleDeepMind

同事件精选70

如何加速你的日常研究工作流？通过为AI提供正确的科学工具包。我们为Google @Antigravity推出了Science Skills，整合了来自30多个主要生命科学来源的洞见，包括UniProt和AlphaFold数据库。

DeepMind 检索增强产品更新

同一事件，精选展示《Gemini for Science：面向科学的AI实验与工具，开启发现新时代》

推荐理由：Google 把 AlphaFold 和 UniProt 变成 AI 的“科学技能”，这不是又一次数据库整合，而是让 AI 能直接查询实验知识的工具链，做生命科学的可以认真看看。

5月20日

15:42

swyx🛬 SFO@swyx

噢不，Contextual AI被挖墙脚了

Techmeme: Sources: Google DeepMind has reached a ~$100M deal to hire 20+ researchers from Contextual AI, including CEO Douwe Kiela...

检索增强行业动态

5月14日

23:51

Berryxia.AI@berryxia

"大拿"离职，领导当天炸锅！他带走的不是客户，是三年的"集体记忆"！

国际学校老师离职与Slack停服事件，暴露企业组织记忆托管于外部工具的脆弱性。当前主流AI协作产品聚焦扩大记忆容量，但记忆结构仍是碎片化的列表型。Tanka采用图谱型记忆，将实体、关系和时间结构化，并基于稀疏注意力架构降低计算复杂度，支持固定定价。稀疏架构虽提升确定性任务效率，但可能抑制跨边界创新洞察。该工具适合组织结构稳定、数据栈已集成的团队，为企业构建跨越人员流动的组织记忆图谱。

检索增强数据/训练现象/趋势

11:51

Berryxia.AI@berryxia

Exa实验揭示：提升LLM搜索能力，工具效率或比堆算力更重要

ExaAILabs的一项关键实验表明，在强化学习阶段训练大语言模型的搜索能力时，使用其Exa搜索API替代Google数据，不仅能使模型达到更高性能，还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点，揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示，意味着未来LLM训练的效率竞争可能始于对底层工具的选择。

Exa: How does Exa compare to Google for training LLMs to search? In this blog post, we find that LLMs using Exa during reinfo...

检索增强搜索数据/训练论文/研究

5月13日

08:49

Berryxia.AI@berryxia

Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni，能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸，分别具有1.57B和0.95B参数，并支持Matryoshka截断技术。关键优势在于完全向后兼容：现有jina-embeddings-v5-text的索引无需重新构建，可直接替换为v5-omni，在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲，小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face 检索增强多模态开源生态

5月10日

19:33

阿绎 AYi@AYi_AInotes

Garry的这个读书系统做到了真正的"理解"，但这还不是最厉害的地方。

Garry Tan系统的核心是Skillify元技能，它能将用户任何一次手动操作自动分析、封装成可复用的技能文件，实现复利效应——技能每改进一次，所有相关流程永久增强。其架构理念为“胖技能+胖代码+胖数据+瘦路由”，强调AI模型仅是引擎，真正的价值源于个人积累的海量结构化数据与专属可组合技能。该系统不仅是工具，更是AI时代个人能力的指数级放大方案，例如Book Mirror能将书籍内容深度映射至个人全部经历，远超普通RAG的检索能力。

阿绎 AYi: 说实话,Garry Tan 这篇长帖,是我今年看到的最重要的 AI 文章,没有之一。大多数人看完估计只会惊叹:"哇,这个读书工具好厉害。" 但他们其实并没看懂,这不仅仅是一个工具,说是一份 AI 时代个人能力的指数级放大说明书更合适一些。...

智能体检索增强大佬观点

03:32

阿绎 AYi@AYi_AInotes

Garry Tan长文揭示AI如何指数级放大个人能力

Garry Tan的文章指出，以Book Mirror为例的先进AI工具，其意义远超普通读书工具或RAG系统。它能将一本162页的书籍在40分钟内转化为3万字的深度个人化分析，将书中观点精准映射到用户的个人历史、工作与经历中。这种交互相当于作者与用户进行两天的一对一深度对话，其效率远超传统方式，代表了AI对个人能力进行指数级放大的新范式。

Garry Tan: http://x.com/i/article/2052898104039657472

检索增强大佬观点

5月6日

02:56

Google AI Developers@googleaidevs

精选68

Gemini API 文件搜索工具推出三项新更新，助力多模态 RAG 系统开发

Gemini API 文件搜索工具近日扩展三项功能更新，旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括：多模态支持，通过Gemini Embedding 2模型实现对图像和文本的同步推理；自定义元数据过滤，允许为文件添加键值标签以结构化非结构化数据，从而提升搜索速度；精确引用功能，能够捕获并返回每条索引信息的精确来源，如页码。开发者可通过Google AI Studio的示例应用体验这些功能，与图像和文档库交互，提问并追溯答案来源。

Google MCP/工具检索增强产品更新

推荐理由：如果你在用 Gemini 搭 RAG 系统，这三项更新能直接改善搜索精度和可解释性，多模态搜索终于把图片和文档打通了，值得马上试试。

5月5日

23:14

Berryxia.AI@berryxia

PageIndex颠覆传统RAG，以推理优先实现范式转变

PageIndex提出一种全新的RAG方法，摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引，让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率，超越了所有传统向量RAG方案，并且完全开源。这标志着一个范式级的转变：从“检索优先”转向“推理优先”，核心思路是让LLM先理解整体文档结构再回答问题，而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理

5月1日

08:10

Berryxia.AI@berryxia

Gemini Embedding 2 已正式发布！ RAG 知识库的应用又可以支持的更好了。

Google 检索增强模型发布

08:10

Berryxia.AI@berryxia

2026年你必须了解的6个大语言模型（LLM）知识库专业术语！

本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统，难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移，即文档与现实间缓慢产生的信息偏差，这是导致AI代理给出错误答案的主要根源。

Femke Plantinga: 6 LLM Knowledge Base terms you need to know in 2026: (Most teams are missing at least 3, their AI agents pay the price) ...

检索增强教程/实践