7月3日

06:08

MarkTechPost（RSS）

RAG-Anything 教程：在 Colab 中构建文本、表格、公式和图像的多模态检索管道

本教程使用 RAG-Anything 搭建多模态检索工作流，可检索文本、表格、公式和图像。首先在 Colab 中安装依赖并修复 Pillow 版本，通过 OpenAI API key 配置对话、视觉和嵌入函数。接着生成包含图表和 PDF 的合成多模态报告，将其转为 content_list 格式并插入检索系统。最后配置并测试 naive、local、global 和 hybrid 四种检索模式。环境变量包括 CHUNK_SIZE=900、CHUNK_OVERLAP_SIZE=120，便于在笔记本中复现。

检索增强多模态教程/实践

03:34

jason@jxnlco

我将发布更高质量的幻灯片并与大家分享。

George Guimarães: Happy to meet @jxnlco in person! My RAG mentor who broke the record on @aiDotEngineer's World Fair on longest line for h...

检索增强行业动态

02:10

elvis@omarsar0

Elvis Saravia（DAIR.AI）分享了其构建的 PaperWiki--一个由 LLM 和代码智能体自动维护的知识库，用于研究工作流、社区论文策展及通讯。PaperWiki 从多源摄取论文，存储于 Obsidian 并用 qmd 索引，支持全文和语义搜索。设有每日更新自动化，结合 Opus-4.8 和 DeepSeek-V4-Flash 等模型维护。作者认为 LLM Wikis 是 AI 最有价值的应用之一，可帮助去噪、发现高质量论文，并计划开源相关组件（含 HTML artifact）。

elvis: LLM Wikis are being slept on. I argue that creating knowledge bases with LLMs or coding agents is one of the most valuab...

智能体检索增强教程/实践

6月29日

08:00

HuggingFace Daily Papers（社区热门论文）

紧凑型语言模型在RAG系统中实现设备端推理，无需GPU

一项研究评估了小型语言模型在检索增强生成（RAG）系统中的生成性能。实验采用开源与专有数据集，覆盖多种学科与问题类型。结果表明，配备小语言模型的RAG系统可在设备端直接运行，且无需任何GPU硬件，在合理时间内完成推理。实验代码及补充材料已通过GitHub仓库公开。

检索增强端侧论文/研究

6月28日

20:56

meng shao@shao__meng

LoanLens：基于LandingAI的AI审贷初筛系统

LoanLens从六类借款人文档抽取结构化字段，进行欺诈检测与可解释评分，并附带案件RAG问答。采用Schema驱动抽取，可追溯字段来源；欺诈检测包括姓名TF-IDF比对和护照篡改检测；评分透明（信用23%、DTI 23%等），≥60批准，40–59复核，<40拒绝。

LandingAI: http://x.com/i/article/2070766331306332160

检索增强数据/训练行业动态

6月26日

03:01

Hacker News 热门（buzzing.cc 中文翻译）

《圣经》作为RAG数据库

一个将《圣经》文本作为RAG（检索增强生成）数据库的网站，提供基于圣经内容的问答检索功能，项目地址为crosscanon.com。

检索增强产品更新

01:23

Rohan Paul@rohanpaul_ai

172B token研究：LLM文档问答幻觉率实测

一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现：最佳模型在32K上下文下虚构率1.19%；强模型通常为5%-7%；中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时，所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明，幻觉不仅是检索失败，模型即便能正确找到事实，也易在事实缺失时过度作答。

arXiv 检索增强安全/对齐论文/研究

6月24日

11:55

HuggingFace Daily Papers（社区热门论文）

DREAM：通过自回归建模实现密集检索嵌入

DREAM是一种利用大语言模型（LLM）自回归下一token预测目标为密集检索嵌入模型提供监督训练的方法。它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头，使预测损失通过注意力机制为检索器提供梯度。在BEIR和RTEB检索基准上，使用0.5B至3B参数的嵌入骨干，DREAM均持续优于现有基线。

arXiv 检索增强数据/训练论文/研究

08:18

MarkTechPost（RSS）

同事件精选72

Mistral AI 发布 OCR 4 模型

Mistral AI 今日发布 OCR 4，支持 170 种语言，可单容器自托管部署。新版本除提取文本外，还返回边界框、块类型（标题/表格/方程等）和逐字置信度分数。独立标注者在 600+ 文档、12+ 语言的测试中平均胜率 72%。价格 $4/千页，批量 $2/千页，Document AI 模式 $5/千页。企业客户可自托管。Rogo 报告等效精度下成本低约 8 倍、延迟低 17 倍；Anaqua 测得每页快约 4 倍。OCR 4 同时作为 Mistral Search Toolkit（公开预览）的接入组件。

检索增强产品更新多模态搜索

同一事件，精选展示《Mistral OCR 4》

推荐理由：Mistral OCR 4 不只是提取文本，而是输出带定位框和置信度的结构，这对需要引用和溯源的企业搜索很有价值，不过按页计费对小团队是门槛。

6月23日

15:13

HuggingFace Daily Papers（社区热门论文）

精选75

HAKARI-Bench：统一条件下比较检索架构与效率设置的轻量级基准

HAKARI-Bench 是一个轻量级检索基准，将现有检索套件重建为小型数据集（Nano-sets），涵盖 35 个基准、551 个任务和 43 种语言，采用统一格式实现模型无关比较。它支持 BM25、稠密、稀疏、晚交互和重排序五种检索家族及其效率变体（降维、量化等）在同一条件下对比。在 55 个模型上，整体排名与 MTEB retrieval v2、MMTEB v2 retrieval 及 English BEIR（完整版）的 Spearman 相关系数均高于 0.97。HAKARI-Bench 不取代全面评测，而是用于快速模型选择、回归检测和探索质量-效率帕累托前沿。代码、数据和排行榜以 MIT 许可证开源。

Hugging Face 检索增强论文/研究

推荐理由：有了这个轻量级基准，做检索的开发者不用再跑整套 MTEB 就能快速筛选嵌入模型和效率配置，而且排名与完整评测高度一致，是工程选型的高性价比工具。