5月28日

16:10

MarkTechPost（RSS）

精选70

本教程在Google Colab中构建一个完整的pgvector实验环境，展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接，并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。

检索增强开源生态教程/实践部署/工程

推荐理由：这份教程把 pgvector 的稀疏向量、量化搜索等高级功能打包成 Colab 代码，用 PostgreSQL 做向量数据库的团队可以直接复制粘贴跑起来。

12:28

HuggingFace Daily Papers（社区热门论文）

MemTrace：大语言模型记忆系统的错误追踪与归因

本文研究了大语言模型记忆系统中错误追踪与归因的新问题。我们提出了MemTrace框架，它将记忆管线转化为可执行的记忆演化图，以实现操作信息流的细粒度追踪。我们构建了MemTraceBench基准，数据来自Long-Context、RAG、Mem0和EverMemOS等代表性系统，用于系统研究记忆失效模式。此外，我们引入了一种自动归因方法，通过迭代追踪操作子图来定位失败根因。分析表明，记忆失败具有系统性，源于信息丢失与检索错位等操作级问题。利用这些细粒度归因信号指导下游提示词优化，可构建一个自动纠错的闭环系统，将端到端任务性能最高提升7.62%。

智能体 GitHub 检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语

本文介绍了embeddingmagibu-200m，一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量，支持8,192 token的上下文窗口。该模型不进行完整预训练，而是采用三阶段适配流水线训练：构建优化的土耳其语分词器、克隆并适配教师模型权重，以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数，在单个GPU上训练约4小时，成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型，并在TR-MTEB的26个任务中排名靠前，实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。

Hugging Face 检索增强开源/仓库论文/研究

5月27日

18:20

HuggingFace Daily Papers（社区热门论文）

精选72

Gemini Embedding 2：来自Gemini的原生多模态嵌入模型

Google DeepMind推出Gemini Embedding 2，这是一款原生多模态嵌入模型，支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力，通过大规模对比学习实现SOTA性能。在关键基准上表现优异：MSCOCO取得62.9 R@1，Vatex取得68.8 NDCG@10，MTEB multilingual达到69.9，MTEB Code达到84.0，超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务，并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。

Google 检索增强多模态论文/研究

推荐理由：Google 把多模态嵌入统一到一个模型里了，文本、代码、跨模态检索全面刷榜，做 RAG 和搜索的该认真看看了。