全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「RAG」清除

4月29日周三

00:10elvis59构建LLM知识库入门指南与资源分享

4月28日周二

20:36Rohan Paul48AI海马体：距离人类记忆还有多远？

04:30Rohan Paul56为精确性优化RAG可能悄然损害检索效果，危及智能体流程

4月27日周一

17:55公众号：通义实验室（千问）34搜对≠答对：EAPO用"证据奖励"让大模型不再靠猜

4月26日周日

13:21阿绎 AYi58NotebookLM更新：AI智能分组解决"第二大脑"资料混乱痛点

08:00HuggingFace Daily Papers（社区热门论文）50RaV-IDP：基于重建验证的可靠智能文档处理框架

4月25日周六

08:00HuggingFace Daily Papers（社区热门论文）45IndustryAssetEQA：面向工业资产维护的具身问答神经符号操作智能系统

4月24日周五

12:17HuggingFace Daily Papers（社区热门论文）45可信需验证：DAVinCI框架--语言模型声明推理的双重归因与验证

08:00HuggingFace Daily Papers（社区热门论文）59上下文永不足够：基于结构化推理的可扩展长文档集问答

08:00HuggingFace Daily Papers（社区热门论文）53为冻结大语言模型学习证据高亮（Learning Evidence Highlighting for Frozen LLMs）

4月22日周三

03:06Google Gemini如果你还没有使用 Gems 来优化 Gemini 中的工作流程，现在是时候开始了。 Gems 让你能够快速复用提示词并添加参考文件。打开侧边面板，创建一个 gem，将重复性任务变成一键操作。

4月21日周二

12:34HuggingFace Daily Papers（社区热门论文）MathNet：全球多模态数学推理与检索基准

10:10IT之家（RSS）RAG AI 测试：AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%

4月20日周一

08:00HuggingFace Daily Papers（社区热门论文）面向指令遵循信息检索的双视角训练

4月19日周日

08:00HuggingFace Daily Papers（社区热门论文）语码转换信息检索：基准测试、分析与现有检索器的局限

4月18日周六

00:58AK39UniDoc-RL：分层动作与密集奖励的视觉RAG

4月17日周五

21:02HuggingFace Daily Papers（社区热门论文）基于LLM的密集检索器鲁棒性研究：泛化性与稳定性系统分析

17:53HuggingFace Daily Papers（社区热门论文）无需检索，只需导航：将企业知识蒸馏为可导航的 Agent 技能用于 QA 和 RAG

10:53HuggingFace Daily Papers（社区热门论文）UniDoc-RL：基于层次化动作与密集奖励的由粗到细视觉RAG

02:50Google Gemini这场活动即将开始！在此加入 Gemini Discord：http://discord.gg/gemini 【引用 @GeminiApp】：准备好充分利用 Gemini 中的笔记本了吗？加入 @GoogleDeepMind 产品经理 Rebecca Zapfel 的直播演示，了解如何掌握多模态上下文、持久记忆、项目组织，以及如何使用 @NotebookLM 笔记本作为来源。随后将进行实时问答。 📅 本周四，4 月 16 日上午 11：30（太平洋时间） 👉还没加入我们的 Discord？在此加入：http://discord.gg/gemini

4月16日周四

21:00Cloudflare BlogAI Search：面向智能体的搜索原语

11:47HuggingFace Daily Papers（社区热门论文）MERRIN：嘈杂网络环境中的多模态证据检索与推理基准

10:47HuggingFace Daily Papers（社区热门论文）ROSE：面向检索的分割增强

4月15日周三

12:44宝玉开源项目推荐：BlockNote

00:59Sundar PichaiGoogle 2025报告：AI赋能全美小企业数字化

4月14日周二

22:03TestingCatalog News 🗞NotebookLM 将会变得超强 👀 > Google 正在为 NotebookLM 开发新的 Canvas 体验和 Connectors 支持。 > Canvas 模式让用户能够从笔记本来源生成任何数据的可视化呈现。 > 最近设置菜单中新增了一个 Connectors 选项（目前隐藏）。 > 看起来在 Google I/O 上，我们将看到支持 Canvas、Connectors 和 Personal intelligence 的新版 NotebookLM。

4月13日周一

08:00HuggingFace Daily Papers（社区热门论文）时间并非标签：面向时序知识图谱与智能体记忆的连续相位旋转

4月12日周日

08:00HuggingFace Daily Papers（社区热门论文）PersonalAI：个性化LLM智能体知识图谱存储与检索方法的系统比较

4月10日周五

23:20TestingCatalog News 🗞40Kimi发布专业数据集成功能

08:00OpenAI：官网动态（RSS · 排除企业/客户案例）在 ChatGPT 中处理文件

4月9日周四

17:30公众号：通义实验室（千问）56VimRAG：图文视频全模态知识库开源框架

4月8日周三

08:00HuggingFace Daily Papers（社区热门论文）ATANT：AI 连续性评估框架

4月3日周五

23:17Claude精选Microsoft 365 connectors 现已向所有 Claude 套餐开放

3月30日周一

08:47karminski-牙医GLM-5.1登顶全球SOTA，向量数据库测试刷新纪录

3月24日周二

04:47OpenAIChatGPT 文件管理更新：查找、复用和构建上传及创建的文件现更加便捷

3月23日周一

08:00Google Developers Blog（RSS）71精选使用 LlamaParse 与 Gemini 3.1 构建智能金融助手

3月18日周三

00:00Google GeminiPersonal Intelligence 在 Gemini 应用和 Google Chrome 中向更多用户免费开放

3月17日周二

08:00HuggingFace Daily Papers（社区热门论文）32AgriIR：一个可扩展的领域特定知识检索框架

3月16日周一

00:00Google Research：Blog（网页）用高温超导问题测试 LLM 的研究能力

2月28日周六

21:29Hacker News：AI 热帖Show HN： Now I Get It - 将科学论文转化为交互式网页

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月29日

00:10

elvis@omarsar0

59

关于如何开始构建LLM知识库的一些说明。 @karpathy 推广了这个概念，但大多数人不知道从哪里入手。每个人都应该创建LLM维基。明天有直播会议。分享了一个代码库示例，即将推出一项新技能。 https://academy.dair.ai/blog/how-to-build-an-llm-knowledge-base

智能体检索增强教程/实践

4月28日

20:36

Rohan Paul@rohanpaul_ai

48

AI海马体：距离人类记忆还有多远？

现代AI需要三类记忆系统：存储持久知识的参数记忆、获取新鲜事实的检索记忆，以及记录目标与经验的智能体记忆。单一记忆模式存在局限，核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引，使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识，以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系，而非构建单一巨型记忆。

智能体检索增强论文/研究

04:30

Rohan Paul@rohanpaul_ai

56

为精确性优化RAG可能悄然损害检索效果，危及智能体流程

最新研究发现，企业为提升精确性而微调RAG嵌入模型，可能导致检索质量下降高达40%。其核心矛盾在于，单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异（如否定、语序颠倒）时，会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索：先用嵌入模型快速召回，再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同，在合同、合规等高精度领域混淆二者将导致系统关键失效。

检索增强论文/研究部署/工程

4月27日

17:55

公众号：通义实验室（千问）

34

搜对≠答对：EAPO用"证据奖励"让大模型不再靠猜

检索增强推理教程/实践

4月26日

13:21

阿绎 AYi@AYi_AInotes

58

NotebookLM更新：AI智能分组解决"第二大脑"资料混乱痛点

NotebookLM最新更新解决了资料过多导致混乱的核心问题。当用户添加超过5个来源后，AI会自动按主题对所有文档进行智能分组并命名，例如将园艺资料分为堆肥、种植日历等类别。文档可跨组归属，用户也能手动调整。此次更新的关键在于AI仅在资料量达到需要整理的阈值（5个以上）时才自动介入，既避免了过度干预，又有效帮助用户从繁琐查找中解放出来，更专注于思考与学习。

NotebookLM: Mo sources mo problems? Not anymore: Rolling out now, NotebookLM can auto-label & categorize sources (when you have 5+),...

检索增强产品更新

08:00

HuggingFace Daily Papers（社区热门论文）

50

RaV-IDP：基于重建验证的可靠智能文档处理框架

智能文档处理管道常因缺乏验证机制，导致提取错误无声传递至下游系统。RaV-IDP框架创新性地引入重建作为核心组件，在提取每个实体后，通过专用重建器将结果渲染回与原文档区域可比的形式，并由比较器评估重建与原始截图的保真度，生成无需标注的质量信号。若保真度低于实体类型阈值，系统触发基于GPT-4.1 Vision的结构化回退机制并重复验证循环，始终以原始文档区域为锚点，避免循环依赖。该框架还提供了每阶段评估方法，将管道组件与基准配对，相关代码已在GitHub开源供实验使用。

检索增强论文/研究部署/工程

4月25日

08:00

HuggingFace Daily Papers（社区热门论文）

45

IndustryAssetEQA：面向工业资产维护的具身问答神经符号操作智能系统

工业维护中，AI助手常因解释泛化、缺乏遥测基础而影响信任。为此，研究团队推出IndustryAssetEQA，该系统结合事件遥测表征与故障模式影响分析知识图谱，实现针对工业资产的神经符号具身问答。在覆盖旋转机械、涡扇发动机等四种资产类型的数据集上评估显示，相比纯大语言模型基线，其结构有效性最高提升0.51，反事实准确性最高提升0.47，解释蕴涵度提升0.64，并将专家评定的严重过度断言从28%降至2%（降幅约93%）。相关代码、数据集及知识图谱已开源。

检索增强具身智能论文/研究

4月24日

12:17

HuggingFace Daily Papers（社区热门论文）

45

可信需验证：DAVinCI框架--语言模型声明推理的双重归因与验证

针对大语言模型存在事实错误与幻觉的问题，本文提出了DAVinCI双重归因与验证框架。该框架首先将模型生成的声明归因于内部组件和外部来源，随后利用蕴含推理和置信度校准进行验证。在FEVER等数据集上的评估表明，DAVinCI将分类准确率、归因精确率、召回率和F1分数提升了5-20%。研究通过消融实验分析了关键组件的影响，并发布了可集成至现有LLM流程的模块化方案。该框架为构建可审计、可信赖的AI系统提供了可扩展路径。

检索增强安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

上下文永不足够：基于结构化推理的可扩展长文档集问答

SLIDERS框架通过结构化方法解决长文档集问答的扩展性难题。它将文档关键信息提取至关系数据库，利用SQL进行高效推理，避免了传统文本拼接法的瓶颈。其核心创新是数据协调阶段，通过来源、依据和元数据检测并修复重复、不一致或不完整的记录，确保信息全局一致性。该框架在三个现有长上下文基准测试中均超越所有基线模型，平均领先GPT-4.1达6.6分；在包含390万和3600万token的两个新基准上，相较次优模型的优势分别扩大至约19分和32分，展现出卓越的大规模文档处理能力。

检索增强论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

53

为冻结大语言模型学习证据高亮（Learning Evidence Highlighting for Frozen LLMs）

HiLight 是一个证据强调框架，它将证据选择与推理过程解耦，专门用于服务参数冻结的大语言模型。该框架训练一个轻量级的“强调执行器”，在不改动原始上下文的前提下，仅围绕关键证据片段插入最少量的高亮标记，从而避免压缩或重写输入可能导致的证据丢失或扭曲。随后，冻结的“求解器”模型基于被强调的输入进行下游推理。该方法将高亮视为弱监督决策问题，仅利用求解器的任务奖励通过强化学习优化执行器，无需证据标注，也无需访问或修改求解器。在序列推荐和长上下文问答任务中，HiLight 的性能持续优于基于提示和自动提示优化的基线方法。学习到的强调策略能够零样本迁移到未见过的、或大或小的求解器模型家族，包括基于 API 的求解器，这表明执行器捕捉到了真实且可复用的证据结构，而非对单一骨干模型过拟合。

检索增强推理论文/研究

4月22日

03:06

Google Gemini@GeminiApp

如果你还没有使用 Gems 来优化 Gemini 中的工作流程，现在是时候开始了。 Gems 让你能够快速复用提示词并添加参考文件。打开侧边面板，创建一个 gem，将重复性任务变成一键操作。

智能体 Google 检索增强教程/实践

4月21日

12:34

HuggingFace Daily Papers（社区热门论文）

MathNet：全球多模态数学推理与检索基准

本文提出MathNet，一个大规模多语言奥林匹克数学基准，收录47国17种语言的30,676道专家命题，跨越二十年竞赛历史。该基准支持问题求解、数学感知检索及检索增强问题求解三项任务。实验显示，即使最先进的推理模型（Gemini-3.1-Pro 78.4%、GPT-5 69.3%）仍面临挑战，而嵌入模型在数学等价检索上表现不佳。研究表明，DeepSeek-V3.2-Speciale通过检索增强技术实现最高12%性能提升，创下基准最高分。

DeepSeek OpenAI 检索增强推理

10:10

IT之家（RSS）

RAG AI 测试：AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%

摩根士丹利基于开源 X3D RAG 基准测试显示，在 RAG AI 向量搜索场景中，AMD 3D V-Cache 处理器性能较非 X3D 型号最高提升 88%。10 万批量搜索中，Ryzen 3D V-Cache 芯片速度领先 88%；20 万规模下，Ryzen 7 9850X3D 较 9700X 提升超 50%，甚至超越 16 核的 9950X。大容量缓存显著优化 HNSW 图检索算法，使索引构建耗时在 10 万和 20 万规模下分别缩短 50% 和 39%。

检索增强评测/基准部署/工程

4月20日

08:00

HuggingFace Daily Papers（社区热门论文）

面向指令遵循信息检索的双视角训练

研究人员提出基于极性反转的双视角数据合成策略，通过提示 LLM 生成互补指令，使相关文档与违反指令的难负样本交换相关性标签，强制检索器依据指令而非固定主题线索重新评估候选集。在 305M 参数的编码器上，该方法在 FollowIR 基准测试中性能提升 45%，超越同等或更大规模的通用嵌入模型。实验表明数据多样性与指令监督具有互补作用，前者保持通用检索质量，后者提升指令敏感度。

arXiv 检索增强数据/训练论文/研究

4月19日

08:00

HuggingFace Daily Papers（社区热门论文）

语码转换信息检索：基准测试、分析与现有检索器的局限

研究人员发布CSR-L和CS-MTEB两项基准测试以评估混合语言检索场景，后者涵盖11类任务。实验显示，语码转换使检索性能最高下降27%，其根源在于纯文本与混合文本在嵌入空间存在显著差异。即使采用词汇扩展等标准多语言技术也无法完全消除该缺陷，暴露出当前系统在处理自然混合语言查询时的结构性脆弱。

arXiv 检索增强论文/研究

4月18日

00:58

AK@_akhaliq

39

UniDoc-RL 具有分层动作和密集奖励的从粗到细视觉 RAG 论文： https://huggingface.co/papers/2604.14967

检索增强多模态论文/研究

4月17日

21:02

HuggingFace Daily Papers（社区热门论文）

基于LLM的密集检索器鲁棒性研究：泛化性与稳定性系统分析

本文首次系统研究开源LLM密集检索器的鲁棒性，从泛化性与稳定性双维度，在覆盖30个数据集的4项基准上评估。发现指令微调模型虽整体优异，但针对复杂推理优化的模型存在"专业化税"，泛化能力受限。稳定性测试表明，LLM检索器对拼写错误和语料库投毒攻击比仅编码器基线更鲁棒，但对同义词替换等语义扰动仍敏感。嵌入几何结构（如角度均匀性）可预测词汇稳定性，且扩大模型规模通常能提升鲁棒性。

arXiv Hugging Face 检索增强论文/研究

17:53

HuggingFace Daily Papers（社区热门论文）

无需检索，只需导航：将企业知识蒸馏为可导航的 Agent 技能用于 QA 和 RAG

Corpus2Skill 通过迭代聚类与分层摘要生成，将企业文档语料库离线蒸馏为树状可导航技能目录，使 LLM 智能体在 serving 时能够全局浏览语料结构、主动深入主题分支并回溯优化检索路径，实现从被动消费证据到主动导航探索的范式转变。在 WixQA 企业客服基准测试中，该系统在所有质量指标上均超越密集检索、RAPTOR 及 agentic RAG 基线。

智能体 arXiv 检索增强论文/研究

10:53

HuggingFace Daily Papers（社区热门论文）

UniDoc-RL：基于层次化动作与密集奖励的由粗到细视觉RAG

针对现有视觉RAG系统忽略细粒度视觉语义的问题，本文提出UniDoc-RL统一强化学习框架。该方法将视觉信息获取建模为层次化顺序决策过程，通过从粗粒度文档检索到细粒度图像选择再到主动区域裁剪的渐进式策略，使大型视觉语言模型智能体联合执行检索、重排序与推理。引入密集多奖励方案为每个动作提供任务感知监督，并基于GRPO算法实现端到端训练而无需价值网络。在三个基准测试中，该方法相比现有基于RL的方法性能提升最高达17.7%。

智能体 arXiv 检索增强论文/研究

02:50

Google Gemini@GeminiApp

这场活动即将开始！在此加入 Gemini Discord：http://discord.gg/gemini 【引用 @GeminiApp】：准备好充分利用 Gemini 中的笔记本了吗？加入 @GoogleDeepMind 产品经理 Rebecca Zapfel 的直播演示，了解如何掌握多模态上下文、持久记忆、项目组织，以及如何使用 @NotebookLM 笔记本作为来源。随后将进行实时问答。 📅 本周四，4 月 16 日上午 11：30（太平洋时间） 👉还没加入我们的 Discord？在此加入：http://discord.gg/gemini

Google Gemini: Ready to make the most of notebooks in Gemini? Join @GoogleDeepMind Product Manager, Rebecca Zapfel, for a live demo on ...

DeepMind Google 检索增强产品更新

4月16日

21:00

Cloudflare Blog

AI Search：面向智能体的搜索原语

AI Search 作为面向智能体的搜索基础组件发布，支持动态创建实例、上传文件，并基于混合检索与相关性增强技术实现跨实例搜索。用户只需完成创建搜索实例、上传文档、执行检索三步操作，即可为 Agents 快速构建高效的知识检索能力，满足智能体对信息查询与知识管理的核心需求。

智能体检索增强产品更新

11:47

HuggingFace Daily Papers（社区热门论文）

MERRIN：嘈杂网络环境中的多模态证据检索与推理基准

研究团队发布MERRIN基准，评估搜索增强智能体在嘈杂网络环境中的多模态证据检索与推理能力。该基准涵盖视频、音频等未充分探索模态，要求智能体在无明确模态提示的查询下检索复杂且常含噪声或冲突的证据。测试显示，10个模型（包括GPT-5.4-mini、Gemini 3/3.1及Qwen3系列）平均准确率仅22.3%，最佳达40.1%。研究发现，强智能体虽表现更优，但因过度探索导致资源消耗高而准确率提升有限，且相比人类存在信源选择低效和过度依赖文本模态的问题。

智能体 arXiv 检索增强多模态

10:47

HuggingFace Daily Papers（社区热门论文）

ROSE：面向检索的分割增强

研究团队提出即插即用框架ROSE，通过引入互联网检索增强生成、文本与视觉提示增强及WebSense智能调度四大模块，解决多模态大语言模型在分割训练数据外新颖实体与需实时信息新兴实体时的知识滞后问题。同步构建的NEST基准测试用于评估此类场景。实验显示，ROSE在NEST基准上较Gemini-2.0 Flash检索基线提升19.2 gIoU，显著增强模型对实时网络信息的利用能力。

arXiv Hugging Face 检索增强多模态

4月15日

12:44

宝玉@dotey

开源项目推荐：BlockNote

BlockNote是基于React的开源富文本编辑器，采用Notion风格Block模式，基于ProseMirror和Tiptap构建。通过高层封装显著降低集成门槛，几行代码即可部署完整UI。核心亮点是原生AI支持，可接入OpenAI等模型实现写作辅助。协议分层需注意：核心功能采用MPL-2.0允许商业自由使用，但AI集成等xl-系列高级包基于GPL-3.0，闭源项目需购买商业许可。适合追求快速落地的CMS、知识库等场景。

Anthropic OpenAI 检索增强开源/仓库

00:59

Sundar Pichai@sundarpichai

Google 2025报告：AI赋能全美小企业数字化

Google发布2025美国经济影响报告，揭示其通过数字生态助力小企业发展的成效。数据显示，Google已连接1950万家企业与客户，并为超35万名企业主提供数字技能培训。报告同时指出，Gemini、NotebookLM等AI工具正被广泛应用于客户报告生成、内部知识库构建等场景，帮助小企业提升运营效率。目前，Google的数字化支持网络已覆盖全美各州。

Google 检索增强行业动态

4月14日

22:03

TestingCatalog News 🗞@testingcatalog

NotebookLM 将会变得超强 👀 > Google 正在为 NotebookLM 开发新的 Canvas 体验和 Connectors 支持。 > Canvas 模式让用户能够从笔记本来源生成任何数据的可视化呈现。 > 最近设置菜单中新增了一个 Connectors 选项（目前隐藏）。 > 看起来在 Google I/O 上，我们将看到支持 Canvas、Connectors 和 Personal intelligence 的新版 NotebookLM。

Google 检索增强产品更新多模态

4月13日

08:00

HuggingFace Daily Papers（社区热门论文）

时间并非标签：面向时序知识图谱与智能体记忆的连续相位旋转

研究团队推出RoMem时序知识图谱模块，采用连续相位旋转机制替代传统离散时间标签。预训练语义速度门为不同关系分配波动率分数，使"总统"等易变关系快速旋转而"出生地"等持久事实保持稳定，通过几何阴影遮蔽过时信息而非直接删除。该方法在ICEWS05-15数据集取得72.6 MRR的SOTA成绩，应用于智能体记忆时在MultiTQ时序推理任务实现2-3倍MRR提升，并在LoCoMo、DMR-MSC及FinTMMBench基准测试中展现零退化与零样本泛化能力。

智能体 arXiv 检索增强论文/研究

4月12日

08:00

HuggingFace Daily Papers（社区热门论文）

PersonalAI：个性化LLM智能体知识图谱存储与检索方法的系统比较

本文提出PersonalAI，一种基于知识图谱的灵活外部记忆框架，由LLM自动构建和更新。该框架在AriGraph基础上引入混合图设计，支持标准边与两种超边，实现丰富的语义和时间表示。系统集成A*、WaterCircles遍历、束搜索等多种检索机制，在TriviaQA、HotpotQA及扩展版DiaASQ基准测试中验证表明：不同任务需配置不同记忆与检索策略。研究还扩展DiaASQ数据集，添加时间注释和矛盾陈述，证明系统在时间依赖管理和上下文感知推理中的鲁棒性。

智能体 arXiv 检索增强论文/研究

4月10日

23:20

TestingCatalog News 🗞@testingcatalog

40

Kimi发布了专业数据集成功能，允许用户访问全球金融数据、股票金融数据、学术数据和世界银行数据。数据数据数据 👀

检索增强产品更新

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

在 ChatGPT 中处理文件

了解如何在 ChatGPT 中上传 PDF、电子表格等文件，利用该功能分析数据、总结文档，并基于文件内容生成新内容。

OpenAI 检索增强教程/实践

4月9日

17:30

公众号：通义实验室（千问）

56

VimRAG：图文视频全模态知识库开源框架

VimRAG 是一个开源框架，通过模态统一记忆技术，支持图文视频全模态知识库，告别分模态处理，实现一体化管理。

检索增强多模态开源/仓库

4月8日

08:00

HuggingFace Daily Papers（社区热门论文）

ATANT：AI 连续性评估框架

研究团队发布 ATANT 开源评估框架，用于衡量 AI 系统跨时间保持上下文连续性的能力。框架定义了连续性的 7 项必要属性，采用无 LLM 参与的 10 检查点方法，包含 250 个故事和 1,835 个验证问题。评估显示，参考实现从遗留架构的 58% 提升至隔离模式 100%，250 故事累积模式下达 96%。该框架系统无关、模型独立，可验证 AI 在多叙事共存时避免交叉污染的能力。

智能体 arXiv 检索增强论文/研究

4月3日

23:17

Claude@claudeai

精选

Microsoft 365 connectors 现已向所有 Claude 套餐开放，支持连接 Outlook、OneDrive 和 SharePoint，将邮件、文档及文件直接导入对话。用户可通过官网链接启用该功能。

Anthropic 检索增强产品更新

推荐理由：Claude全计划上线Microsoft 365集成，企业办公场景重大增强

3月30日

08:47

karminski-牙医@karminski3

GLM-5.1登顶全球SOTA，向量数据库测试刷新纪录

GLM-5.1在vector-db-bench向量数据库基准测试中登顶第一，实现从国产SOTA到全球SOTA的关键跨越。测试数据显示其性能已超越国际主流模型，展现强劲竞争力。相比之下，GPT-5.4-Pro(xhigh)单次测试成本高达150美元，价格劣势显著。作者将发布详细评测视频进一步解析GLM-5.1的技术表现与性价比优势。

检索增强模型发布

3月24日

04:47

OpenAI@OpenAI

ChatGPT 推出文件管理功能升级，支持通过工具栏快速引用最近文件、在对话中询问已上传内容，并在网页版侧边栏新增 Library 标签页集中浏览文件。该功能已向全球 Plus、Pro 及 Business 用户开放，EEA、瑞士和英国地区即将上线。

OpenAI 检索增强产品更新

3月23日

08:00

Google Developers Blog（RSS）

精选71

使用 LlamaParse 与 Gemini 3.1 构建智能金融助手

结合 LlamaParse 与 Gemini 3.1 模型，可从复杂的非结构化文档中提取高质量数据。该方案采用事件驱动架构，利用 Gemini 3.1 Pro 对密集的金融表格进行智能解析，并使用 Gemini 3.1 Flash 进行高性价比的摘要生成。开发者通过此教程可构建个人财务助手，将杂乱的经纪账户对账单转化为结构清晰、易于理解的分析报告。

智能体 Google 检索增强教程/实践

推荐理由：开发者可快速上手构建财务AI助手，将杂乱数据转化为结构化见解。

3月18日

00:00

Google Gemini@GeminiApp

Google 在美国将 Personal Intelligence 功能向更多用户免费开放，覆盖 Gemini 应用和 Chrome 浏览器中的 Gemini。用户可选择连接 Search、Gmail、Google Photos 和 YouTube 等 Google 应用，获取更智能、个性化的回答。

Google 检索增强产品更新

3月17日

08:00

HuggingFace Daily Papers（社区热门论文）

32

AgriIR：一个可扩展的领域特定知识检索框架

本文提出AgriIR，一个可配置的检索增强生成框架，旨在以低计算成本提供基于事实的领域特定答案。该框架将信息获取过程分解为声明式模块化阶段，包括查询优化、子查询规划、检索、合成与评估，无需修改架构即可适配新知识领域。参考实现面向印度农业信息获取，集成了10亿参数语言模型、自适应检索器和领域感知智能体目录。系统强制执行确定性引用，集成遥测数据以确保透明性，并包含自动化部署资产以实现可审计、可复现的运行。该设计表明，精心设计的流程能在有限资源下实现领域精准且可信的检索，体现了“农业人工智能”的理念，通过提升可访问性、可持续性和可问责性，推动检索增强生成系统的发展。

检索增强论文/研究部署/工程

3月16日

00:00

Google Research：Blog（网页）

用高温超导问题测试 LLM 的研究能力

Google Research 与康奈尔大学在 PNAS 发表研究，评估六个 LLM 回答高温超导领域专家级问题的能力。测试包含 67 个关于铜氧化物超导机制的深层问题，由 12 位国际专家评分。结果显示，基于 15 篇精选综述和 1726 个质量控制来源的封闭系统（NotebookLM 及定制系统）表现最优，而开放网络访问的模型准确性不足。研究表明，在专业物理领域，基于 curated 数据库的封闭系统比开放搜索更能提供准确、均衡的学术回答。

Google 检索增强论文/研究

2月28日

21:29

Hacker News：AI 热帖

Show HN： Now I Get It - 将科学论文转化为交互式网页

上传科学 PDF（建议小于 10MB，最大 32MB）至 Now I Get It，即可生成通俗易懂的交互式解释网页，当前输出公开可分享，私人账户功能即将上线。

检索增强产品更新