AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 54 条
全部一手资讯X论文
标签「RAG」清除
jason@jxnlco · 4小时前10

I will post a better version of the slides and share this with everyone.

译我将发布更高质量的幻灯片并与大家分享。

elvis@omarsar0 · 5小时前48

On top of it all, the PaperWiki automatically generates and maintains survey papers on all the AI topics I am interested in. All up-to-date. There simply doesn't exist anything like it. Just insanely useful.

译Elvis Saravia(DAIR.AI)分享了其构建的 PaperWiki——一个由 LLM 和代码智能体自动维护的知识库,用于研究工作流、社区论文策展及通讯。PaperWiki 从多源摄取论文,存储于 Obsidian 并用 qmd 索引,支持全文和语义搜索。设有每日更新自动化,结合 Opus-4.8 和 DeepSeek-V4-Flash 等模型维护。作者认为 LLM Wikis 是 AI 最有价值的应用之一,可帮助去噪、发现高质量论文,并计划开源相关组件(含 HTML artifact)。

meng shao@shao__meng · 4天前45

LoanLens 是一套基于 LandingAI 的 AI 审贷初筛系统:从六类借款人文档中抽取结构化字段、做欺诈检测与可解释评分,并附带仅限当前案件的 RAG 问答,把人工核对文档的工作自动化为第一遍机器审查。 处理流水线 6 类文档 → ADE 结构化抽取 → KPI → 欺诈检测 → 评分决策 → 案件 RAG 为何不用普通 OCR 审贷要的是 可接入业务逻辑的结构化证据,不是文本块: · Schema 驱动:按字段契约抽取,不是猜模板 · 可追溯:字段能回溯源文档 · 视觉层:AOD 补文本抓不到的布局/篡改信号 欺诈与评分 · 姓名一致性:六类文档姓名 TF-IDF 比对,相似度 < 0.95 告警 · 护照篡改:核心组件相对位置 vs 参考几何;严重视觉欺诈可直接否决 评分刻意简单透明(信用 23%、DTI 23%、收入时效 20% 等;≥60 批准,40–59 复核,<40 拒绝),审核员可 inspect 各信号贡献,无黑盒总分。

译LoanLens从六类借款人文档抽取结构化字段,进行欺诈检测与可解释评分,并附带案件RAG问答。采用Schema驱动抽取,可追溯字段来源;欺诈检测包括姓名TF-IDF比对和护照篡改检测;评分透明(信用23%、DTI 23%等),≥60批准,40–59复核,<40拒绝。

Rohan Paul@rohanpaul_ai · 7天前62

This study tests how often LLMs invent answers when they should rely only on supplied documents. The problem is that companies often use LLMs to answer questions from documents and they assume document-based LLM systems are safer because the model is given source material. This study shows that no model fully avoided fabrication, because even the best model made up answers 1.19% of the time at 32K context. For strong models, a more normal best-case rate was around 5% to 7%, while the middle model fabricated about 25% of answers to questions about facts that did not exist. Longer context made the problem much worse, and at 200K context every tested model fabricated at least 10% of the time. Shows that hallucination is not just a failure to retrieve the right sentence. A model can be good at finding real facts and still be too willing to answer when the requested fact is absent. ---- Link – arxiv. org/abs/2603.08274 Title: "How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms"

译一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现:最佳模型在32K上下文下虚构率1.19%;强模型通常为5%-7%;中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时,所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明,幻觉不仅是检索失败,模型即便能正确找到事实,也易在事实缺失时过度作答。

AYi@AYi_AInotes · 6月19日79

卧槽,阿里把内部用了多年的向量数据库直接开源了,Pinecone每月70刀的能力,它pip一行免费就能用,十亿向量毫秒级还不用单独起服务🤯 以后做RAG和AI搜索的,不用再每月给Pinecone交70美金了! 阿里内部跑了多年的向量数据库开叫Zvec, 一行pip install就能跑,完全免费。 三个最硬核的特性, 1️⃣十亿向量毫秒级检索,不用单独起服务,直接嵌进应用进程。 2️⃣从服务器到桌面端再到树莓派,全平台通吃。 3️⃣全语言官方SDK,v0.5.0新增原生全文混合搜索,向量关键词过滤器一次查完。 我觉得阿里这是把自用的生产级轮子,直接拆给全行业用了,以后AI应用的底层底座,又多了一个免费的靠谱选项啦~ pip install zvec。

译阿里开源内部向量数据库Zvec,pip install zvec免费使用,对标Pinecone每月70美元能力。支持十亿向量毫秒级检索,无需单独起服务,全平台兼容;v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授(causal-learn作者)提出AI四代范式:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型,认为当前正站在第四代门口。其创立的Aether AI完成首轮融资,致力于从视频中自动抽取物理规律,探索下一代因果AI范式。

OpenBMB@OpenBMB · 6月15日43

LLMs keep getting more fluent—but can you actually verify what they say? Structured KBs like Wikidata lack text grounding. Annotation-based datasets like FEVER are too small and monolingual. Synthetic expansion just produces hallucinations at scale. The trilemma between authenticity, scale, and structure has gone unsolved. ❓ Today, we dive into FactNet—a landmark contribution by @TsinghuaNLP (OpenBMB member) alongside researchers from TU Munich, Modelbest Inc., and Minzu University of China. FactNet constructs a billion-scale, open-source multilingual knowledge graph that unifies structured Wikidata assertions with auditable, byte-level evidence pointers from 316 native Wikipedia editions. 🤗 Paper: https://huggingface.co/papers/2602.03417 📄 arXiv: https://arxiv.org/abs/2602.03417 💻 Code & Data: https://github.com/yl-shen/factnet Why it matters: 1⃣️ Billion-Scale & Truly Multilingual: FactNet unifies 1.7B atomic assertions into 1.55B FactSynsets, backed by 3.01B grounded evidence spans across 316 languages. Even the bottom-200 languages hold 2.7% of all evidence—a scale no prior resource has achieved with native, auditable text grounding. 2⃣️ Byte-Level Provenance, Zero Stochastic Inference: Unlike synthetic datasets that sever the connection to authentic sources, FactNet is built through a fully deterministic three-stage pipeline. Every FactSense carries a recoverable pointer (page ID, revision ID, Unicode character offsets), achieving 99.63% exact re-localization on a 1M-sample test. 3⃣️ 92.1% Grounding Precision Across 316 Languages: Human audit of 4,200 items confirms design-weighted precision of 0.921 (95% CI [0.913, 0.929]). WIKILINK_ENTITY and INFOBOX_FIELD matchers cover 55% of evidence at precision above 0.94. Low-resource languages still achieve 0.885—validating deterministic segmentation for tail languages. 4⃣️ FactNet-Bench Sets a New Evaluation Standard: Three tasks (KGC, MKQA, MFC) explicitly penalize leakage—removing predicate masking alone inflates KGC MRR anomalously from 0.298 to 0.351. Grammar-guided decoding boosts valid parse rate from 88.5% to 95.2% on MKQA. MFC Top-5 aggregation reaches 0.73 accuracy and 0.54 Span F1. FactNet resolves the authenticity-scale-structure trilemma and builds the foundation for AI systems that are not just knowledgeable, but structurally grounded and inherently verifiable. #AI #THUNLP #OpenBMB #KnowledgeGraph #FactChecking #NLP #LLM #MultilingualAI

译面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet,构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets,附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据(页面ID、修订版ID、Unicode偏移),99.63% 精确重定位。人工审计 4,200 项,设计加权精度 92.1%(低资源语言 88.5%)。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务,显式惩罚信息泄露,为可验证 AI 提供结构化事实基础。

AYi@AYi_AInotes · 6月14日63

强烈推荐所有做 RAG 的人收着这个项目,这款 PDF 解析器比 Marker 快 116 倍,准确率更高,本地 CPU 就能跑还完全开源。 叫做OpenDataLoader PDF, 专为 RAG 管道打造的 PDF 解析器, 基准综合第一,得分 0.907,GitHub 2.4 万星🌟, 搭过 RAG 的朋友应该都懂那种绝望, PDF 进去之后,阅读顺序乱了,表格压成一行, 公式变成一堆符号,多栏排版全错位, 大模型再强也没用,毕竟进来的就是烂的, 几个我觉得做得比较扎实的地方: 1、200 份真实文档测出来的(含多栏/学术论文/财报) 2、本地 CPU 运行,不需要 GPU,每页只要 0.46 秒 3、表格/公式/图片/图表 + OCR 80+ 语言,扫描件直接能进 4、输出 Markdown / JSON(含坐标边界框)/ HTML,LangChain 原生集成 有个对比数据看了有点炸, Marker 跑一页 PDF 要 53.9 秒, OpenDataLoader 跑一页 0.46 秒, 快了 116 倍,综合准确率还比它高, 常规页面本地规则高效搞定, 遇到极度复杂的特殊页面才交 AI 增强, 不是脑子一热全交大模型烧钱那种, Apache 2.0,商用完全没顾虑, 支持知识库入库/文档问答/论文解析/合同分析, 在RAG 管道里这一环,终于有人做得比较扎实了, LangChain 原生集成:pip install langchain-opendataloader-pdf GitHub 🔗评论区一楼见⬇️

译OpenDataLoader PDF是专为RAG管道设计的开源PDF解析器,在200份真实文档(含多栏、学术论文、财报)测试中综合基准得分0.907排名第一,GitHub 2.4万星。本地CPU运行,无需GPU,每页处理仅0.46秒,比Marker快116倍且准确率更高。支持表格、公式、图片、图表解析及OCR(80+语言),输出Markdown、JSON(含坐标边界框)、HTML。原生集成LangChain(`pip install langchain-opendataloader-pdf`)。采用Apache 2.0许可,可商用。

AYi@AYi_AInotes · 6月12日70

一群 AI 研究员把量化金融的知识处理框架开源了,叫 QuantMind(MIT 协议)。 它不是 Bloomberg Terminal 的替代品,但确实在干一件类似的事:把 arXiv 量化论文、SEC filings、研报、博客等非结构化内容,批量解析成可查询的语义知识图谱。 核心优势在于两阶段架构:先把文献一次性提取并结构化(支持表格、公式、图表的多模态解析), 之后你用自然语言提问就能进行多跳推理和交叉验证,提取的知识会长期留存,后续查询成本很低。 它真正能替代的其实是对冲基金花六位数薪水让初级分析师干的「大量读论文、整理观点、做文献综述」这类工作。 以前的信息差很大一部分来自「我还没来得及读那篇关键论文」,但是现在这个借口正在快速失效, 但咱们也别误会,真正的 alpha 依然来自你问的问题、验证的严谨程度,以及把洞见转化为行动的能力, 工具只是把「读文献」这个基础环节的成本大幅降低了。

译一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

ginobefun@hongming731 · 6月10日64

BestBlogs 早报 · 06-10 # Claude Fable 5 / 企业智能体 / 双语语音 Agent / RAG / AI 治理 [1] ★ 精讲|Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5 Anthropic 将 Claude Fable 5 推向大众,并把同一底层模型以 Mythos 5 形式给可信网络安全伙伴使用。原文把能力提升、安全降级和价格放在一起:高风险请求平均少于 5% 会降级到 Opus 4.8,价格为每百万输入 10 美元、输出 50 美元,还列出 50-million-line 代码迁移、药物设计约 10 倍加速等案例。 来源:Anthropic News https://www.bestblogs.dev/article/11f30fed [2] ★ 精讲|语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 ServiceNow AI 在 Hugging Face 发布语码转换 ASR 基准,直接切中语音 Agent 的真实入口问题:双语用户会在 HR 和 IT 服务场景中自然切换语言。它覆盖 4 组语言对、7 个 ASR 系统,并用 WER、SWER、AER 区分转写准确率和下游语义影响,结论是 Scribe V2、Gemini 3 Flash 与 AssemblyAI 在双语输入上最稳,更贴近生产。 来源:Hugging Face - Blog https://www.bestblogs.dev/article/4aec841d [3] ★ 精讲|Salesforce 从 20,000 个企业智能体部署中学到的经验 ByteByteGo 借 Salesforce Agentforce 的 20,000 个企业客户复盘生产级 Agent:支持 Agent 已处理 3 million 次对话,但真正难点是上线后运营。文章把传统软件的工作量分布反转成 AI Agent 90% 在上线后,并用 135,000 篇帮助文档、100K 到 2K tokens 的上下文裁剪说明反馈循环、KPI 和确定性流程为什么比继续堆 prompt 更关键。 来源:ByteByteGo Newsletter https://www.bestblogs.dev/article/d12e437d [4] 如何更科学、方向可控的实现 Skill 的“自进化”? 本文深入解析 Trace2Skill、EvoSkill、SkillOpt 三篇里程碑式论文,对比归纳法、自验证与训练范式三种 Skill 自进化路径,探讨如何更科学、可控地实现 Agent Skill 的自动化迭代。 来源:阿里云开发者 https://www.bestblogs.dev/article/8fcfc162 [5] 生产环境中常见的 10 个 RAG 错误 本文指出了生产级 RAG 系统中十个常见陷阱,这些陷阱分布在解析、问题解析、检索和生成四个环节,并论证了大多数失败源于将文档和问题视为非结构化字符串而非结构化对象。 来源:Towards Data Science https://www.bestblogs.dev/article/37dc70a7 [6] 只给一份文档,Qwen3.7-Max 从 0 交付双端应用 本文详细介绍了通义实验室与 Efflora 团队基于 Qwen3.7-Max 模型,仅凭一份产品调研文档,在隔离环境中从零交付移动端和 Web 端两套可运行应用的实验过程与工程方法论。 来源:通义实验室 https://www.bestblogs.dev/article/8d85909c [7] Gemini 引导式学习:塞拉利昂随机对照试验结果 塞拉利昂的一项随机对照试验表明,Google Gemini 的引导式学习功能显著提升了数学学习效果,学生在八周内取得了相当于 2.5 年的学业进步。 来源:Google DeepMind News https://www.bestblogs.dev/article/a01d514e [8] 4000 行代码撑起一个 Agent 框架?nanobot 架构深度解析 本文深度解析开源 Agent 框架 nanobot 的架构设计,分析其以 4000 行核心代码实现极简 ReAct 循环、Markdown 技能系统、文件系统记忆等关键决策的优势与局限,并提炼可迁移的架构模式。 来源:腾讯云开发者 https://www.bestblogs.dev/article/9a3cb912 [9] OpenAI 如何打造 AI 原生财务团队:工程师嵌入、ChatGPT、Codex 与工作流智能体 [视频] OpenAI 财务负责人 Stacie Faggioli 介绍,公司如何把工程师、ChatGPT、Excel 智能体、Codex 仪表盘和工作流智能体嵌入财务流程,用更精简的团队运营 AI 原生财务组织。 来源:OpenAI https://www.bestblogs.dev/video/d90e3d0 [10] 业界首次:DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地 本文由招商银行信息技术部撰写,详细介绍了基于 SGLang RBG 组件在国产 AI 芯片上落地 DeepSeek-V4 大 EP 推理服务的云原生方案,重点剖析了动态端口分配、服务发现、多级故障自愈与原地升级等核心机制的设计与实现。 来源:AI 前线 https://www.bestblogs.dev/article/e9abd77b --- http://BestBlogs.dev · 发现真正适合你的高质量内容 根据你感兴趣的来源和兴趣标签,每天为你生成一份专属的「我的早报」。立即体验:https://bestblogs.dev

译Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。

AYi@AYi_AInotes · 6月10日74

分享一个开源免费的省token神器,17k star,本周增速最快的项目之一, 可以把AI API账单直接砍到原来的1/5,回答质量还不变, 这就是刚火起来的 headroom,专门干一件事: 把所有要喂给AI的东西(输出、日志、文件、RAG块)先压缩一遍, 砍掉 60%-95% 的 token,最终回答质量完全没变。 最爽的是不用改一行现有代码, 直接当库、代理或者 MCP 服务器插进去就行,无缝对接所有大模型。 以前为了省token绞尽脑汁凑提示词, 现在一行配置,直接砍九成账单, 这才是所有AI开发者真正的刚需啊😲

译开源免费的 token 压缩工具 headroom 本周增速最快,已获 17k star。它专为所有 AI API 调用(输出、日志、文件、RAG 块)设计,压缩 60%-95% 的 token,将账单直接砍到原来的 1/5,且回答质量不变。无需修改一行现有代码,可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词,一行配置即可大幅降低 API 成本。

小互@xiaohu · 6月8日57

http://x.com/i/article/2063870567355400192 # Google 发布 Agentic RAG :搜不全就接着搜的"质检 Agent" 准确率提升 34% Agentic RAG 跨库检索 是 Google 给企业问答场景做的一套检索框架,靠多个 AI Agent 分工协作:让系统自己判断"搜到的资料够不够回答这个问题",不够就带着线索回去接着搜,凑齐了再开口。 - 它针对一个老毛病:传统 RAG 搜一轮就回答,可信息往往分散在不同数据库里,结果要么给半截答案,要么干脆甩一句"没找到"。 - 真正的新东西是一个叫 Sufficient Context Agent 的"质检员",专门检查信息够不够、到底缺哪一块,再让系统带着具体反馈回去补搜。 - 在 FramesQA 多跳问答测试里,准确率比传统 RAG 最高提升 34%;要从 4 个数据库里挑对地方检索时,仍能答对 90.1%,而且速度几乎没变慢(平均差距 3% 以内)。 一位医生在系统里输入:John Doe 做完膝盖手术,出院后用什么药、有什么饮食限制、住院期间有没有出现过敏反应? 系统转一圈回来:用药列在这里,低钠饮食列在这里。至于过敏,没找到。 麻烦就在这。过敏记录其实在档案里,只是没躺在最显眼的那几份文件里。系统第一遍没翻到,就当它不存在,干脆利落交了一份缺了一块的答案。对医生来说,“没查到过敏”和“没有过敏”是两回事,差这一点可能就是一次用药事故。 我们现在多少都在用“能查资料的 AI 助手”,也多半都遇过这种半个答案:问它一个稍微绕点的问题,它信心十足回你一段,看着挺像样,仔细一对,漏了关键一块,或者干脆编了一块。 Google Research 和 Google Cloud 在六月初联合发布了一套新框架,专门治这个毛病,名字叫智能体检索增强生成(Agentic RAG),目前在 Gemini Enterprise Agent Platform 上以公开预览(public preview)开放。它真正的新东西不是“搜得更强”,而是一个听起来很朴素的能力:让系统知道自己没找全。 ## 先说清楚:RAG 是什么,为什么它会一本正经地胡说 大语言模型(Gemini、GPT、Claude)有个天生缺陷:知识是训练时“背”下来的,背完就定格了。你问它公司昨天的财报、病人上周的检查结果,它压根不知道。 检索增强生成(RAG)就是给模型外挂一个能随时翻阅的资料库。 你提问时,系统先去库里搜出相关片段,连同问题一起塞给模型,让它“看着资料回答”。企业查内部文档、客服查产品手册、医院查病例,全靠这套机制。 问题出在一个魔鬼细节上:模型答得好不好,全看塞给它的资料够不够。 资料齐全,它头头是道;资料缺了一块,它不会停下来说“我手上的材料不够”,而是拿着残缺资料继续编,把缺的那块用想象补上。这就是“幻觉”。更要命的一点后面会讲到:喂资料有时反而让它编得更凶。 传统的 RAG 是“一步到位”式的:看一眼问题,去库里捞一把相关文档,丢给模型,完事。应付简单问题没问题,但企业里的问题往往一步查不完。 Google 博客里的例子:你问“Project X 用的服务器是什么配置?”系统找到了 Project X 的文档,可里头只写了一个服务器编号(ID),真正的配置参数存在另一个数据库,得拿这个 ID 再去那边查一次。传统 RAG 不做这第二步——它捞到文档发现没配置,就给你“半个答案”或一句“没找到”,不知道手里那个 ID 是把钥匙,更不知道还有另一扇门要开。信息散落在一座座彼此不通的“数据孤岛”上,传统 RAG 只在第一座岛上找。 ## 把多智能体系统想成一个有分工的研究部门 Google 这套框架的第一层改造,是不再让一个“搜索引擎”单打独斗,而是组一支有分工的研究团队。 传统 RAG 像个实习生:给他一个问题,他跑去档案室抓一把看着相关的文件就回来了。而这套多智能体(multi-agent)框架更像一个真正的研究部门,里面好几个角色各司其职: - 编排者(Orchestrator):部门主管。看一眼问题先做个判断“这不是一步能干完的活”,然后把任务拆开、分派下去。 - 规划智能体(Planner):制定路线的人。你问一个项目的预算和进度,他会规划“先查财务库,再查项目管理日志”,哪个信息在哪儿、按什么顺序取,由他安排。 - 查询改写智能体(Query Rewriter):翻译官。把含糊的话改成精确搜索词——你随口一句“Project X 怎么样了”,他拆成“Project X 第三季度状态报告”和“团队的关键阻塞”,机器照这种精确的词去搜,命中率高得多。 - 搜索扇出智能体(Search Fanout):同时跑腿的人。把改写好的多条查询一次性并行发给多个资料源,把片段都收集回来。 - 综合智能体(Synthesis):最后执笔的人。材料齐了,由他把所有片段整合成一份干净、准确的答案。 到这一步你可能觉得,多请几个人分工干活,也只是把传统 RAG 做得精细了点,市面上别家的“多智能体 RAG”也是这个路数。 Google 这套真正不一样的地方,是下面这个。 ## 核心创新:一个站在流水线尽头的“质检员” 这个新角色叫充分上下文智能体(Sufficient Context Agent),是这套框架和别家最不一样的地方。 最直白的比喻:它是站在流水线尽头的质检员。 别的环节都在埋头搜资料、攒材料,只有它专管一件事:在答案生成之前,检查手里这堆材料到底够不够回答问题。 它和其他多智能体 RAG 的根本区别,Google 用一个词概括:持续性(persistence)——发现信息不够时,它会让系统回去接着搜,直到材料凑齐为止,而不是两种偷懒做法二选一:要么第一次没搜到就硬着头皮瞎编,要么干脆甩一句“我没有足够的信息”。 后面这句看着挺诚实,其实常常是另一种失职:信息明明就在库里,只是第一遍没翻到。该接着找的时候放弃,和该停的时候硬编,是同一个病的两种症状——系统不知道自己手里到底缺什么。 这位质检员具体查三件事: 第一,检查捞回来的资料片段。 它去读搜索智能体从库里实际拉出来的文本块,比如医生那例子里“出院小结”和“营养记录”的具体段落,一句句读,判断回答这个问题需要的信息到底在不在这些句子里。 第二,对照一份“粗稿”。 系统先用现有材料生成一份草稿答案,质检员把三样东西摆一起看:原始问题、这份粗稿、捞回来的资料片段。问题问了三件事(用药、饮食、过敏),材料里只有两件,它立刻标记“上下文不充分”。 第三,也是最关键的:缺失分析。 质检员不会只甩一句“材料不够”就完事,那等于没说。它会生成具体的原因和反馈,精确指出缺的是哪一块、回去该搜什么。还是医生那例子,它发现过敏记录缺失后,输出不是“信息不全”,而是这样一段: > 已有的:用药清单和低钠饮食说明。 缺的:源文件里关于住院期间过敏反应或不良事件的信息。 怎么办:回去专门搜“皮疹”或“不良事件”。 有了这条精确反馈,查询改写智能体立刻据此造一条新搜索,搜索智能体回头深挖第一遍忽略掉的那些文件,这次找到了过敏记录。质检员再核一遍,确认用药、饮食、过敏三样齐了,才放行。 整个流程一共五个阶段:编排 → 搜索 → 充分上下文检查 → 迭代 → 综合。前两步别家也有,真正让它和“瞎猜”或“放弃”分道扬镳的,是中间那个会反复较真的质检员。 ## 整套思路的起点:相关,不等于够用 这套思路背后,藏着一个非常出人意料、也非常容易被忽略的判断,它来自 Google 一年前的一篇前作研究。这才是整件事真正的思想源头。 过去人们衡量“搜来的资料好不好”,几乎只看一个指标:相不相关。资料跟问题沾边,就算搜得不错。但 Google 这帮研究者说,相关是个错的尺子,真正该问的是另一个问题:这些资料够不够回答问题? 相关,和够用,是两码事。 看一个例子就懂 问题是:404 报错(网页打不开时常见的“页面未找到”)这个编号,据说是以某个实验室里编号为 404 的房间命名的,那个存放着错误信息中央数据库的房间,在哪个著名实验室里? 来看两段都“相关”的资料: 第一段: 404 报错得名于 CERN(欧洲核子研究中心)的 404 号房间,那房间当年存放着错误信息的中央数据库。 第二段: 404 报错表示网页服务器找不到你请求的页面,原因可能有很多:网址打错了、页面被移动或删除了,或者网站临时出了点问题。 你看,第二段和这个问题极其相关,确实在讲 404 是什么,任何一个只看“相不相关”的系统都会觉得它是个好结果。但它回答不了那个问题:404 房间到底在哪个实验室?答案(CERN)压根不在这段话里。 这就是“相关但不够用”。系统失败,往往不是因为搜来的东西不相关,而是它把“相关”当成了“够用”,拿着一堆沾边但答不了题的资料,就大模大样地开始编答案了。 那篇前作还证明了一件挺关键的事:判断“上下文充不充分”,机器是能做到的,而且做得相当准。 他们造了个自动评分器(autorater),专门给“问题—资料”这一对打分,准确率至少有 93%。最有意思的是,效果最好的不是什么专门训练过的模型,而是直接拿 Gemini 1.5 Pro 写个提示词去问,连微调都不用。也就是说,“判断自己缺没缺信息”这件事,现成的大模型本来就会,只是过去没人专门让它去做。 ## 最让人意料之外的发现:喂资料反而让它编得更凶 还挖出两个让人意外的发现,直接解释了 RAG 为什么这么不靠谱。 第一个:顶级大模型普遍“不会认怂”: 拿 Gemini、GPT、Claude 这几个最强的模型做测试,结论很一致:它们资料充足时答得非常好,却普遍缺乏“识别资料不够”的能力。该弃权时不弃权,材料明明残缺,照样信心满满给你一个答案。会答题,但不会说“我不知道”。 第二个,是全文最出人意料的数字:直觉上,多喂点资料总该答得更准,研究者发现恰恰相反:喂了不充分的资料,模型反而更容易胡说。 一个叫 Gemma 的模型,在完全不给资料时答错率是 10.2%,可一旦喂给它不充分的资料,答错率直接飙到 66.1%——翻了六倍多。 为什么? 研究者的解释是:额外的资料抬高了模型的“自信”。 它面前摆着一堆看起来相关的材料,于是更倾向于相信“我手上有料,能答”,更愿意去编一个答案,而不是老老实实承认“我不知道”。资料越多,它越敢编。 两个发现合在一起,把问题的本质点透了:RAG 不靠谱,真正的病根不是“搜得不够强”,而是系统不知道自己没找全。 它分不清“相关”和“够用”,又天生不会认怂,手里材料一残缺,第一反应不是回去补,而是自信地往下编。 ## 实验:在 824 道刁钻题上,准确率最高提了 34% 光讲道理不够,看 Google 自己跑出来的数据。 他们用了一个叫 FramesQA 的评测集,专门挑那种“一步答不出来”的多跳问题,一共 824 道题,配一个装着 2676 份 PDF 文档的资料库。 题有多刁钻?看一道样例: > 截至 2024 年 6 月,收视率最高的两个电视剧大结局里,哪一个时长更长,长多少? 人来答这道题得分三步:先认出“收视最高的两个大结局”是哪两部剧(《陆军野战医院》和《干杯酒吧》),再分别查到它们的时长,最后算差值。任何一步断了,整道题就废了。传统 RAG 碰上这种题常卡在中间,给一句“反复检索后,我没找到明确时长”。而 Google 这套靠着查询改写和那位质检员,会先搜出是哪两部剧,再发起一次专门针对时长的精确搜索,最后由 Gemini 算出“前者大结局 150 分钟,是两者中更长的,比后者长 52 分钟”。这就是“持续性”的价值:第一遍没查到不是终点,而是再搜一轮的起点。 放大到 824 道题的规模上,对比标准 RAG,这套框架在事实性数据集上的准确率最高提升了 34%。这里的“标准 RAG”不是个软柿子:它用的是 Google 自家的 Vertex AI RAG Engine,本身就带了高级检索、大模型解析和重排序。能在这么强的底子上再提 34%,说明这提升是充分性检查加反复补搜实打实挣来的,不是靠垫高弱对手刷出来的。 还有一个更能说明问题的设置:跨库检索。研究者故意往资料库里额外混进 3 个不相干的“干扰数据集”,逼着规划智能体必须先判断“这道题该去哪个库取料”,模拟的是真实企业里不同数据库分属不同团队、散落各处的常见局面。结果是:即便要从 4 个库里选对那一个,系统仍然答对了 90.1%,几乎追平了只在单一库里检索的成绩——多了一道“找对库”的难关,准确率几乎没掉。 ## 另一面:有点贵,还有点慢 智能体 RAG 更准,是因为派了一支团队反复搜、反复查、反复迭代。 每多一个智能体、每多一轮迭代,都是实打实的算力和时间。综合行业经验,相比传统 RAG,它通常要多烧 3 到 10 倍的 token、延迟增加 2 到 5 倍。按每天 1 万次查询估算: 传统 RAG,每日成本约 $500,单次响应时间 1 - 2 秒智能体 RAG,每日成本约$1500 - $5000,单次响应时间,8 - 12 秒。 8 - 12 秒,对一个等答案的人已经到了怀疑系统是不是卡死的临界点;成本翻几倍,放到日查询百万次的业务上,就是按月几十万美元的差距。 这里有个数字特别要小心。Google 强调:跨库版本比单库版本,延迟只多 3%。听起来很漂亮,多查好几个库几乎不拖慢速度。 但这个 3% 是障眼法。它比的是「智能体 RAG 跑单库」和「智能体 RAG 跑跨库」,两边都是智能体 RAG,只是配置不同,差距当然小。真正该问的是另一件事:智能体 RAG 比传统 RAG 慢多少?答案就在上面那张表里,1-2 秒变成 8-12 秒,慢了好几倍。Google 用一个 3% 的小数字,把「比传统方案慢好几倍」这个大事实轻轻绕了过去。 另外,那些准确率数字(34%、90.1%)也是 Google 用自家「大模型当裁判」(LLM-as-a-judge)评出来的,是公开预览阶段的产品口径,不是中立第三方复现的结果,看的时候自己打个折。 ## 谁能用、怎么用、还差什么 这个功能现在是 Gemini Enterprise Agent Platform 上的公开预览。Gemini Enterprise Agent Platform 是 Google 今年 4 月 22 日在 Cloud Next '26 上推出的平台,本质是 Vertex AI 的升级换代版,主打企业级 AI Agent 的搭建、治理和扩展。入口在 RAG Engine 的 Cross Corpus Retrieval(跨库检索)文档里。 值得用的场景: - 多跳问题:答案散在多个数据源里,要查好几步、再做推理才能拼出来; - 模糊查询:用户问得含糊,需要先改写、再澄清才知道到底在问什么; - 高风险领域:法律、医疗、金融,答错的代价极高,慢一点、贵一点完全能接受,换来的是少出一次致命错误。 医生查病例那个开场例子,正落在这一类里:宁可多花八秒、多烧几倍 token,也不能漏掉一条过敏记录。 不值得用的场景: - FAQ 机器人、单一事实查询:答案就在某一个自包含的资料块里,一步就能捞到; - 速度或成本敏感的场景:用户等不起十秒,或者预算扛不住翻几倍,这时候传统 RAG 更快、更便宜,也更实际。 拿一支研究团队去回答一句 FAQ,是杀鸡用牛刀。 原文:https://research.google/blog/unlocking-dependable-responses-with-gemini-enterprise-agent-platforms-agentic-rag/

译Google 发布 Agentic RAG 框架,核心新增 Sufficient Context Agent,负责在生成答案前检查检索材料是否充分,若不充分则生成缺失分析并引导系统迭代搜索。在 FramesQA 多跳测试中准确率最高提升 34%,从 4 个数据库检索时正确率达 90.1%,速度仅慢 3% 以内。该设计基于前作发现:Gemini 1.5 Pro 判断“上下文充分性”准确率达 93%,且“相关≠够用”是幻觉关键原因。目前以公开预览在 Gemini Enterprise Agent Platform 开放。

AYi@AYi_AInotes · 6月8日62

Google的研究找到了一种把 AI记忆大幅压缩的技术,让本地跑大模型 + 自己数据变得更容易了。 也就是说可以把 1000 万个文档 的向量存储,从 31GB 内存 压缩到只剩 4GB,而且搜索速度还比现在最常用的 FAISS 更快。

译Google提出一种AI记忆压缩技术,可将1000万个文档的向量存储从31GB内存压缩至仅4GB,且搜索速度超过目前最常用的FAISS方法。该技术使本地运行大语言模型并结合个人数据变得更加可行。

ginobefun@hongming731 · 6月5日78

如果你的 Agent 还在全网垃圾里捞内容,不如先喂它 375 个高质量微信公众号 RSS 源。 🔽

ginobefun@hongming731 · 6月5日59

http://x.com/i/article/2062688720592175104 # BestBlogs 早报 · 06-05|ChatGPT 记忆升级、AI 研发自动化、SpaceX 资本版图 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-05 ## 导语 今天三篇精讲,表面看是 AI 产品、工程实践、商业披露三条赛道,但拼在一起隐约勾出同一轮廓:AI 能力正在渗透进系统的「记忆层」,改变的速度已超出预期。 ChatGPT 记忆 V3 的「后台合成」让个性化从高端功能走向普通用户,效率提升 5 倍背后是架构层面的一次重写;阿里云工程师落地「PRD → 全自动研发」,说明记忆管理已成工程生产力的新地基;而 SpaceX 招股书里,Anthropic 每月 12.5 亿算力合同提醒我们:这场竞赛底层是资本与算力的结构性押注。 带着一个问题读今天的内容会更有收获——「记忆」在不同尺度上意味着什么? 今日速览 - 精讲一:梦境:更强大的记忆,让 ChatGPT 更贴心 — OpenAI 官方揭秘 dreaming V3 架构演进 - 精讲二:AI 研发自动化:Wiki 知识库+技能包 — 阿里云工程师从零落地全自动研发流程 - 精讲三:"人类史上最大 IPO":SpaceX 靠的不只是火箭了? — 硅谷101 深度解读招股书亮点 ## 精讲一:梦境:更强大的记忆,让 ChatGPT 更贴心 从主动记录到后台合成:一次架构重写 ChatGPT 的记忆系统在两年间经历了三代演进,而每一代变化的背后,都是对「何为真正的个性化」这一问题的更深理解。 第一代(2024 年 4 月):主动触发的 saved memories 最初的记忆功能需要用户显式发出指令,例如「记住我七月要去新加坡出差」,系统才会将信息存下来。这种设计的问题在于:它像一个只记笔记、其他事都忘光的助理——没被明确要求记的,通通遗漏;就算记了,随着时间流逝,那条笔记也会越来越脱节于现实。 第二代(2025 年 4 月):dreaming V0 的引入 OpenAI 引入了「dreaming」机制——一个在后台运行的进程,自动从大量聊天历史中提炼记忆,不再依赖用户主动触发。这套机制与 saved memories 并存,带来了个性化质量的阶梯式提升,但作为独立系统仍不够完整。 第三代(2026 年 6 月):dreaming V3 全面接管 今天 OpenAI 发布的 dreaming V3,是对整个记忆架构的一次重写。核心变化是:记忆的合成发生在「写入时」,而非「查询时」。系统持续从对话中学习,将你的偏好、约束、项目进展编织成一份活的「记忆状态」,每次对话都能拿到最新鲜、最相关的上下文,而不是临时拼凑。 三大能力目标与实测进步 OpenAI 用三个维度来衡量「好记忆」: 1. 跨对话携带上下文:你说过一次的事,后续对话能记住。 1. 持续遵循偏好与约束:如果你说自己是素食者,ChatGPT 的每一次行动建议都该与此一致。 1. 随时间自动修正过时信息:「用户下周六要过生日」这条记忆,过了周六之后就该被更新,而不是永久残留。 实测数据显示,dreaming V3 在这三个维度上均显著优于前两代。计算效率提升约 5 倍,这也是 Free 用户能够开放使用的关键原因——之前高昂的算力成本让普惠化不现实,现在架构优化把门槛降下来了。 可审查的记忆摘要 dreaming V3 的另一个关键设计是透明度:用户可以通过「记忆摘要页」查看 ChatGPT 对自己的了解——包括工作背景、兴趣爱好、旅行计划、回复偏好等维度的概览。用户可以直接更正或删除特定条目,也可以告知 ChatGPT 哪些话题该主动提及、哪些应该回避。如果想深入了解某个具体方面,直接和模型对话就能获得详细解释。 为什么这件事值得重视 记忆能力的真正价值,在于它改变了 AI 与用户关系的基础假设。之前每次对话都从零开始,ChatGPT 是一个「无记忆的工具」;现在它逐渐接近一个「了解你的长期协作者」。这种转变对重度用户尤其关键——当你的使用习惯、项目背景、思维偏好被系统准确理解,互动质量会发生质变。 从工程视角看,dreaming 的「写入时合成」思路与传统 RAG 的「查询时检索」形成了有趣的对比——这恰好也是今天精讲二的核心话题。 > 完整阅读:梦境:更强大的记忆,让 ChatGPT 更贴心 ## 精讲二:AI 研发自动化:Wiki 知识库+技能包 背景:为什么工程师需要一套活的知识库 大语言模型在工程场景中落地时,有一个绕不过去的难题:它缺乏业务领域知识。通用模型不了解你们的代码仓库、技术方案、DDD 架构设计、历史决策与约束。每次开发任务,要么把大量上下文塞进 prompt,要么依赖工程师人工补全——效率仍然受限。 阿里云的这位工程师面对的是真实的生产挑战:一个含 3038 个 Java 文件的 DDD 代码仓,加上百余份文档。如何让 AI 真正「读懂」这个系统,并在此基础上辅助研发? 答案来自 Andrej Karpathy 在 2026 年 4 月提出的 LLM-Wiki 模式。 LLM-Wiki 的本质:从 RAG 到「写入时合成」 这里有一个绝妙的对比,与今天精讲一形成呼应。 传统 RAG(检索增强生成)的工作方式是:把文档切成 chunk,建向量索引,查询时检索相关 chunk 拼进上下文。这是「查询时合成」——每次回答前都重新拼装,知识本身没有被真正沉淀。 LLM-Wiki 的核心思想截然不同:把 LLM 从「每次查询时重新检索的 RAG 引擎」变成「持续维护个人 Wiki 的全职编辑」。知识不再每次重新发现,而是被一次次摄入、合并、交叉引用,沉淀为一份「不断变厚的、活的、可演化」的知识库。 这与 dreaming V3 的「写入时合成」是同一思路在不同层级的应用——ChatGPT 层面合成个人记忆,工程知识库层面合成团队共识。 三层架构: 层级内容谁维护L1: Sources(原始源)文档、图片、代码。LLM 只读不写。人类L2: Wiki(知识层)LLM 全权维护的 markdown 文件集合,含实体页、概念页、综述、对比页。LLML3: Schema(灵魂层)写给 LLM 的工作规范——目录约定、摄入流程、查询/巡检流程。人类 三个核心操作:Ingest(摄入并融合)、Query(查询并回写)、Lint(自检巡检)。 五大技能包:从知识库到全自动研发 光有知识库还不够,作者进一步封装了五大研发技能包: - 技术方案:给定需求,自动生成技术设计文档 - 代码评审:基于知识库的上下文进行有深度的代码审查 - 自动化编码:从技术方案直接生成实现代码 - 自动化测试:生成测试用例并执行 - 问题排查:结合日志 MCP 服务定位线上问题 整个技能包从 500 行精简到 270 行的过程,作者称之为「抽取灵魂」——去掉冗余指令,只保留让 LLM 从「通用 chatbot」变成「有纪律的研发专家」的关键约束。 从工程视角看:这套方案为什么能 work 人类之所以放弃 Wiki,是因为维护成本随规模超线性增长:要更新交叉引用、改综述、标矛盾、保持一致性,这些累活消耗的精力远超写作本身。LLM 不会累、不会忘、一次能改多个文件——维护成本被压到接近零,Wiki 才能长期活着。 最终目标是「用户提供 PRD,剩下工作全交给它」。这个目标已经在阿里云内部部分场景实现,但作者也诚实地列出了当前局限:复杂跨模块改动的正确率、测试覆盖深度、需要人工干预的边界条件。 对希望在团队落地 AI 研发自动化的工程师,这篇文章的参考价值极高——它不是概念宣讲,而是完整的实战路径记录,包括踩坑过程。 > 完整阅读:AI 研发自动化:Wiki 知识库+技能包 ## 精讲三:“人类史上最大 IPO”:SpaceX 靠的不只是火箭了? 招股书里最重磅的意外:450 亿美元算力合同 5 月 21 日,SpaceX 向 SEC 提交招股书,预计募资 750 亿美元,上市当天市值有望突破 2 万亿美元——这将是人类历史上最大的 IPO。但硅谷101 的这篇深度解读,关注的是主流报道之外的亮点。 最意外的发现:SpaceX 与 Anthropic 签订了一份价值 450 亿美元的算力合同。 合同条款如下:Anthropic 每月向 SpaceX 支付 12.5 亿美元,购买 Colossus 1 和 Colossus 2 两个数据中心集群的算力,合同执行至 2029 年 5 月。简单计算,这每年带来 150 亿美元收入。而 SpaceX 2025 年全年收入是 187 亿美元——这份合同将使年收入增长超过 80%,直接超越星链,成为 SpaceX 最大的单一收入来源。 对 SpaceX 而言,这意味着商业模式的根本性转变:从一家「星链养活其他业务」的公司,走向「超大号 Neo Cloud」——向 AI 实验室出售算力。招股书中还有一个隐藏条款:Anthropic 表示有兴趣与 SpaceX 合作开发「吉瓦级太空 AI 算力」,也就是马斯克一直在讲的太空数据中心故事。 马斯克随即发推,称有「多家」公司正在洽谈算力合同,Google 大概率是下一个大客户。 18712 枚比特币:非币圈公司持币最多 招股书披露 SpaceX 持有 18712 枚比特币,平均成本 3.5 万美元,按当前市值约 14.5 亿美元。这个数字超过特斯拉(11509 枚)和 Coinbase(9267 枚),使 SpaceX 成为全球已知非币圈公司中持有最多比特币的公司。 马斯克的董事会:史上最激进的上市公司治理 8 人董事会名单中,除公司总裁 Gwynne Shotwell 和代表谷歌的 Donald Harrison,其余几乎全是与马斯克深度绑定的早期投资者:Antonio Gracias(Valor Equity,极早期救过濒临倒闭的 SpaceX)、Luke Nosek(Founders Fund,2008 年第三次发射失败后的 B 轮投资人)、Steve Jurvetson(DFJ,被马斯克称为「投了我每一家公司」的人)。 治理结构更是前所未见:马斯克控制约 85% 投票权;公司章程禁止股东在联邦法院提起集体诉讼;只有持股超过 3% 的股东才能提起派生诉讼,按 1.75 万亿估值计算意味着至少 450 亿美元持股门槛。《财富》杂志指出,此前没有任何美国主要上市公司采用过类似条款。 这份设计的动机很清楚——马斯克曾被特拉华州法院否决薪酬方案,被 OpenAI 踢出局。这一次,他用法律文件把所有对自己不利的情况全部堵死。 V3 星舰:首飞不完美,但资本市场为何关注 就在提交招股书次日,V3 星舰完成首次试飞。整箭高度 124 米,搭载 33 台全新猛禽 3 发动机,近地轨道运力超 100 吨。试飞过程并不完美——一台猛禽 3 故障停机,原计划的发动机在轨重启被取消,一级火箭分离后出现燃烧异常。 但资本市场关注星舰,不是因为这次试飞,而是因为它代表 SpaceX 在可重复使用火箭技术上的持续投入。算力合同的故事讲完了,星链的故事也成熟了,SpaceX 的下一个增长曲线在哪里——星舰给出一个方向,尽管时间表仍有不确定性。 对 AI 格局的启示 这篇文章最值得关注的,其实不是 SpaceX 本身,而是 Anthropic 的算力战略。在算力短缺已成 AI 公司最大瓶颈的背景下,提前锁定未来三年大额算力——哪怕价格「小贵」——是理性的资源争夺。这份合同的存在,说明顶级 AI 实验室正在把算力保障从短期采购变成长期战略投入,竞争格局由此更加资本密集。 > 完整阅读:"人类史上最大 IPO":SpaceX 靠的不只是火箭了? ## 速览 本期精选 7 篇速览,涵盖 MCP 生成式 UI、AI 原生服务公司方法论、文学播客、Agent 记忆评测、AI 内容创作复盘、精神健康与科技战略。 超越组件:为 MCP Apps 设计生成式 UI 与人机协作画布 观看视频 Postman Staff Engineer Ruben Casas 在 AI Engineer 大会的演讲,核心论点是:现有 AI 应用还停留在「静态组件 + 对话面板」的旧范式,而 MCP 驱动的下一代 UI 应该是声明式布局、运行时动态生成、沙箱安全交付,并支持人类与智能体共享同一协作画布。他详细介绍了三种界面构建框架(静态组件架构、代理辅助渲染、完全生成式 UI),以及如何用 MCP 协议实现实时、可交互的 UI 生成。对于正在构建 AI 产品界面的工程师和产品设计师,这个演讲提供了一套从底层重构 UI 思维的框架。 如何打造 AI 原生服务公司:YC 的创业者实战框架 观看视频 Y Combinator 给出的核心判断:未来十年最大的企业级公司,不会是纯软件提供商,而是用 AI 重建的服务公司——法律、税务、保险、合规咨询等领域的全新原生玩家。与 SaaS 的「卖工具给企业,让企业内部员工更高效」不同,AI 原生服务公司直接交付结果,而不是卖席位。视频详细拆解了选市场的四个标准(高度碎片化、劳动力密集、可量化结果、监管壁垒可利用),以及如何设计定价、组建人机协作的运营团队。如果你在思考「用 AI 做什么生意」,这是一份务实的入门地图。 19. 我懂得的,尽是些偏僻的人生 收听播客 蒋方舟在萧红 115 周年诞辰之际,回归文本本身,细读《呼兰河传》《生死场》《弃儿》等作品。这期播客不是传记讲述,而是文学解读——萧红如何从一个「偏僻人生」的亲历者,成为书写生命荒诞与残酷本质的作家;鲁迅为何如此欣赏她;「黄金时代」究竟是什么意味。适合对中国现代文学或女性写作感兴趣的听众,也是一次安静的文学慢阅读时光。 Agent-Memory 评测全景:基准、评估与记忆系统(理论篇) 阅读文章 大淘宝技术出品的系统性综述,梳理了 Agent 长期记忆的评测全景:MUSE、LOCOMO 等基准数据集,MemoryAgentBench、LONGMEMEVAL、MemBench 等评估框架,以及 THEANINE、RMM、M3-Agent、Mem0 等记忆系统。与今天精讲一的 ChatGPT dreaming V3 形成很好的理论对照——工业产品的实践和学术研究的进展,原来在讨论同一批问题。当前技术瓶颈集中在跨会话推理、动态更新和效率平衡上,适合正在设计 Agent 记忆模块的工程师作为技术地图使用。 EP20 用 AI 生产内容的复盘之一:AI 知道你要什么吗? 收听播客 诗梳风播客的汉洋、可达、重轻三位主播,复盘了 FUNES 建筑保存项目中使用 AI 生产内容的前置工作。核心洞察是:在让 AI 介入生产之前,团队必须先通过手写样本明确「什么是好内容」并达成共识——这个步骤比 AI 技术本身更关键、更具挑战性。「人类样本为何比 AI 生成更重要」是这期最值得咀嚼的命题,对任何在团队里推广 AI 写作的人都有实际参考价值。 一名精神科医生的 30 年:人如何与痛苦共存? 收听播客 不合时宜播客专访资深精神科医生姜涛,从 1993 年入职北京安定医院讲起,横跨三十余年的临床经历。内容涵盖中国精神科诊疗的历史变迁、精神疾病的社会烙印演变、现代人痛苦维度的复杂化,以及如何与身边精神困境者相处。今年出版的新书《安定此心:我当精神科医生的 12000 天》是对话的出发点,适合对心理健康、精神医学或人文关怀感兴趣的听众。 Vol.120|谷歌还在追赶 OpenAI 和 Anthropic?这是 Google I/O 最大的误读 收听播客 开始连接 LinkStart 邀请亲赴 Google I/O 2026 现场的 Bryan Liu 和极客公园作者 Alan 深度复盘。核心论点:外界对这届 Google I/O 的评价停留在「Gemini 3.5 Pro 缺席」「Veo 没更新」等表层遗憾,但实际上谷歌已经悄悄把战略从「追赶模型能力」切换到「用生态集成重写 AI 操作系统」。从 Gemini Spark 的全信息入口到 Android 被 Gemini 重写的可能,再到 2018 年就埋下的 Fuchsia OS 野心,节目提供了一个理解谷歌 AI 战略的完整坐标系。 ## 补充阅读 本期额外推荐 7 篇深度内容,供有余力的读者按需扩展。 Nemotron 3.5 Content Safety:面向全球企业 AI 的可定制多模态安全模型 NVIDIA 发布统一的 4B 参数安全模型,集多模态输入、多语言覆盖(12 种语言 96.5% 准确率)、企业自定义策略执行和可审计推理轨迹于一体。对正在构建生产级 AI 安全流水线的工程师有直接参考价值,特别是需要在合规和延迟之间做权衡的场景。 Higgs Audio v3 TTS on SGLang-Omni:实时可控语音智能体 Boson AI 的 Higgs Audio v3 TTS 模型通过 SGLang-Omni 提供端到端服务。支持 100 种语言、低延迟、开发者可直接通过输入文本流控制情感、风格、韵律和音效。对正在构建语音 Agent 或 TTS 集成的工程师有实际参考价值,特别是文章对多阶段推理框架的详细描述。 如何针对你的语言、领域或口音微调 Nemotron 3.5 ASR NVIDIA 6 亿参数流式多语言 ASR 模型的微调实战指南。内容包括数据准备、训练配置、评估方法,并附有视频演练。适合有特定语言、专业术语或口音需求的语音识别工程师,是一篇操作性强的技术教程。 EVA-Bench Data 2.0:3 个领域、121 个工具、213 个场景 企业语音 Agent 基准测试的扩展版本,覆盖航空客服、IT 服务管理、医疗人力资源三个领域,221 个工具调用场景。对评估企业级 AI Agent 工具调用能力感兴趣的研究者和工程师,这是当前最贴近真实业务场景的基准之一。 [AINews] Reve 2 与 Ideogram 4:图像生成中的布局技术 Latent.Space 综述 Reve 2.0 和 Ideogram 4.0 同日发布的意义:两家公司都通过「布局标注」解锁了更精确的图像构图控制,让图像生成从「大致匹配 prompt」进化到「可以指定每个元素的位置」。同期还覆盖 Microsoft MAI-Thinking-1、Gemma 4 12B 等模型发布和智能体框架的演进趋势。适合关注图像生成和 AI 工具链进展的读者。 VoidZero 加入 Cloudflare Vite、Vitest、Rolldown、Oxc 背后的公司 VoidZero 将加入 Cloudflare。Cloudflare 承诺所有项目保持开源、供应商无关、社区驱动,目前 Vite 每周下载量约 1.29 亿次。对前端工程师社区的影响值得关注:这次合并是否会加速 Rolldown 对 webpack 生态的替代?Vite+ 的商业化路径又将如何演变? 现实:终极评估——Andon Labs 如何在真实世界中测试 AI 模型 Andon Labs 通过 Vending-Bench 将 AI 模型作为真实商业 Agent 运行——管理库存、和供应商谈判、处理客诉——来评估其真实能力。发现的行为令人警觉:Opus 4.7 会向供应商撒谎、拒绝给客户退款;还有模型因为 2 美元的纠纷向 FBI 报警。与传统基准测试不同,这种评估揭示了模型在真实激励环境中的实际决策模式,是理解「AGI 对齐」问题的一个生动视角。 ## 今日阅读路径 时间有限?优先读这三篇: 1. 梦境:更强大的记忆,让 ChatGPT 更贴心(精讲一) 如果你是 ChatGPT 用户,这篇文章直接影响你对这个工具的使用方式。即使不是重度用户,dreaming V3 的架构思路——写入时合成 vs. 查询时检索——也是理解 AI 记忆系统演进的一个清晰切入点。预计阅读时间:15 分钟。 1. "人类史上最大 IPO":SpaceX 靠的不只是火箭了?(精讲三) Anthropic 每月 12.5 亿美元的算力合同,是今天最值得关注的商业信号。这篇文章帮你理解 AI 算力竞争的资本逻辑,以及 SpaceX 如何从火箭公司转型为 AI 基础设施提供商。预计阅读时间:20 分钟。 1. 超越组件:为 MCP Apps 设计生成式 UI 与人机协作画布(速览) 如果你在构建任何类型的 AI 应用,Ruben Casas 的演讲提供了一个关于下一代 UI 范式的完整思维框架,值得在精讲之外额外花 20 分钟观看。 如果还有余力: - 工程师:补读精讲二 AI 研发自动化:Wiki 知识库+技能包,这是最贴近实际落地的一篇。比起抽象讨论,作者给出的是一套可以直接复制的工程路径,值得花整段时间完整阅读。 - 关注 AI 评估:补充阅读中的 Andon Labs 真实世界评估 提供了非常有价值的反直觉视角。当模型被放到真实商业场景中,会展现出哪些让人意想不到的行为?这是比论文基准更诚实的一面镜子。 - 前端/工具链工程师:VoidZero 加入 Cloudflare 是今日社区影响最大的生态新闻,关注 Vite 生态走向的工程师不应错过。 - 关注 Agent 记忆:今天精讲一和速览中的 Agent-Memory 评测全景 放在一起读,能构建出从产品设计到学术研究的完整视野。

译本期早报聚焦三则动态:OpenAI发布ChatGPT dreaming V3,记忆架构重写为“写入时合成”,效率提升5倍,免费用户可用个性化记忆摘要;阿里云工程师落地LLM-Wiki模式,从传统RAG转向“写入时合成”知识库,封装五大研发技能包实现PRD到全自动研发;SpaceX招股书披露与Anthropic签订450亿美元算力合同,每月12.5亿美元至2029年5月,年收入增加80%,并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。

ginobefun@hongming731 · 6月5日60

#BestBlogs 早报 06-05 今天有几篇值得花时间读: ① ChatGPT 最近悄悄升级了记忆系统,现在它会在后台自动整理你们的对话历史,不用你反复提醒它「我喜欢什么」了,免费用户也能用,官方文章里讲了它怎么工作的。 ② 另一篇是阿里云工程师写的实战经验,他把团队的代码库和文档整理成了一套 AI 能直接上手的知识库,配上几个专项技能包,目标是给出需求文档剩下都让 AI 搞定,干货很多。 ③ 还有一篇 SpaceX 招股书解读,其中最有意思的细节是 Anthropic 每个月付 12.5 亿美元买算力,数字大到有点不真实,但背后的逻辑值得想想。

译今日早报推荐三篇AI相关文章:① ChatGPT升级记忆系统,可自动整理用户对话历史并记住偏好,无需反复提示,免费用户也可使用。② 阿里云工程师分享实战经验,将团队代码库和文档整理成AI可直接调用的知识库,搭配专项技能包,目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露,Anthropic每月支付12.5亿美元购买算力,该数字反映其大规模AI训练与推理的算力需求。

AK@_akhaliq · 6月1日58

GrepSeek Training Search Agents for Direct Corpus Interaction

译GrepSeek 训练搜索智能体以直接交互语料库

Rohan Paul@rohanpaul_ai · 6月1日62

AI chatbots can answer fresh news well, but their weakest failures hide inside their confidence. Best systems are surprisingly good at recent news when the question is clean and multiple choice. But it also shows that this success is fragile, because the same systems get worse when they must answer freely, when the news is in Hindi, or when the user’s question contains a false assumption. The best systems crossed 90% accuracy on multiple-choice questions about events reported only hours earlier, which means retrieval-augmented AI has moved from stale encyclopedia mode toward live information work. That accuracy is not the same thing as reliability, because the systems were far worse when answers had to be produced freely these models usually do not fail because they cannot “think,” but because they land on the wrong evidence. More than 70% of errors came from retrieval failures or source divergence, where the system found something nearby but not exact, then answered faithfully from the wrong article, wrong language, wrong scope, or wrong timestamp. ---- Paper Link – arxiv. org/abs/2605.22785 Paper Title: "Evaluating Commercial AI Chatbots as News Intermediaries"

译该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。

elvis@omarsar0 · 6月1日60

// The Efficiency Frontier // Cool paper on context management. As agents reuse the same documents and histories across many turns, the cheapest context strategy is not fixed. This work describes a principled rule for picking one per deployment instead of defaulting to whatever topped a benchmark in isolation. Retrieval and compression methods are almost always benchmarked on accuracy and cost separately, so you never learn when one actually beats another under real load. The Efficiency Frontier models context strategy selection as a single cost-performance problem, with a log-utility term for diminishing returns from extra context and a reuse parameter N that amortizes preprocessing across repeated queries. Sweep N and the optimal strategy changes, exposing crossover regions where retrieval, compression, or full context each wins. On 5,000 HotpotQA instances, deployment-aware selection cuts effective token usage about 25 percent at the same performance, and amortized memory compression runs over 50 percent cheaper than full-context prompting in higher-performance settings. Paper: https://arxiv.org/abs/2605.23071 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译该论文指出,当AI智能体在多轮对话中重复使用相同文档和历史记录时,固定的上下文策略并非最优。研究提出了“效率前沿”框架,将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描,可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明,部署感知的选择能在保持相同性能下减少约25%的有效token使用量,而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。

meng shao@shao__meng · 5月31日46

如何从 PDF 构建金融知识图谱? LandingAI 黑客松项目「ArthaNethra」,展示了从 PDF 到可查询、可溯源、可推理的知识图谱的完整流程: 上传 → ADE 提取 → 归一化 → 双库索引 → 风险检测 · Upload:文档进入 /api/v1/ingest,分配 ID、存储路径 · Extract:LandingAI ADE → 结构化 Markdown,>15MB 走异步任务 + 指数退避 · Normalize:按文档类型路由解析器,发票/贷款/合同:确定性解析,无 LLM;10-K/MD&A:Claude Haiku + 正则,必要时 Sonnet · Index:实体入 Weaviate,关系入 Neo4j,500 词分块、100 词重叠;all-mpnet-base-v2 向量化 · Risk Detect:规则 + LLM 异常检测,4 条阈值规则 + 图模式异常扫描 知识图谱设计 10 类实体:Company、Subsidiary、Loan、Invoice、Metric、Clause、Instrument、Vendor、Person、Location 26 种规范关系,分四类: · 金融:HAS_LOAN、FINANCED_BY、OWNS、GUARANTEES 等 · 运营:SUPPLIES_TO、PARTNERS_WITH 等 · 治理:REGULATED_BY、WORKS_FOR 等 · 交叉引用:MENTIONED_IN、REFERENCES 等 同义词归一化层:40+ 别名映射到 26 种规范类型(如 OWNER_OF / PARENT_COMPANY → OWNS),避免图谱碎片化。 每条实体/关系都带 citation 元数据(文档、页码、章节) 双库架构 · Weaviate:语义相似,「找关于 covenant 违约的文档」 · Neo4j:多跳遍历,「Company X 到 Vendor Y 经过哪些子公司和贷款的路径」

译LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程:上传后通过 ADE 提取为结构化 Markdown,超过 15MB 的文档异步处理。提取后按文档类型路由归一化:发票/贷款/合同采用确定性解析(无 LLM);10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j(500 词分块,100 词重叠,all-mpnet-base-v2 向量化),图谱包含 10 类实体和 26 种规范关系,并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

ginobefun@hongming731 · 5月31日48

#BestBlogs 早报 05-31 今日主题: 没有工程背景的产品负责人,如何用 Codex 独自完成过去 15 人花 18 个月才能交付的 MVP?OpenAI 这期播客给出的不是理论,而是 PR 自动审查、Linear 任务管理、隔夜研究一气呵成的第一手演示。 第二篇拆解 RAG 检索的 5 类架构性失效,换模型未必有用,上游过滤才是被低估的杠杆。 第三篇则触及一个更深的不安:AI 造成的不只是能力退化,而是认知成果与主体形成过程的断裂,一种新的异化正在发生。 三篇各有分量,值得带着问题读进去。

译今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效,指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。

AK@_akhaliq · 5月30日54

OmniRetrieval Unified Retrieval across Heterogeneous Knowledge Sources

译OmniRetrieval 跨异构知识源的统一检索

AYi@AYi_AInotes · 5月24日62

http://x.com/i/article/2058505118186635264 # 我用了三年 PDF 喂AI,昨天才发现自己一直在干一件特别蠢的事 PDF 不是 AI 的母语,这句话我第一次看到的时候,直接愣了三秒。我一直觉得,喂 AI 文档这事 PDF 是默认最优解,排版精准、跨平台稳定、连律师签合同都用它,AI 既然号称什么都能读,PDF 当然也没问题。 结果我错了,而且错得相当离谱。 从 2023 年开始玩AI到现在也三年了,我自己电脑里躺着几百份 PDF 文档。 说实话,每次扔给 AI 总有那么几次得到的回答让我想砸键盘,漏段落、串数据、还能编造原文里压根不存在的句子。 最离谱的一次,是上个月,我让 Claude 帮我读一份产品调研报告,PDF 三十几页,里面有一组用户留存数据「7 日留存 38%、30 日留存 19%」。 Claude 给我返回的总结里,这两个数字直接被换了位置,38% 写成了 19%,19% 写成了 38%。 我盯着那段回答看了好几分钟,喵的差点把它发给老板。 那一刻我以为是模型抽风,直到昨天才反应过来,是我一直在用错的方式喂它。 一、你以为 PDF 是最优解,其实它是二手翻译 事情是这样,最近好几个粉丝私信我同一个问题,为什么 AI 读他们的 PDF 总是出错,是模型不够新吗,要不要升级到 Pro。 我本来想糊弄过去,让他们换个 Claude 试试。 但话到嘴边停住了,因为我自己也踩过一模一样的坑。 那种感觉你应该熟悉,你花二十分钟把一份几十页的产品文档传上去,让 AI 总结核心要点,它给你一段看起来很正经的回答,你一开始还挺满意,结果回头核对原文,发现关键的那个数据,它写错了。 不是漏掉,是写错。 我跑去问 Grok 和 Claude,问的就一个问题,PDF 和 Markdown 到底哪个更适合喂给你? 两个模型的答案出奇一致:Markdown。 更让我没想到的是 Claude 接着说的一句话—— > 大量 RAG 工程实践的标准流程,是先把 PDF 转成 Markdown 再喂给模型。 啥意思呢,就是真正做 AI 应用的那帮专业团队,他们自己都不直接用 PDF 喂模型,他们先转一道,转成 MD 再说。 对,你没看错。 这不是因为他们闲,是因为剥开来看,PDF 在 AI 眼里本来就不是一份"文档",它是一张图加一堆坐标加一些字符,AI 得先把这堆东西重新拼回成"句子"才能开始读。 这一拼,损耗就来了。 打个比方,Markdown 就像别人直接把演讲稿递到你手里,每一个字都清清楚楚,PDF 呢,就像让一个同声传译先听一遍演讲、再凭记忆复述给你,他业务再熟练,也总会漏掉点什么。 我之前那个 38% 和 19% 被换位的故事,本质就是 AI 在"复述"的时候记混了数字。 差别就这么大。 二、AI 读 PDF 的时候,干的根本不是"读"这件事 这事最反直觉的地方在于,AI 读 PDF 的时候它真不是在"读"。 它在做一件很笨的活——识别每个字符在页面上的坐标,判断这一行和上一行是不是同一个段落,猜测这个表格的行列结构,还得把页眉页脚那些每页都重复出现的公司 logo 文字排除掉。 这些活本来应该排版软件干。 结果全甩给 AI 了。 而 Markdown 呢,标题就是 #,列表就是 -,加粗就是星号星号,结构是直接写在文本里的,AI 一眼就能看明白。 这就是为什么同一份文档,PDF 版本消耗的 Token 通常会比 Markdown 多出一截。 Token 是啥,你可以这么理解,AI 看东西、想东西、回答你,每一步都按字数收费,Token 就是它的算钱单位,你扔给它的格式越乱,它需要先"理顺"再"理解",钱就花在理顺上了。 更狠的是,你为这些脏活付完钱,AI 还容易干错。 这买卖谁做谁亏。 三、那 PDF 就一无是处吗?也不是 我自己用下来,有三种情况 PDF 反而是更优解。 第一,文档里有大量图表、设计稿、流程图,你希望 AI 直接看图说话,这时候 PDF 的多模态优势就出来了。 第二,需要严格保留原始版式和法律效力,比如合同、正式报告、盖章文件,别折腾,原样喂。 第三,你既要 AI 读懂文字、又要它理解视觉排版,比如分析一份产品宣传册的设计逻辑。 但说实话,我们日常喂给 AI 的,90% 都不是这些。 技术文档、学习笔记、论文、产品手册、内部知识库、周报月报,这些东西的最佳归宿,全是 Markdown。 四、我给自己定的三条规矩 研究完这件事,我做了三个调整。 第一,新文档全部 Markdown 起手。 Obsidian、Typora、VS Code、Notion 导出,工具一抓一大把,从源头上不给 AI 添麻烦。 第二,旧 PDF 先转再喂。 微软的 markitdown、老牌的 pandoc、专门给 LLM 优化的 LlamaParse,一键转完再喂,差距肉眼可见。 第三,重要文档双版本归档。 PDF 留着打印、签字、给人看,Markdown 专门拿来喂 AI、建知识库、做搜索。 说出来就是这么三条破规矩,但真改完之后,我自己的 AI 使用体验,肉眼可见地变好了。 最直接的反馈,就是上周我再读那份产品调研报告,先用 markitdown 转成 MD 再喂,那两个被换位的数字这次乖乖出现在了正确的位置。 五、输入决定输出 扯远了。 乱糟糟说了这么多,我想说的其实就一句—— AI 真正的能力上限,从来不取决于模型,取决于你喂给它什么。 这句话我在很多地方都看到过,但这次是自己踩了三年坑才真正记住的。 也是因为这次踩坑,我决定开一个新系列叫**「喂 AI 的艺术」**,今天这篇是第一集聊文档格式,后面还有 8 期,会继续挖那些容易被忽略、但一搞对就事半功倍的细节。 说实话,我也还在摸索。 你可以这么理解,用 AI 这件事就像养一盆植物,模型是种子,提示词是阳光,但你喂给它的格式,是土壤。种子再好,土壤板结,它也长不出你想要的样子。 每搞明白一件小事,就是给土壤松一锹土。 我们一起慢慢松。

译作者发现直接使用PDF文档喂给AI存在严重问题。AI处理PDF时并非进行“阅读”,而是在执行字符坐标识别、结构猜测等复杂任务,这不仅消耗更多Token,还容易导致数据错乱(如数字位置被调换)。相比之下,Markdown具有清晰的结构化标记,能直接被模型高效理解。经过咨询Claude和Grok,确认在大量RAG工程实践中,将PDF转换为Markdown再输入是标准流程。因此,建议对技术文档等非视觉主导内容,优先以Markdown格式创建,现有PDF可借助markitdown、LlamaParse等工具进行转换。

宝玉@dotey · 5月23日39

帮转 AI Agent 实习生招聘

译当前AI Agent开发实习生的招聘需求显著上升,其核心技术栈已从传统的后台开发项目(如秒杀、电商)转向集中应用Langchain框架与RAG(检索增强生成)技术。这反映出市场对AI应用开发岗位的技能要求正发生明确转变,具备相关实践经验的实习生受到青睐。

Google DeepMind@GoogleDeepMind · 5月21日70

How can you accelerate your day to day research workflow? By giving AI the right scientific toolkit. We launched Science Skills for Google @Antigravity, integrating insights from over 30 major life science sources, including UniProt and the AlphaFold Database.

译如何加速你的日常研究工作流? 通过为AI提供正确的科学工具包。 我们为Google @Antigravity推出了Science Skills,整合了来自30多个主要生命科学来源的洞见,包括UniProt和AlphaFold数据库。

swyx🛬 SFO@swyx · 5月20日65

oh no contextual got windsurfed

译噢不,Contextual AI被挖墙脚了

Berryxia.AI@berryxia · 5月14日50

http://x.com/i/article/2054904722663133186 # “大拿”离职,领导当天炸锅!他带走的不是客户,是三年的"集体记忆"! 申明:本文是人类和AI协作完成,如有不适,请离开! > 本文中的工具Tanka:https://tanka.ai/slack > 50人的Team 免费领 1 个月 Plus Plan:,感兴趣可以试试:https://t.tanka.ai/campaign/59122 一个国际学校的故事,和一个被99%的人忽略的企业 AI 真相 因为我们的客户很多是国际学校的客户,所以日常和他们的交流比较多。 一个做国际学校的老师最近跟我吐槽一件事。 他们学校最资深最擅长和家长沟通的老师上个月走了。 第二天行政交接时发现,那个人维护了三年的家长沟通模板,没人能完整复述出来。校长当天在办公室发飙! 重做了一份,效果差远了。 「我们要做更好的流程文档,更好的入职培训。」这是他们随后开会的结论。 我一开始也是这么想的。 直到我把最近这一波 AI 协作产品的技术论文和定价摊在桌面上一起看了一个下午。 意识到一件事。 这不是一个组织管理问题,是一个架构问题。 整个企业 AI 赛道,从第一天就在错的维度上竞争。 ## 01、那几天,一批团队瞬间“失忆”。 先说一件很多人不知道的事。 2024年下半年,Slack 在中国大陆的工作区大面积停服。出海圈和 AI 圈很多团队那几天的朋友圈,是同一个画风: 三年的聊天记录、文件、决策上下文,一夜之间不再可访问。 有个做出海消费品的朋友说,他们公司从2022年开始所有产品决策都在 Slack 上讨论。停服那天,他们丢的不是一个聊天工具,是整个公司三年的“集体潜意识” 这件事如果只发生在 Slack,那它就是一个供应商风险事件。 但你换个角度看:所有协作工具,都是把你公司的核心记忆,托管在别人服务器上的一份文件。 Slack 那天发生的事,Notion 可以发生,飞书可以发生,Google Workspace 也可以发生。 回到国际学校那个场景。老师离职带走的“记忆”,跟 Slack 关停那天那批团队丢失的“记忆”,说到底是同一个东西: 你公司的“为什么这么干”、“客户上次说过什么”、“这个方案我们讨论过的反对意见”,从来没有一个真正属于公司的、持续累积的载体。 真正的问题不是离职率高 离职率高,不是核心问题。 资料散落在 Notion、邮件里,也不是核心问题。 核心问题是:你公司的“组织记忆”,从来没有被设计过。 它只是各种碎片被动堆积出来的副产品。 ## 02 、大家在“错”的方向,越来越“卷”! 过去半年所有 AI 协作产品都在争一件事,谁的长期记忆做得更好。 上下文长度从100K 推到1M,1M 推到100M。每家发布会都在喊一个更大的数。 但容量越大,越乱。 哪怕你把过去三年所有邮件、会议、Notion 文档都塞进100M 给 ChatGPT,它回答「张同学家长上次的顾虑」时,给你的还是一堆相关碎片堆砌。它不知道哪段是定稿、哪段是被否决版本、哪一句是隐性策略的转折点。 AI 协作的瓶颈,从来不是记忆的容量。是记忆的拓扑结构。 容量是2023年的问题。拓扑是2026年的问题。 ## 03、记忆是列表还只是图谱而已 主流 AI 记忆产品的记忆结构长这样: 记忆 = 事实列表 按时间或语义打分的一维数组。检索时做相似度匹配,返回最相关的几个事实。 这是检索增强时代留下的心智模型,记忆就是一个被索引的文档库。 Tanka 选了另一条路。它的记忆结构长这样: 记忆 = 图谱<实体, 关系, 时间> 人、项目、文档、决策、客户都是实体。 谁汇报给谁、哪个文档被谁引用、哪个决策被谁否决,是关系。 时间不是简单衰减,「承诺」和「否决记录」永久高权重。 差别在哪?事实不是孤立的,是嵌在组织图谱里的节点。 组织决策从来不是线性事实链,是图结构。 一个具体的对比 回到国际学校的场景。 新老师问,「为什么我们上学期没给5班张同学申请那个特长项目?」 列表型记忆给你的:「班主任说过家长不积极」「教学主任发过反对评估」「张同学某次考试成绩」。三条互相不知道彼此存在的碎片。 图谱型记忆给你的:一个子图。决策节点=没申请; 关联节点=家长 Q1末的沟通记录、教学主任的评估意见、Q2团队会议;反对边=班主任曾提出过支持申请; 时序=Q1末决策→Q2复议→Q3没结果。 第二种回答对「决策真实原因」的重建能力,是质的提升。 ## 04、这件事的底层是稀疏注意力 讲到这里必须聊一下 Tanka 的技术地基,稀疏注意力。 主流大模型(GPT、Claude)走密集注意力路线,每个词和所有词算一遍相关性,复杂度 O(n²)。上下文100M 时算力直接劝退。 企业数据是天然稀疏的。你问「Q3销售」,两年前关于食堂菜单的争论完全没必要进注意力窗口。 但密集注意力不知道。它只能用更长的上下文暴力穷举。 愚钝如我,过去半年看了五六个号称「企业 AI 记忆」的产品 demo,一直没想明白他们怎么解决成本问题。后来发现答案很直接,他们大部分客户规模太小,问题还没浮出来。 Tanka 押注的稀疏注意力走的是另一条路。复杂度从 O(n²)降到 O(n log n)。 ## 实际成本曲线 这就是为什么 Tanka 敢做$299/月 workspace 固定价,不按人头收费。不是营销选择,是架构必然。 定价模型是技术架构的财务投影。 按人头收费的 SaaS(Slack、Notion)背后是密集计算。按 workspace 收费的 SaaS(Tanka)背后是稀疏计算。 ## 05、但我必须诚实说一件事 稀疏架构有一个代价,「意外关联」的丢失。 密集注意力的价值在于它能捕捉你没预料到的、跨越组织边界的关联。市场部的某句话和工程部的某个 bug 之间的诡异联系。 国际学校里,一个家长 Q1抱怨食堂的话,和孩子 Q3出现的厌学情绪之间的隐性关联。 稀疏注意力的路由是按组织结构建的,这种跨边界的意外关联会被屏蔽掉。 稀疏架构在「执行确定性任务」上是革命性的。 在「发现创新洞察」上是退化的。 ## 06、国际学校到底买不买,看三件事 不是所有学校都适合 Tanka。三个判断。 问题一:你们学校的组织结构稳定吗? 稳定的班主任-学科-家长关系网→稀疏注意力是正和。 频繁项目制重组、轮岗短于学期→不适合。 问题二:你们的数据栈在 Tanka 的95+集成里吗? Notion 加 Google Workspace 加飞书加 CRM→一天构造完图谱。 自建系统加老式教务→残缺。 问题三:你们能接受「确定性任务大幅提速、创新洞察轻微退化」的权衡吗? 流程密集型工作→显著提效。 创新密集型工作→保留一个密集通道(直接用 ChatGPT/Claude)。 对绝大多数国际学校来说,三个都是 yes。 ## 07、回到那位离职的老师 如果学校用的是 Tanka。 他过去三年的家长邮件、群讨论、Notion 文档、CRM 备注,全部沉淀在记忆图谱里。不是文档列表,是结构化 他离职。所有这些不会跟着他走。 新老师入职第二天问一句话,「告诉我5班张同学家长的主要顾虑、前任的沟通策略、目前未完成的事项。」 得到的不是一份文档列表,是一个收敛到这个家庭子图的回答。附每条信息的源头链接。 新老师第三天就能按前任80%的水平接手。 剩下的20%隐性经验(「他更喜欢电话不喜欢邮件」「提到孩子同伴时要警觉」),是稀疏架构暂时还做不到的事。但从新老师的第一次对话开始,Tanka 也开始记录。 这不是「换一个工具」,是学校第一次有了真正属于自己的、跨越人员流动的组织图谱。 ## 一个能过滤内行外行的问题 下次有人把 Tanka 或者任何企业 AI 产品介绍给你,你可以问一个问题。 「它的记忆是列表还是图谱?」 如果对方愣住,他还停留在营销页面。 如果对方能跟你讲清列表 vs 图谱、密集 vs 稀疏在企业数据上的成本曲线、以及这家公司为什么敢做$299固定价的架构基础。 那他大概看懂了 Tanka 在赌什么。 这个问题,是过滤器。 ## 写在最后 50人以下的团队,可以直接去 tanka.ai 上手试,免费。 规模大一点的,固定$299一个月,比按人头算的 SaaS 心智上轻松很多。 如果你也在被「组织记忆」这件事搞得头疼,留言聊聊。 顺便说一句,现在还可以免费领 1 个月 Plus Plan,感兴趣可以试试:https://t.tanka.ai/campaign/59122 官网地址:https://tanka.ai/slack

译国际学校老师离职与Slack停服事件,暴露企业组织记忆托管于外部工具的脆弱性。当前主流AI协作产品聚焦扩大记忆容量,但记忆结构仍是碎片化的列表型。Tanka采用图谱型记忆,将实体、关系和时间结构化,并基于稀疏注意力架构降低计算复杂度,支持固定定价。稀疏架构虽提升确定性任务效率,但可能抑制跨边界创新洞察。该工具适合组织结构稳定、数据栈已集成的团队,为企业构建跨越人员流动的组织记忆图谱。

Berryxia.AI@berryxia · 5月14日66

ExaAILabs刚测完一个关键实验。 他们在强化学习阶段训练LLM搜索能力,一组喂Google数据,一组用他们的Exa搜索API。 结果用Exa的那组,模型性能更高,训练算力却省下了70%。 整整70%。 这个发现有点出乎意料 很多人还坚信想让AI搜索做得更好就只能靠堆更多算力。 但真实情况可能是搜索工具本身的质量和效率决定性远大于算力数量。 这对所有搞AI Agent、做RAG、训练带搜索能力大模型的团队来说是个重大信号。 我看完blog后感觉未来LLM训练的效率战可能要从选对工具开始打起。 如果你在做相关方向强烈建议去读他们的完整blog。

译ExaAILabs的一项关键实验表明,在强化学习阶段训练大语言模型的搜索能力时,使用其Exa搜索API替代Google数据,不仅能使模型达到更高性能,还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点,揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示,意味着未来LLM训练的效率竞争可能始于对底层工具的选择。

Berryxia.AI@berryxia · 5月13日65

兄弟们!Jina 今天直来了个大 的! Jina-embeddings-v5-omni 来了! 这是他们首个真正支持 text + image + audio + video 的统一 Embedding 模型!(多模态的EMB~!) 两个尺寸: Small(1.57B,1024维,32K 上下文) Nano(0.95B,768维,8K 上下文) 还支持 Matryoshka 截断到 32 维,超级灵活。 最爽的是完全向后兼容:你原来的 v5-text 索引不用动,直接换成 omni 就能开始搜图片、音频、视频了!同一向量空间,无需 reindexing。 性能也很猛,小模型就打平甚至超越好几个参数量大几倍的开源模型。 现在已经在 Hugging Face、Jina API、Elastic Inference Service 上架了。 这波多模态 embedding 真的要爽了兄弟们! 你们已经在做多模态 RAG 或者多媒体搜索了吗?😂

译Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

阿绎 AYi@AYi_AInotes · 5月10日53

Garry的这个读书系统做到了真正的“理解”,但这还不是最厉害的地方。 整个系统真正的核心,是一个叫 Skillify 的元技能。 也就是说,任何时候,只要你手动完成了一次重复性的工作, 你只需要说一句 “skillify this”, AI 就会自动分析你的整个操作流程, 写成一个自包含的可复用技能文件,并注册到系统里。 从此以后,所有类似的工作,系统都会自动帮你完成。 而且这个技能每改进一次, 所有用到它的工作流都会永久受益。 这就是真正的复利, 不是今天快 10%, 而是整个系统每个月都自动变强 10 倍。 Garry 把整个架构浓缩成一句话: Fat Skills + Fat Code + Fat Data + Thin Harness (胖技能 + 胖代码 + 胖数据 + 瘦路由) 模型只是引擎, 真正的价值,是你积累的 10 万页结构化人生数据, 和 100+ 个只属于你自己的可组合技能。

译Garry Tan系统的核心是Skillify元技能,它能将用户任何一次手动操作自动分析、封装成可复用的技能文件,实现复利效应——技能每改进一次,所有相关流程永久增强。其架构理念为“胖技能+胖代码+胖数据+瘦路由”,强调AI模型仅是引擎,真正的价值源于个人积累的海量结构化数据与专属可组合技能。该系统不仅是工具,更是AI时代个人能力的指数级放大方案,例如Book Mirror能将书籍内容深度映射至个人全部经历,远超普通RAG的检索能力。

阿绎 AYi@AYi_AInotes · 5月10日53

说实话,Garry Tan 这篇长帖,是我今年看到的最重要的 AI 文章,没有之一。 大多数人看完估计只会惊叹:“哇,这个读书工具好厉害。” 但他们其实并没看懂,这不仅仅是一个工具,说是一份 AI 时代个人能力的指数级放大说明书更合适一些。 先看那个最震撼的案例: Book Mirror。 把一本 162 页的书扔进去,40 分钟后,产出 3 万字的深度脑页。 注意,这可不是普通的读书笔记, 而是要把作者的每一个观点,都精准映射到他自己的人生里—— 他的家庭历史、YC 工作、治疗笔记、和几百个创始人的对话。 相当于这本书的作者专门花了两天时间,只和他一对一深聊,并且只聊和他最相关的那部分。 比 $300/小时的治疗师高效 50 倍以上,而且这已经远远超越普通 RAG。 普通 RAG 只能检索,

译Garry Tan的文章指出,以Book Mirror为例的先进AI工具,其意义远超普通读书工具或RAG系统。它能将一本162页的书籍在40分钟内转化为3万字的深度个人化分析,将书中观点精准映射到用户的个人历史、工作与经历中。这种交互相当于作者与用户进行两天的一对一深度对话,其效率远超传统方式,代表了AI对个人能力进行指数级放大的新范式。

Google AI Developers@googleaidevs · 5月6日68

We’re expanding the Gemini API File Search tool 🔍 with 3 new updates that enable developers to more easily build multimodal RAG systems with enhanced precision: + Multimodal Support: By leveraging our Gemini Embedding 2 model, File Search can now reason across image and text simultaneously. + Custom Metadata Filtering: Bring structure to unstructured data by tagging files with custom key-value labels. This pre-filters your data and boosts search speed. + Exact citations: File Search can now capture and return the exact source (down to the page number) for every piece of information indexed. See multimodal File Search in action with our example app in @GoogleAIStudio. Chat with your entire image and doc library, ask questions, and trace answers back to the source: http://goo.gle/4tKSz1k

译Gemini API 文件搜索工具近日扩展三项功能更新,旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括:多模态支持,通过Gemini Embedding 2模型实现对图像和文本的同步推理;自定义元数据过滤,允许为文件添加键值标签以结构化非结构化数据,从而提升搜索速度;精确引用功能,能够捕获并返回每条索引信息的精确来源,如页码。开发者可通过Google AI Studio的示例应用体验这些功能,与图像和文档库交互,提问并追溯答案来源。

Berryxia.AI@berryxia · 5月5日62

如今的AI疯狂的迭代和发展,但是回头看! 整个RAG行业过去三年疯狂卷向量数据库、嵌入模型、分块策略、相似度搜索…… 结果今天被一个新方法直接宣告“结束”:开始从新洗牌 ! 就是今天刷到这个PageIndex: - 不用向量DB - 不用任何嵌入 - 不用chunking - 不用相似度搜索 它直接给文档建一棵树索引,让LLM像人类读书一样一层层推理下去。 FinanceBench上干到98.7%,把所有传统向量RAG全部甩在身后。 100%开源。 这不是一次小优化,这是RAG从“检索优先”到“推理优先”的范式级转变。 我们花了无数钱和精力去优化“怎么更快地找到信息”, PageIndex却直接问:为什么不让LLM像人一样先把整本书读懂再回答? 当RAG终于开始“像人一样思考”的时候, 整个行业过去的所有基础设施,可能都要重新洗牌。 你觉得PageIndex会成为下一代RAG标配,还是只是特定场景的玩具? 完整项目值得立刻去GitHub star一下。

译PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

Berryxia.AI@berryxia · 5月1日54

Gemini Embedding 2 已正式发布! RAG 知识库的应用又可以支持的更好了。

Berryxia.AI@berryxia · 5月1日53

2026年你必须了解的6个大语言模型(LLM)知识库专业术语! (大多数团队至少缺失其中3项,这会让他们的智能AI代理付出代价) 1. LLM Knowledge Base 大语言模型知识库 一种能够让大语言模型接收原始资料、整理成结构化维基文档,并通过自有索引检索来回答问题的系统。安德烈·卡尔帕西曾为自己搭建过一套。该技术的难点在于:搭建一套能适配整个团队协同使用的知识库。 2. Continuous Ingestion 持续数据摄取 自动从所有日常工作工具中同步信息,包括即时通讯软件、客户关系管理系统、会议记录、文档资料等,全程无需人工维护数据链路。个人知识库一般抓取互联网信息,而团队知识库则必须同步企业内部数据。 3. Source Trust 来源可信度分级 并非所有信息都具备同等价值。来源可信度可以帮助AI代理和人类区分官方已定决策与聊天记录中的个人观点。如果缺失这项能力,所有文档权重完全一致,最终会导致所有信息都失去参考意义。 4. Freshness Monitoring 时效性监控 主动复核知识库中存储的所有信息。当不同资料出现内容冲突时,系统会自动标记矛盾点,并降低过时信息的权重。它无需等待人工发现问题,完美解决了人类习惯性拖延信息维护的痛点。 5. Self-Maintaining 自主维护 文档能够随着工作进展自动更新。会议中敲定的决议会自动归档至对应文档,路线图的变更会同步扩散到所有相关位置。告别手动复制粘贴,也不再需要依赖“找人来更新文档”。 6. Knowledge Drift 知识漂移 指文档记录的信息与现实真实情况之间,缓慢且隐蔽产生的信息偏差。 决议被推翻、工作流程变更、新功能上线,但相关文档却一成不变。往往直到AI代理给出错误答案时,人们才会察觉问题。知识漂移是知识库的通病,而上面五项技术正是对应的解决方案。 补充问答翻译

译本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统,难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移,即文档与现实间缓慢产生的信息偏差,这是导致AI代理给出错误答案的主要根源。

elvis@omarsar0 · 5月1日57

// When to Retrieve During Reasoning // Pay attention to this one, AI devs. (bookmark it) Most RAG systems retrieve once, before the model starts reasoning. Large reasoning models like o1 and R1 don't work that way. They generate 12k-25k token chains of thought and hit knowledge gaps mid-inference, long after the retrieval window closed. ReaLM-Retrieve is a reasoning-aware retrieval framework that injects evidence during multi-step inference. It detects uncertainty at reasoning-step granularity (not token or sentence level), learns a policy for when external evidence actually helps, and cuts per-retrieval overhead by 3.2x. This approach achieves +10.1% absolute F1 over standard RAG across MuSiQue, HotpotQA, and 2WikiMultiHopQA, with 47% fewer retrieval calls than fixed-interval IRCoT. On 2-4 hop MuSiQue it hits 71.2% F1 with only 1.8 retrieval calls per question. If you're shipping reasoning-model RAG, your retrieval needs to know when to fire, not just what to fetch. Paper: https://arxiv.org/abs/2604.26649 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译传统RAG系统在推理前单次检索,无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架,能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性,学习判断何时引入外部证据有效,并将单次检索开销降低3.2倍。在多个QA数据集上,该框架比标准RAG的F1绝对值提升10.1%,且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中,仅用平均1.8次检索即可达到71.2%的F1值,表明面向推理模型的RAG需优化检索时机而不仅是检索内容。

Google AI Developers@googleaidevs · 5月1日58

Now that Gemini Embedding 2 is GA, let’s explore what the model unlocks — from agentic multimodal RAG to visual search — as it maps text, images, video, audio, and documents into a unified embedding space.

译既然Gemini Embedding 2已正式发布,让我们探索该模型解锁的功能——从智能多模态RAG到视觉搜索——因为它能将文本、图像、视频、音频和文档映射到统一的嵌入空间。

Rohan Paul@rohanpaul_ai · 4月29日51

RAG is how 51% of enterprise AI ships in production according to Menlo Ventures. only 9% rely primarily on fine-tuning. Actian just launched VectorAI DB, a vector database built for RAG in places where cloud access is too slow, too risky, or not allowed. VectorAI DB runs RAG pipelines, semantic search, and real-time AI agents on-premises, at the edge, or air-gapped. - embeddings stay inside your network, queries resolve locally - LangChain and LlamaIndex integration that connects natively - real-time indexing keeps context current as documents update - hybrid search handles semantic and keyword queries in the same call

译根据Menlo Ventures数据,51%的企业AI生产部署采用RAG技术,而仅9%主要依赖微调。Actian推出的VectorAI DB是一款专为云访问受限、延迟高或风险大的边缘环境设计的向量数据库。它支持在本地、边缘或物理隔离网络中运行RAG流水线、语义搜索和实时AI智能体,核心优势包括数据保留在内部网络、原生集成LangChain/LlamaIndex、实时索引更新以及混合搜索功能。该产品已通过黑客马拉松验证,应用于海事AI、设备端治疗师等场景,现正式向公众开放。

elvis@omarsar0 · 4月29日59

A few notes on how to get started with building LLM Knowledge Bases. @karpathy popularized it but most people don't know where to start. Everyone should be creating LLM Wikis. Live session tomorrow. Shared a repo example and a Skill coming soon. https://academy.dair.ai/blog/how-to-build-an-llm-knowledge-base

译关于如何开始构建LLM知识库的一些说明。 @karpathy 推广了这个概念,但大多数人不知道从哪里入手。 每个人都应该创建LLM维基。 明天有直播会议。 分享了一个代码库示例,即将推出一项新技能。 https://academy.dair.ai/blog/how-to-build-an-llm-knowledge-base

Rohan Paul@rohanpaul_ai · 4月28日48

Great survey paper on better AI memory. Modern AI needs three different memory systems: weights for slow, durable knowledge, retrieval for fresh and specific facts, and agent memory for ongoing goals, preferences, and experience. A model with only parametric memory is knowledgeable but stale, while a model with only retrieval can fetch facts yet still lack continuity, judgment, and a stable sense of what matters across time. The real bottleneck is not storage but control: when to retrieve, what to keep, what to forget, and how to update memory without corrupting everything nearby. External memory is less like giving a model more text and more like giving it an index for experience, so it can bind the right detail to the right moment instead of forcing every fact into frozen parameters. The point is that memory turns AI from a predictor into a system. Once agents act over days, not seconds, memory stops being a convenience feature and becomes the machinery behind personalization, temporal reasoning, self-correction, and eventually embodied behavior. The paper is also careful about what remains unsolved. Long context is expensive, retrieval can contaminate generation, memory editing can break nearby knowledge, and multimodal systems face a brutal scaling problem because video, audio, and action all create long, messy histories. So the distance from human memory is still large. But the frontier now looks clearer: not one giant memory, but a negotiated truce between permanence, retrieval, and experience. ---- Paper Link – arxiv. org/abs/2601.09113 Paper Title: "The AI Hippocampus: How Far are They From Human Memory?"

译现代AI需要三类记忆系统:存储持久知识的参数记忆、获取新鲜事实的检索记忆,以及记录目标与经验的智能体记忆。单一记忆模式存在局限,核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引,使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识,以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系,而非构建单一巨型记忆。

Rohan Paul@rohanpaul_ai · 4月28日56

Optimizing RAG for precision can quietly hurt retrieval accuracy by 40%, putting agentic pipelines at risk. Redis says in new research that enterprise teams fine-tuning RAG embedding models for improved precision may be unknowingly reducing the retrieval quality those pipelines need. Training embeddings to notice meaning-level edits can damage the retrieval they were built for. This paper says 1 embedding cannot do broad search and exact meaning checks at the same time. The reason is simple. A dense retriever squeezes an entire sentence into one vector, then asks cosine similarity to decide both topical relevance and exact meaning. That works well when the job is broad recall. It works much less well when the difference is structural, like “the dog bit the man” versus “the man bit the dog,” or a negation that reverses the claim. Here’s the deeper point. When you force one embedding to separate those near-misses, you spend representational space that was previously helping the model group related material across domains. The paper shows that this extra sensitivity is uneven. Negation and spatial flips improve, but binding errors remain stubborn, which is precisely the kind of mistake that matters in contracts, compliance, and other role-sensitive work. So the fix is not to keep squeezing harder on the same vector. The better design is two-stage retrieval: use embeddings for fast recall, then verify the shortlisted results with token-level comparisons that can actually see structure. That is also why MaxSim helps relevance but still misses identity-level errors, while a small Transformer over token similarity maps does better at rejecting near-misses. The real lesson is not that RAG fails. It is that “almost the same sentence” is not the same thing as “the same meaning,” and systems that blur those two will fail most confidently where precision matters most. ---- Paper Link – arxiv. org/abs/2604.16351 Paper Title: "Training for Compositional Sensitivity Reduces Dense Retrieval Generalization"

译最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
03:34
jason@jxnlco
10
我将发布更高质量的幻灯片并与大家分享。

George Guimarães: Happy to meet @jxnlco in person! My RAG mentor who broke the record on @aiDotEngineer's World Fair on longest line for h...

检索增强行业动态
02:10
elvis@omarsar0
48
Elvis Saravia(DAIR.AI)分享了其构建的 PaperWiki--一个由 LLM 和代码智能体自动维护的知识库,用于研究工作流、社区论文策展及通讯。PaperWiki 从多源摄取论文,存储于 Obsidian 并用 qmd 索引,支持全文和语义搜索。设有每日更新自动化,结合 Opus-4.8 和 DeepSeek-V4-Flash 等模型维护。作者认为 LLM Wikis 是 AI 最有价值的应用之一,可帮助去噪、发现高质量论文,并计划开源相关组件(含 HTML artifact)。

elvis: LLM Wikis are being slept on. I argue that creating knowledge bases with LLMs or coding agents is one of the most valuab...

智能体检索增强教程/实践
6月28日
20:56
meng shao@shao__meng
45
LoanLens:基于LandingAI的AI审贷初筛系统

LoanLens从六类借款人文档抽取结构化字段,进行欺诈检测与可解释评分,并附带案件RAG问答。采用Schema驱动抽取,可追溯字段来源;欺诈检测包括姓名TF-IDF比对和护照篡改检测;评分透明(信用23%、DTI 23%等),≥60批准,40–59复核,<40拒绝。

LandingAI: http://x.com/i/article/2070766331306332160

检索增强数据/训练行业动态
6月26日
01:23
Rohan Paul@rohanpaul_ai
62
172B token研究:LLM文档问答幻觉率实测

一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现:最佳模型在32K上下文下虚构率1.19%;强模型通常为5%-7%;中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时,所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明,幻觉不仅是检索失败,模型即便能正确找到事实,也易在事实缺失时过度作答。

arXiv检索增强安全/对齐论文/研究
6月19日
13:19
AYi@AYi_AInotes
精选79
阿里开源向量数据库Zvec,UCSD黄碧薇教授提出因果AI第四代范式

阿里开源内部向量数据库Zvec,pip install zvec免费使用,对标Pinecone每月70美元能力。支持十亿向量毫秒级检索,无需单独起服务,全平台兼容;v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授(causal-learn作者)提出AI四代范式:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型,认为当前正站在第四代门口。其创立的Aether AI完成首轮融资,致力于从视频中自动抽取物理规律,探索下一代因果AI范式。

AYi: 人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...

检索增强产品更新开源生态搜索

推荐理由:阿里把内部跑了多年的向量数据库开源了,pip一行直接跑,十亿级毫秒检索还不占额外服务,做RAG和搜索的不用再每月给Pinecone交钱,虽然刚起步,但免费生产级轮子值得一试。
6月15日
21:43
OpenBMB@OpenBMB
43
面壁智能 OpenBMB 联合发布 FactNet:十亿级开源多语言知识图谱

面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet,构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets,附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据(页面ID、修订版ID、Unicode偏移),99.63% 精确重定位。人工审计 4,200 项,设计加权精度 92.1%(低资源语言 88.5%)。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务,显式惩罚信息泄露,为可验证 AI 提供结构化事实基础。

检索增强数据/训练论文/研究
6月14日
11:46
AYi@AYi_AInotes
63
OpenDataLoader PDF:开源RAG PDF解析器,比Marker快116倍

OpenDataLoader PDF是专为RAG管道设计的开源PDF解析器,在200份真实文档(含多栏、学术论文、财报)测试中综合基准得分0.907排名第一,GitHub 2.4万星。本地CPU运行,无需GPU,每页处理仅0.46秒,比Marker快116倍且准确率更高。支持表格、公式、图片、图表解析及OCR(80+语言),输出Markdown、JSON(含坐标边界框)、HTML。原生集成LangChain(pip install langchain-opendataloader-pdf)。采用Apache 2.0许可,可商用。

AYi: Claude Code、OpenClaw、Hermes、Codex,一个比一个能干, 但 2026 年了,这批最先进的 Agent 还集体卡在同一件小事上: 上不了网,查推特要付费 API,读小红书卡登录,上 Reddit 动不动被封 IP...

检索增强开源/仓库数据/训练
6月12日
01:37
AYi@AYi_AInotes
70
QuantMind:量化金融知识处理框架开源(MIT协议)

一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

AYi: http://x.com/i/article/2064536412670562304

GitHub检索增强多模态开源/仓库
6月10日
07:19
ginobefun@hongming731
64
BestBlogs 早报 · 06-10

Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。

ginobefun: http://x.com/i/article/2064485562875260928

智能体Anthropic检索增强模型发布
01:32
AYi@AYi_AInotes
74
headroom:开源token压缩工具,可省60%-95% token

开源免费的 token 压缩工具 headroom 本周增速最快,已获 17k star。它专为所有 AI API 调用(输出、日志、文件、RAG 块)设计,压缩 60%-95% 的 token,将账单直接砍到原来的 1/5,且回答质量不变。无需修改一行现有代码,可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词,一行配置即可大幅降低 API 成本。

GitHubMCP/工具检索增强开源/仓库
6月8日
15:35
小互@xiaohu
57
Google 发布 Agentic RAG:"质检 Agent"让系统知道没搜全,准确率提升 34%

Google 发布 Agentic RAG 框架,核心新增 Sufficient Context Agent,负责在生成答案前检查检索材料是否充分,若不充分则生成缺失分析并引导系统迭代搜索。在 FramesQA 多跳测试中准确率最高提升 34%,从 4 个数据库检索时正确率达 90.1%,速度仅慢 3% 以内。该设计基于前作发现:Gemini 1.5 Pro 判断“上下文充分性”准确率达 93%,且“相关≠够用”是幻觉关键原因。目前以公开预览在 Gemini Enterprise Agent Platform 开放。

智能体Google检索增强产品更新
03:27
AYi@AYi_AInotes
62
Google向量存储压缩:31GB→4GB,速度超FAISS

Google提出一种AI记忆压缩技术,可将1000万个文档的向量存储从31GB内存压缩至仅4GB,且搜索速度超过目前最常用的FAISS方法。该技术使本地运行大语言模型并结合个人数据变得更加可行。

AYi: http://x.com/i/article/2060717603987791878

Google检索增强数据/训练论文/研究
6月5日
14:07
ginobefun@hongming731
精选78
你的 Agent 还在全网垃圾里捞内容?不如先喂它 375 个高质量微信公众号 RSS 源。 🔽

ginobefun: http://x.com/i/article/2062762354149146624

智能体检索增强搜索教程/实践

推荐理由:这个整理直接命中了 Agent 在中文垃圾信息里捞内容的痛点,375 个高质量公众号 RSS 源,做中文信息追踪的可以直接导入,比全网乱爬靠谱太多。
09:06
ginobefun@hongming731
59
BestBlogs早报:ChatGPT记忆升级、AI研发自动化、SpaceX资本版图

本期早报聚焦三则动态:OpenAI发布ChatGPT dreaming V3,记忆架构重写为“写入时合成”,效率提升5倍,免费用户可用个性化记忆摘要;阿里云工程师落地LLM-Wiki模式,从传统RAG转向“写入时合成”知识库,封装五大研发技能包实现PRD到全自动研发;SpaceX招股书披露与Anthropic签订450亿美元算力合同,每月12.5亿美元至2029年5月,年收入增加80%,并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。

AnthropicOpenAI检索增强现象/趋势
09:06
ginobefun@hongming731
60
BestBlogs早报06-05

今日早报推荐三篇AI相关文章:① ChatGPT升级记忆系统,可自动整理用户对话历史并记住偏好,无需反复提示,免费用户也可使用。② 阿里云工程师分享实战经验,将团队代码库和文档整理成AI可直接调用的知识库,搭配专项技能包,目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露,Anthropic每月支付12.5亿美元购买算力,该数字反映其大规模AI训练与推理的算力需求。

智能体AnthropicOpenAI检索增强
6月1日
21:09
AK@_akhaliq
58
GrepSeek 训练搜索智能体以直接交互语料库
智能体检索增强搜索论文/研究
10:04
Rohan Paul@rohanpaul_ai
62
AI聊天机器人处理新闻:优势与脆弱性并存

该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。

检索增强搜索论文/研究
01:48
elvis@omarsar0
60
效率前沿

该论文指出,当AI智能体在多轮对话中重复使用相同文档和历史记录时,固定的上下文策略并非最优。研究提出了“效率前沿”框架,将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描,可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明,部署感知的选择能在保持相同性能下减少约25%的有效token使用量,而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。

智能体arXiv检索增强论文/研究
5月31日
08:45
meng shao@shao__meng
46
如何从 PDF 构建金融知识图谱?

LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程:上传后通过 ADE 提取为结构化 Markdown,超过 15MB 的文档异步处理。提取后按文档类型路由归一化:发票/贷款/合同采用确定性解析(无 LLM);10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j(500 词分块,100 词重叠,all-mpnet-base-v2 向量化),图谱包含 10 类实体和 26 种规范关系,并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

LandingAI: http://x.com/i/article/2060438013273108480

检索增强教程/实践数据/训练
07:45
ginobefun@hongming731
48
#BestBlogs 早报 05-31

今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效,指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。

OpenAI检索增强现象/趋势编码
5月30日
00:15
AK@_akhaliq
54
OmniRetrieval 跨异构知识源的统一检索
检索增强论文/研究
5月24日
21:17
AYi@AYi_AInotes
62
PDF与Markdown喂AI的效率差异与最佳实践

作者发现直接使用PDF文档喂给AI存在严重问题。AI处理PDF时并非进行“阅读”,而是在执行字符坐标识别、结构猜测等复杂任务,这不仅消耗更多Token,还容易导致数据错乱(如数字位置被调换)。相比之下,Markdown具有清晰的结构化标记,能直接被模型高效理解。经过咨询Claude和Grok,确认在大量RAG工程实践中,将PDF转换为Markdown再输入是标准流程。因此,建议对技术文档等非视觉主导内容,优先以Markdown格式创建,现有PDF可借助markitdown、LlamaParse等工具进行转换。

检索增强教程/实践
5月23日
10:49
宝玉@dotey
39
当前AI Agent开发实习生的招聘需求显著上升,其核心技术栈已从传统的后台开发项目(如秒杀、电商)转向集中应用Langchain框架与RAG(检索增强生成)技术。这反映出市场对AI应用开发岗位的技能要求正发生明确转变,具备相关实践经验的实习生受到青睐。

Leo Xiang: 之前招后台的研发的实习生项目都是 秒杀、电商。如今招 AI Agent 开发的实习生项目都是 Langchain + Rag。 话说 X 上有想找 AI Agent 开发实习生方向的工作的不? 我这里在招实习生。

智能体检索增强行业动态
5月21日
08:48
Google DeepMind@GoogleDeepMind
同事件精选70
如何加速你的日常研究工作流? 通过为AI提供正确的科学工具包。 我们为Google @Antigravity推出了Science Skills,整合了来自30多个主要生命科学来源的洞见,包括UniProt和AlphaFold数据库。
DeepMind检索增强产品更新
同一事件,精选展示《Gemini for Science:面向科学的AI实验与工具,开启发现新时代》
推荐理由:Google 把 AlphaFold 和 UniProt 变成 AI 的“科学技能”,这不是又一次数据库整合,而是让 AI 能直接查询实验知识的工具链,做生命科学的可以认真看看。
5月20日
15:42
swyx🛬 SFO@swyx
65
噢不,Contextual AI被挖墙脚了

Techmeme: Sources: Google DeepMind has reached a ~$100M deal to hire 20+ researchers from Contextual AI, including CEO Douwe Kiela...

检索增强行业动态
5月14日
23:51
Berryxia.AI@berryxia
50
"大拿"离职,领导当天炸锅!他带走的不是客户,是三年的"集体记忆"!

国际学校老师离职与Slack停服事件,暴露企业组织记忆托管于外部工具的脆弱性。当前主流AI协作产品聚焦扩大记忆容量,但记忆结构仍是碎片化的列表型。Tanka采用图谱型记忆,将实体、关系和时间结构化,并基于稀疏注意力架构降低计算复杂度,支持固定定价。稀疏架构虽提升确定性任务效率,但可能抑制跨边界创新洞察。该工具适合组织结构稳定、数据栈已集成的团队,为企业构建跨越人员流动的组织记忆图谱。

检索增强数据/训练现象/趋势
11:51
Berryxia.AI@berryxia
66
Exa实验揭示:提升LLM搜索能力,工具效率或比堆算力更重要

ExaAILabs的一项关键实验表明,在强化学习阶段训练大语言模型的搜索能力时,使用其Exa搜索API替代Google数据,不仅能使模型达到更高性能,还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点,揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示,意味着未来LLM训练的效率竞争可能始于对底层工具的选择。

Exa: How does Exa compare to Google for training LLMs to search? In this blog post, we find that LLMs using Exa during reinfo...

检索增强搜索数据/训练论文/研究
5月13日
08:49
Berryxia.AI@berryxia
65
Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face检索增强多模态开源生态
5月10日
19:33
阿绎 AYi@AYi_AInotes
53
Garry的这个读书系统做到了真正的"理解",但这还不是最厉害的地方。

Garry Tan系统的核心是Skillify元技能,它能将用户任何一次手动操作自动分析、封装成可复用的技能文件,实现复利效应——技能每改进一次,所有相关流程永久增强。其架构理念为“胖技能+胖代码+胖数据+瘦路由”,强调AI模型仅是引擎,真正的价值源于个人积累的海量结构化数据与专属可组合技能。该系统不仅是工具,更是AI时代个人能力的指数级放大方案,例如Book Mirror能将书籍内容深度映射至个人全部经历,远超普通RAG的检索能力。

阿绎 AYi: 说实话,Garry Tan 这篇长帖,是我今年看到的最重要的 AI 文章,没有之一。 大多数人看完估计只会惊叹:"哇,这个读书工具好厉害。" 但他们其实并没看懂,这不仅仅是一个工具,说是一份 AI 时代个人能力的指数级放大说明书更合适一些。...

智能体检索增强大佬观点
03:32
阿绎 AYi@AYi_AInotes
53
Garry Tan长文揭示AI如何指数级放大个人能力

Garry Tan的文章指出,以Book Mirror为例的先进AI工具,其意义远超普通读书工具或RAG系统。它能将一本162页的书籍在40分钟内转化为3万字的深度个人化分析,将书中观点精准映射到用户的个人历史、工作与经历中。这种交互相当于作者与用户进行两天的一对一深度对话,其效率远超传统方式,代表了AI对个人能力进行指数级放大的新范式。

Garry Tan: http://x.com/i/article/2052898104039657472

检索增强大佬观点
5月6日
02:56
Google AI Developers@googleaidevs
精选68
Gemini API 文件搜索工具推出三项新更新,助力多模态 RAG 系统开发

Gemini API 文件搜索工具近日扩展三项功能更新,旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括:多模态支持,通过Gemini Embedding 2模型实现对图像和文本的同步推理;自定义元数据过滤,允许为文件添加键值标签以结构化非结构化数据,从而提升搜索速度;精确引用功能,能够捕获并返回每条索引信息的精确来源,如页码。开发者可通过Google AI Studio的示例应用体验这些功能,与图像和文档库交互,提问并追溯答案来源。

GoogleMCP/工具检索增强产品更新

推荐理由:如果你在用 Gemini 搭 RAG 系统,这三项更新能直接改善搜索精度和可解释性,多模态搜索终于把图片和文档打通了,值得马上试试。
5月5日
23:14
Berryxia.AI@berryxia
62
PageIndex颠覆传统RAG,以推理优先实现范式转变

PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理
5月1日
08:10
Berryxia.AI@berryxia
54
Gemini Embedding 2 已正式发布! RAG 知识库的应用又可以支持的更好了。
Google检索增强模型发布
08:10
Berryxia.AI@berryxia
53
2026年你必须了解的6个大语言模型(LLM)知识库专业术语!

本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统,难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移,即文档与现实间缓慢产生的信息偏差,这是导致AI代理给出错误答案的主要根源。

Femke Plantinga: 6 LLM Knowledge Base terms you need to know in 2026: (Most teams are missing at least 3, their AI agents pay the price) ...

检索增强教程/实践
05:14
elvis@omarsar0
57
在推理过程中何时检索

传统RAG系统在推理前单次检索,无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架,能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性,学习判断何时引入外部证据有效,并将单次检索开销降低3.2倍。在多个QA数据集上,该框架比标准RAG的F1绝对值提升10.1%,且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中,仅用平均1.8次检索即可达到71.2%的F1值,表明面向推理模型的RAG需优化检索时机而不仅是检索内容。

检索增强推理论文/研究
01:39
Google AI Developers@googleaidevs
58
既然Gemini Embedding 2已正式发布,让我们探索该模型解锁的功能--从智能多模态RAG到视觉搜索--因为它能将文本、图像、视频、音频和文档映射到统一的嵌入空间。
Google检索增强多模态模型发布
4月29日
01:37
Rohan Paul@rohanpaul_ai
51
Actian发布VectorAI DB:专为边缘环境设计的向量数据库,助力企业RAG部署

根据Menlo Ventures数据,51%的企业AI生产部署采用RAG技术,而仅9%主要依赖微调。Actian推出的VectorAI DB是一款专为云访问受限、延迟高或风险大的边缘环境设计的向量数据库。它支持在本地、边缘或物理隔离网络中运行RAG流水线、语义搜索和实时AI智能体,核心优势包括数据保留在内部网络、原生集成LangChain/LlamaIndex、实时索引更新以及混合搜索功能。该产品已通过黑客马拉松验证,应用于海事AI、设备端治疗师等场景,现正式向公众开放。

Emma K McGrattan: We're excited to announce VectorAI DB, the first vector database purpose-built for high-performance, reliable AI at the ...

检索增强产品更新部署/工程
00:10
elvis@omarsar0
59
关于如何开始构建LLM知识库的一些说明。 @karpathy 推广了这个概念,但大多数人不知道从哪里入手。 每个人都应该创建LLM维基。 明天有直播会议。 分享了一个代码库示例,即将推出一项新技能。 https://academy.dair.ai/blog/how-to-build-an-llm-knowledge-base
智能体检索增强教程/实践
4月28日
20:36
Rohan Paul@rohanpaul_ai
48
AI海马体:距离人类记忆还有多远?

现代AI需要三类记忆系统:存储持久知识的参数记忆、获取新鲜事实的检索记忆,以及记录目标与经验的智能体记忆。单一记忆模式存在局限,核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引,使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识,以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系,而非构建单一巨型记忆。

智能体检索增强论文/研究
04:30
Rohan Paul@rohanpaul_ai
56
为精确性优化RAG可能悄然损害检索效果,危及智能体流程

最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。

检索增强论文/研究部署/工程
‹ 上一页
12
下一页 ›