Happy to meet @jxnlco in person! My RAG mentor who broke the record on @aiDotEngineer's World Fair on longest line for h...
Happy to meet @jxnlco in person! My RAG mentor who broke the record on @aiDotEngineer's World Fair on longest line for h...
LLM Wikis are being slept on. I argue that creating knowledge bases with LLMs or coding agents is one of the most valuab...
LoanLens从六类借款人文档抽取结构化字段,进行欺诈检测与可解释评分,并附带案件RAG问答。采用Schema驱动抽取,可追溯字段来源;欺诈检测包括姓名TF-IDF比对和护照篡改检测;评分透明(信用23%、DTI 23%等),≥60批准,40–59复核,<40拒绝。
http://x.com/i/article/2070766331306332160
一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现:最佳模型在32K上下文下虚构率1.19%;强模型通常为5%-7%;中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时,所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明,幻觉不仅是检索失败,模型即便能正确找到事实,也易在事实缺失时过度作答。
阿里开源内部向量数据库Zvec,pip install zvec免费使用,对标Pinecone每月70美元能力。支持十亿向量毫秒级检索,无需单独起服务,全平台兼容;v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授(causal-learn作者)提出AI四代范式:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型,认为当前正站在第四代门口。其创立的Aether AI完成首轮融资,致力于从视频中自动抽取物理规律,探索下一代因果AI范式。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet,构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets,附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据(页面ID、修订版ID、Unicode偏移),99.63% 精确重定位。人工审计 4,200 项,设计加权精度 92.1%(低资源语言 88.5%)。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务,显式惩罚信息泄露,为可验证 AI 提供结构化事实基础。
OpenDataLoader PDF是专为RAG管道设计的开源PDF解析器,在200份真实文档(含多栏、学术论文、财报)测试中综合基准得分0.907排名第一,GitHub 2.4万星。本地CPU运行,无需GPU,每页处理仅0.46秒,比Marker快116倍且准确率更高。支持表格、公式、图片、图表解析及OCR(80+语言),输出Markdown、JSON(含坐标边界框)、HTML。原生集成LangChain(pip install langchain-opendataloader-pdf)。采用Apache 2.0许可,可商用。
Claude Code、OpenClaw、Hermes、Codex,一个比一个能干, 但 2026 年了,这批最先进的 Agent 还集体卡在同一件小事上: 上不了网,查推特要付费 API,读小红书卡登录,上 Reddit 动不动被封 IP...
一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。
http://x.com/i/article/2064536412670562304
Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。
http://x.com/i/article/2064485562875260928
开源免费的 token 压缩工具 headroom 本周增速最快,已获 17k star。它专为所有 AI API 调用(输出、日志、文件、RAG 块)设计,压缩 60%-95% 的 token,将账单直接砍到原来的 1/5,且回答质量不变。无需修改一行现有代码,可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词,一行配置即可大幅降低 API 成本。
Google 发布 Agentic RAG 框架,核心新增 Sufficient Context Agent,负责在生成答案前检查检索材料是否充分,若不充分则生成缺失分析并引导系统迭代搜索。在 FramesQA 多跳测试中准确率最高提升 34%,从 4 个数据库检索时正确率达 90.1%,速度仅慢 3% 以内。该设计基于前作发现:Gemini 1.5 Pro 判断“上下文充分性”准确率达 93%,且“相关≠够用”是幻觉关键原因。目前以公开预览在 Gemini Enterprise Agent Platform 开放。
Google提出一种AI记忆压缩技术,可将1000万个文档的向量存储从31GB内存压缩至仅4GB,且搜索速度超过目前最常用的FAISS方法。该技术使本地运行大语言模型并结合个人数据变得更加可行。
http://x.com/i/article/2060717603987791878
http://x.com/i/article/2062762354149146624
本期早报聚焦三则动态:OpenAI发布ChatGPT dreaming V3,记忆架构重写为“写入时合成”,效率提升5倍,免费用户可用个性化记忆摘要;阿里云工程师落地LLM-Wiki模式,从传统RAG转向“写入时合成”知识库,封装五大研发技能包实现PRD到全自动研发;SpaceX招股书披露与Anthropic签订450亿美元算力合同,每月12.5亿美元至2029年5月,年收入增加80%,并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。
今日早报推荐三篇AI相关文章:① ChatGPT升级记忆系统,可自动整理用户对话历史并记住偏好,无需反复提示,免费用户也可使用。② 阿里云工程师分享实战经验,将团队代码库和文档整理成AI可直接调用的知识库,搭配专项技能包,目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露,Anthropic每月支付12.5亿美元购买算力,该数字反映其大规模AI训练与推理的算力需求。
该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。
该论文指出,当AI智能体在多轮对话中重复使用相同文档和历史记录时,固定的上下文策略并非最优。研究提出了“效率前沿”框架,将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描,可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明,部署感知的选择能在保持相同性能下减少约25%的有效token使用量,而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。
LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程:上传后通过 ADE 提取为结构化 Markdown,超过 15MB 的文档异步处理。提取后按文档类型路由归一化:发票/贷款/合同采用确定性解析(无 LLM);10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j(500 词分块,100 词重叠,all-mpnet-base-v2 向量化),图谱包含 10 类实体和 26 种规范关系,并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。
http://x.com/i/article/2060438013273108480
今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效,指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。
作者发现直接使用PDF文档喂给AI存在严重问题。AI处理PDF时并非进行“阅读”,而是在执行字符坐标识别、结构猜测等复杂任务,这不仅消耗更多Token,还容易导致数据错乱(如数字位置被调换)。相比之下,Markdown具有清晰的结构化标记,能直接被模型高效理解。经过咨询Claude和Grok,确认在大量RAG工程实践中,将PDF转换为Markdown再输入是标准流程。因此,建议对技术文档等非视觉主导内容,优先以Markdown格式创建,现有PDF可借助markitdown、LlamaParse等工具进行转换。
之前招后台的研发的实习生项目都是 秒杀、电商。如今招 AI Agent 开发的实习生项目都是 Langchain + Rag。 话说 X 上有想找 AI Agent 开发实习生方向的工作的不? 我这里在招实习生。
Sources: Google DeepMind has reached a ~$100M deal to hire 20+ researchers from Contextual AI, including CEO Douwe Kiela...
国际学校老师离职与Slack停服事件,暴露企业组织记忆托管于外部工具的脆弱性。当前主流AI协作产品聚焦扩大记忆容量,但记忆结构仍是碎片化的列表型。Tanka采用图谱型记忆,将实体、关系和时间结构化,并基于稀疏注意力架构降低计算复杂度,支持固定定价。稀疏架构虽提升确定性任务效率,但可能抑制跨边界创新洞察。该工具适合组织结构稳定、数据栈已集成的团队,为企业构建跨越人员流动的组织记忆图谱。
ExaAILabs的一项关键实验表明,在强化学习阶段训练大语言模型的搜索能力时,使用其Exa搜索API替代Google数据,不仅能使模型达到更高性能,还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点,揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示,意味着未来LLM训练的效率竞争可能始于对底层工具的选择。
How does Exa compare to Google for training LLMs to search? In this blog post, we find that LLMs using Exa during reinfo...
Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。
jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...
Garry Tan系统的核心是Skillify元技能,它能将用户任何一次手动操作自动分析、封装成可复用的技能文件,实现复利效应——技能每改进一次,所有相关流程永久增强。其架构理念为“胖技能+胖代码+胖数据+瘦路由”,强调AI模型仅是引擎,真正的价值源于个人积累的海量结构化数据与专属可组合技能。该系统不仅是工具,更是AI时代个人能力的指数级放大方案,例如Book Mirror能将书籍内容深度映射至个人全部经历,远超普通RAG的检索能力。
说实话,Garry Tan 这篇长帖,是我今年看到的最重要的 AI 文章,没有之一。 大多数人看完估计只会惊叹:"哇,这个读书工具好厉害。" 但他们其实并没看懂,这不仅仅是一个工具,说是一份 AI 时代个人能力的指数级放大说明书更合适一些。...
Garry Tan的文章指出,以Book Mirror为例的先进AI工具,其意义远超普通读书工具或RAG系统。它能将一本162页的书籍在40分钟内转化为3万字的深度个人化分析,将书中观点精准映射到用户的个人历史、工作与经历中。这种交互相当于作者与用户进行两天的一对一深度对话,其效率远超传统方式,代表了AI对个人能力进行指数级放大的新范式。
http://x.com/i/article/2052898104039657472
Gemini API 文件搜索工具近日扩展三项功能更新,旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括:多模态支持,通过Gemini Embedding 2模型实现对图像和文本的同步推理;自定义元数据过滤,允许为文件添加键值标签以结构化非结构化数据,从而提升搜索速度;精确引用功能,能够捕获并返回每条索引信息的精确来源,如页码。开发者可通过Google AI Studio的示例应用体验这些功能,与图像和文档库交互,提问并追溯答案来源。
PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。
本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统,难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移,即文档与现实间缓慢产生的信息偏差,这是导致AI代理给出错误答案的主要根源。
6 LLM Knowledge Base terms you need to know in 2026: (Most teams are missing at least 3, their AI agents pay the price) ...
传统RAG系统在推理前单次检索,无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架,能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性,学习判断何时引入外部证据有效,并将单次检索开销降低3.2倍。在多个QA数据集上,该框架比标准RAG的F1绝对值提升10.1%,且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中,仅用平均1.8次检索即可达到71.2%的F1值,表明面向推理模型的RAG需优化检索时机而不仅是检索内容。
根据Menlo Ventures数据,51%的企业AI生产部署采用RAG技术,而仅9%主要依赖微调。Actian推出的VectorAI DB是一款专为云访问受限、延迟高或风险大的边缘环境设计的向量数据库。它支持在本地、边缘或物理隔离网络中运行RAG流水线、语义搜索和实时AI智能体,核心优势包括数据保留在内部网络、原生集成LangChain/LlamaIndex、实时索引更新以及混合搜索功能。该产品已通过黑客马拉松验证,应用于海事AI、设备端治疗师等场景,现正式向公众开放。
We're excited to announce VectorAI DB, the first vector database purpose-built for high-performance, reliable AI at the ...
现代AI需要三类记忆系统:存储持久知识的参数记忆、获取新鲜事实的检索记忆,以及记录目标与经验的智能体记忆。单一记忆模式存在局限,核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引,使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识,以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系,而非构建单一巨型记忆。
最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。