http://x.com/i/article/2062762354149146624
http://x.com/i/article/2062762354149146624
本期早报聚焦三则动态:OpenAI发布ChatGPT dreaming V3,记忆架构重写为“写入时合成”,效率提升5倍,免费用户可用个性化记忆摘要;阿里云工程师落地LLM-Wiki模式,从传统RAG转向“写入时合成”知识库,封装五大研发技能包实现PRD到全自动研发;SpaceX招股书披露与Anthropic签订450亿美元算力合同,每月12.5亿美元至2029年5月,年收入增加80%,并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。
今日早报推荐三篇AI相关文章:① ChatGPT升级记忆系统,可自动整理用户对话历史并记住偏好,无需反复提示,免费用户也可使用。② 阿里云工程师分享实战经验,将团队代码库和文档整理成AI可直接调用的知识库,搭配专项技能包,目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露,Anthropic每月支付12.5亿美元购买算力,该数字反映其大规模AI训练与推理的算力需求。
提出ECI_{sem},一种无需训练的语义残差变体,利用冻结目标编码器嵌入对密集检索候选负样本源排序。每个评分需查询、标注正例及显式候选负例。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性构建加权残差信息矩阵。在MS MARCO上,族内ECI_{sem}将LLM负样本(非混合)和Dense+LLM(混合源)排为最高,与DistilBERT、E5-base、Contriever在BEIR上的最强聚合迁移结果一致。消融实验表明对齐依赖目标编码器族,且在样本量、温度等扰动下稳定。
RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间,并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上,RISE 搭配 gpt-5.4-mini 达到 78% 准确率,每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时,RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%,而 DCI 在 gpt-5.4-nano 上准确率降至 60%,且 33% 的查询因超时失败。
大语言模型在零样本文本嵌入任务中表现不佳,原因在于嵌入向量倾向于与高频但无信息的token对齐,抑制语义捕获。本文提出EmbedFilter,一种简单的线性变换方法,通过利用LLM内部unembedding矩阵编码的潜在空间,过滤掉高频token子空间,从而增强语义表示。该方法可自然降维,减少索引存储并加速检索,同时保持精炼后嵌入质量。实验表明,嵌入EmbedFilter的LLM在显著降低嵌入维度时仍取得更优零样本下游性能。代码已开源。
一项干预审计研究揭示了检索增强问答流程中重写器(rewriter)性能提升的因果机制:增益主要来自重写上下文中出现正确答案字符串,而非证据质量本身的改善。在Qwen2.5-7B、Qwen3.5-35B、GLM-4.7三个读者模型、HotpotQA和2WikiMultihopQA两个数据集上的十二组实验显示,从重写输出中移除答案跨度导致读者F1分数比长度匹配的安慰剂对照额外下降28至64点;向原无答案的重写内容前缀注入答案则在10/12组合中带来0.7至9.7点的F1提升。传统单[MASK]探针检测法存在脆弱性——在2Wiki数据集上报告+4.12 F1“非泄漏残差”,但改用四种替代哨兵后结果翻转至-3.33至-7.81 F1,且其中三种未通过等价检验。
为解决检索增强生成(RAG)系统处理图像时的挑战,Kapa.ai提出了一种方法。他们使用GPT-4 Vision模型为每张图像生成文本描述。处理流程包括将图片压缩至512×512像素并批量生成描述。最终,这些图像描述与元数据一同存入向量数据库。该方法使RAG能够检索图像内容,实现约70%的检索准确率,且成本极低,每张图片处理成本约0.01美元。
Harness-1是一个20B参数的检索子智能体,通过强化学习训练。其核心创新是将状态管理外部化至环境侧的框架中,该框架负责维护包括候选池、重要性标注的精选集、证据链与验证记录等工作记忆,使策略本身专注于搜索语义决策。在八个涵盖网页、金融、专利等领域的检索基准测试中,Harness-1取得了0.730的平均精选召回率,超越了次优的开源搜索子智能体11.4个点,并与规模更大的前沿模型保持竞争力。其代码已开源。
Memory OS是一个开源项目,它通过一个六层结构为Hermes Agent添加了本地持久记忆功能。该记忆栈包含门控检索机制和一个wiki系统,旨在增强智能体的记忆能力。
该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。
该论文指出,当AI智能体在多轮对话中重复使用相同文档和历史记录时,固定的上下文策略并非最优。研究提出了“效率前沿”框架,将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描,可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明,部署感知的选择能在保持相同性能下减少约25%的有效token使用量,而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。
LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程:上传后通过 ADE 提取为结构化 Markdown,超过 15MB 的文档异步处理。提取后按文档类型路由归一化:发票/贷款/合同采用确定性解析(无 LLM);10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j(500 词分块,100 词重叠,all-mpnet-base-v2 向量化),图谱包含 10 类实体和 26 种规范关系,并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。
http://x.com/i/article/2060438013273108480
今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效,指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。
Critic-R 框架在推理和训练阶段显式连接推理智能体与检索模型的反馈循环。它引入批评模型评估智能体的内省推理轨迹,判断上下文是否充分支持下一步推理。框架包含两种机制:Critic-R-Zero 在推理时迭代重写查询与检索指令;Critic-Embed 利用成功与失败的细化轨迹自动监督检索模型训练,无需人工标注。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 Bamboogle 上的实验表明,Critic-R 显著提升了检索质量和答案准确率。
OCC-RAG 是 Optimal Cognitive Core (OCC) 家族中专为忠实问答优化的 SLM。研究团队通过大规模合成多上下文、多跳 QA 数据(超300万样本)训练出 0.6B 和 1.7B 两个版本。模型生成结构化推理轨迹并引用原文证据。在 HotpotQA、MuSiQue、TAT-QA(多跳推理)、ConFiQA(忠实性)和 MuSiQue-Un(拒答)基准上,性能匹配或超越 2-6 倍规模的通用模型。
针对强化学习提升事实性问答准确度时的奖励设计难题,本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号,替代了昂贵且不可靠的神经验证器(如NLI或LLM判断器)。CorVer为每个句子分配信用值,并通过简单对齐映射到token级优势,仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中,CorVer使每个组合的性能均优于原始基线,其中TriviaQA平均提升+4.1个百分点。在可行配置下,它在20个组合中的18个超越了神经验证器基线,且训练速度快4.8至8.4倍。
Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时,因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中,使团队能更专注于提升搜索质量。该工具开源,可部署在云端、本地或边缘环境,并支持企业搜索、RAG 等多种检索场景。
Clark Hash是一种用于紧凑存储神经网络嵌入向量的无状态编解码方法。在默认的384维句子嵌入设置下,它将一个余弦搜索向量存储为48字节的固定宽度标量量化码,相比使用f32格式的密集存储(需1536字节),实现了32倍的压缩。该方法无需训练过程、学习码本或预先计算语料库统计信息。基于多语言MiniLM编码器的评估显示,其48字节草稿与密集余弦分数在STS17和STS22测试集上的宏皮尔逊相关系数分别达到了0.910和0.946。
本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接,并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。
本文研究了大语言模型记忆系统中错误追踪与归因的新问题。我们提出了MemTrace框架,它将记忆管线转化为可执行的记忆演化图,以实现操作信息流的细粒度追踪。我们构建了MemTraceBench基准,数据来自Long-Context、RAG、Mem0和EverMemOS等代表性系统,用于系统研究记忆失效模式。此外,我们引入了一种自动归因方法,通过迭代追踪操作子图来定位失败根因。分析表明,记忆失败具有系统性,源于信息丢失与检索错位等操作级问题。利用这些细粒度归因信号指导下游提示词优化,可构建一个自动纠错的闭环系统,将端到端任务性能最高提升7.62%。
本文介绍了embeddingmagibu-200m,一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量,支持8,192 token的上下文窗口。该模型不进行完整预训练,而是采用三阶段适配流水线训练:构建优化的土耳其语分词器、克隆并适配教师模型权重,以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数,在单个GPU上训练约4小时,成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型,并在TR-MTEB的26个任务中排名靠前,实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。
Google DeepMind推出Gemini Embedding 2,这是一款原生多模态嵌入模型,支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力,通过大规模对比学习实现SOTA性能。在关键基准上表现优异:MSCOCO取得62.9 R@1,Vatex取得68.8 NDCG@10,MTEB multilingual达到69.9,MTEB Code达到84.0,超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务,并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。
检索增强生成系统处理多来源语料时,可能因检索来源不同而对同一问题给出不同答案,这是一种现有评估体系无法诊断的失效模式。研究团队在医疗患者教育场景发布了三个工具:基准TransplantQA,为真实患者问题提供基于多机构手册的参考答案;分层检索与审计策略HERO-QA;以及一个基于经验证的5标签分类体系的结构化评估器,用于评分来源间关系。大规模审计显示,更优的检索能力所暴露出的来源分歧远高于此前估计。该框架具有领域通用性。
介绍如何使用基于 Qwen3、参数规模为 4B 的交叉编码器重排器 Zerank-2 Reranker 构建检索-重排流水线。该流水线先通过快速双编码器检索候选文档,再由 Zerank-2 进行重排以提升检索精度。
本研究探讨了密集检索器位置偏见的成因,聚焦于训练数据中证据位置分布的影响。通过构造证据位于文档开头、中间或结尾的合成训练集,并对8种架构的预训练模型进行微调,实验发现:偏斜的训练分布会使模型偏好相应位置的信息。在位置敏感的评测基准上,位置平衡训练可降低57%–87%的位置敏感性,且检索性能具有竞争力。表示层分析表明,微调能重塑模型的位置偏好,但部分模型中预训练或架构固有的倾向仍会持续。该研究指出训练数据的位置分布是影响检索位置偏见的主要可控因素,平衡数据编排是一种有效的缓解策略。
作者发现直接使用PDF文档喂给AI存在严重问题。AI处理PDF时并非进行“阅读”,而是在执行字符坐标识别、结构猜测等复杂任务,这不仅消耗更多Token,还容易导致数据错乱(如数字位置被调换)。相比之下,Markdown具有清晰的结构化标记,能直接被模型高效理解。经过咨询Claude和Grok,确认在大量RAG工程实践中,将PDF转换为Markdown再输入是标准流程。因此,建议对技术文档等非视觉主导内容,优先以Markdown格式创建,现有PDF可借助markitdown、LlamaParse等工具进行转换。
为解决垂直领域大语言模型缺乏复杂任务导向对话数据的瓶颈,STREAM框架提出一种从公开流媒体(直播与短视频)中规模化合成高质量服务对话的新方法。该框架从嘈杂的流媒体中挖掘真实交互信号,结合角色人物构建与对话蓝图设计,并利用检索增强生成(RAG)技术支持知识响应。基于此发布的StreamDial数据集覆盖汽车、餐饮与酒店三大领域,包含87,498个对话会话与1,497,320轮对话。评估表明,该数据集提升了对话内在质量,并在多个骨干模型上改善了对话状态跟踪性能;在Qwen3-8B上的多语言迁移实验也取得了积极结果。
之前招后台的研发的实习生项目都是 秒杀、电商。如今招 AI Agent 开发的实习生项目都是 Langchain + Rag。 话说 X 上有想找 AI Agent 开发实习生方向的工作的不? 我这里在招实习生。
Google Research的TurboQuant算法已通过Turbovec项目应用于向量搜索领域。该工具以Rust语言构建,提供Python绑定接口,可直接集成到RAG流水线中。Turbovec实现了16倍的向量压缩率,同时无需进行任何码本训练,显著降低了部署和使用门槛。
Sources: Google DeepMind has reached a ~$100M deal to hire 20+ researchers from Contextual AI, including CEO Douwe Kiela...
针对学术研究中大语言模型(LLM)存在幻觉的问题,研究者将抽取式问答系统VerbatimRAG应用于ACL Anthology论文集,实现用户查询到文档原文片段的直接映射。团队构建了一个新基准数据集,由NLP研究人员基于ScIRGen方法生成的合成用户查询进行人工标注,用于训练和评估多种抽取式模型。其中,一个参数规模为150M的ModernBERT分类器,在基于ScIRGen方法生成的查询和论文片段上进行训练后,在词级F1分数上达到53.6,超越了被评估的最强LLM抽取器(48.7)。
Hugging Face 发布六个 Ettin Reranker 重排序模型(17m、32m、68m、150m、400m、1b),基于 Ettin ModernBERT 编码器,蒸馏 self-mxbai-rerank-large-v2 分数训练,在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供,三行代码可调用。同时发布 train-sentence-transformers Agent Skill(v5.5.0),允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。
PaddleOCR 发布 3.5 版本,正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 engine 与 engine_config 参数,允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于,显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈(如 RAG、智能体、文档AI)的门槛,使开发者能更便捷地利用现有生态,减少集成阻力,从而专注于下游应用构建。
LongMINT是一个评估智能体在信息不断更新、存在大量干扰的长周期环境中记忆能力的新基准。它包含平均13.88万token(最长180万token)的长上下文,涵盖状态追踪、多轮对话、维基百科修订和GitHub提交四个领域,并设置了单目标检索与多目标聚合两类问题。对7个代表性系统的测试显示,平均准确率仅为27.9%,尤其在综合多证据推理的任务上表现差。分析表明,性能主要受限于检索和记忆构建能力,且系统难以有效处理后续信息对早期事实的更新与干扰。
针对大语言模型在使用长上下文前缀时面临影响力衰减和计算开销大这两个问题,本文提出了一种名为“注意力状态记忆”的无训练方法。该方法将上下文前缀外化为一个轻量级、基于查找的预计算记忆库,存储了前缀与查询词之间的注意力状态。实验表明,在 LLaMA-3.1-8B 上,该方法在 1K-8K 记忆预算下提升了准确率,并将注意力计算延迟降低了 1.36 倍。同时,它在 NBA 基准测试中,仅用全注意力 RAG 20% 的内存开销,便超越了其性能表现。
针对传统检索无法理解复杂意图、而前沿大语言模型成本高且存在幻觉的问题,研究团队提出了自我进化的智能文献检索系统PaSaMaster。该系统通过迭代式意图分析、检索与排序,将文献检索转变为动态演进的过程,并采用三项关键设计:利用排序证据揭示信息缺口以优化搜索;将检索定义为意图-论文相关性排序任务,从根本上杜绝虚假文献;通过分离规划与检索来提升效率,仅用大模型理解意图,而将大规模检索与评分交由轻量模型处理。在涵盖38个学科的基准测试中,该系统将传统关键词检索的F1分数提升15.6倍,完全消除了文献幻觉,且性能超越GPT-5.2达30%,计算成本仅为后者的1%。