斯坦福研究者发布SEFD数据集与处理方法,将SEC EDGAR申报文件转化为适合LLM训练的结构化数据,保留表格结构、缩进、合并表头、符号、跨度及层级关系。公开快照包含152B token,完整档案约550B token。该数据与Common Crawl语料重叠度低于0.1%。采用布局保真的MultiMarkdown格式,大幅压缩原有演示框架,保留财务含义的同时减少token浪费。
斯坦福研究者发布SEFD数据集与处理方法,将SEC EDGAR申报文件转化为适合LLM训练的结构化数据,保留表格结构、缩进、合并表头、符号、跨度及层级关系。公开快照包含152B token,完整档案约550B token。该数据与Common Crawl语料重叠度低于0.1%。采用布局保真的MultiMarkdown格式,大幅压缩原有演示框架,保留财务含义的同时减少token浪费。
OpenAI 发布新研究,提出通过重放真实历史 ChatGPT 对话(移除旧回答,让新模型在相同上下文回答)来模拟部署,从而预测模型发布后的失败行为。该方法比手动挑选困难提示词的常规安全测试更有效,能发现日常使用中的问题。研究验证了 GPT-5 系列 Thinking 部署前后 20 种不良行为的实际发生率,模拟方法的典型率估计与实际率相差约 1.5 倍,优于困难提示词测试和旧模型猜测。
We're sharing new research on a method for anticipating how models may behave in real-world use before release: simulati...
TokenPilot 提出一种针对 LLM 智能体的缓存高效上下文管理方法,通过摄入感知压缩和生命周期感知驱逐两大机制,在 PinchBench 和 Claw-Eval 基准上实现 61–87% 的成本降低,同时保持有竞争力的分数。传统方法通常直接截断或摘要历史,容易导致文本偏移、破坏 prompt 缓存。TokenPilot 在工具结果进入上下文前进行清理,保持早期提示布局稳定;同时延迟删除旧任务历史,因为已完成的工作仍可能为引用相同文件或目标的后续任务提供帮助。
一篇新论文揭示了大型推理模型的“生产-评估差距”:模型能解出数学题并得到正确答案,但在评估他人推理时,即便逻辑有缺失步骤、前提颠倒或循环论证等明显缺陷,只要最终答案正确,模型也往往判定为合格。作者提出VAIR(有效答案-无效推理)基准验证该问题。这种现象称为“答案确认偏差”,模型仅凭正确答案而非有效逻辑评判推理。与人类相比,模型从解题到评估的能力下降更显著,表明AI可能成为制造看似合理论点的自信引擎,而非真正理解自身产出的推理引擎。
OpenClaw-Skill是一种为LLM智能体构建可复用技能库的方法。传统技能归纳通常将单条轨迹一次蒸馏成扁平的单次启发式规则,而OpenClaw-Skill通过搜索候选技能树来替代贪婪蒸馏,在迭代阶段中利用集体信号联合生成、识别和组合技能节点,最终输出结构化的技能树,旨在提升技能的多样性和泛化能力。论文详见arxiv。
论文分析Claude Code,其有效工作核心并非复杂AI大脑,而是简单AI循环——调用模型、执行已批准工具、回传结果、重复——被精心构建的外围系统(工具、安全、记忆、权限、恢复)包裹。作者研究公开TypeScript源码,主agent循环代码量极小,大量代码来自harness(常规软件),负责定义工具、权限、记忆及故障处理。上下文管理是主要设计挑战,采用多层压缩或总结旧信息避免模型空间耗尽。论文强调能运行shell命令和编辑文件的编码智能体不能等同于带插件的聊天机器人,每个动作都有副作用,需要明确边界约束。
Artificial Analysis 发布 Intelligence Index v4.1,转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2(Elo 重基线、引入前沿模型评审、回合上限增至250),移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果:Claude Fable 5(60分)领先但不可用;可用模型中 Claude Opus 4.8(max)56分居首,GPT-5.5(xhigh)55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面,Opus 4.8 每任务 $1.78,GPT-5.5 $0.99,DeepSeek V4 Pro 仅 $0.04。时间方面,Grok 4.3 最快(1.5分钟),Opus 4.8 需6.4分钟,GPT-5.5 需3.7分钟,Gemini 3.1 Pro Preview 以1.6分钟得46分。
MiniMax Sparse Attention(MSA)在1M token时,将注意力计算量削减28.4倍,H800 GPU上预填充提速14.2倍、解码提速7.6倍,同时基准性能基本持平全量版本。MSA不放弃softmax注意力,而是在分组查询注意力旁增设一个小型路由分支,让每个查询组自主选择应查看的key-value块,主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题,通过架构内建选择器,用模型自身注意力模式训练路由,使注意力变得有选择性而非穷举。
面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet,构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets,附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据(页面ID、修订版ID、Unicode偏移),99.63% 精确重定位。人工审计 4,200 项,设计加权精度 92.1%(低资源语言 88.5%)。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务,显式惩罚信息泄露,为可验证 AI 提供结构化事实基础。
Gemini has some weird traits: it gets confused about dates, blackmails in synthetic scenarios, and seems sad when it is ...
一项研究分析了10年间320万条ALEKS数学学习记录,发现ChatGPT普及后,高中和大学生完成AI友好型文字题的速度显著加快,但学习效果反而下降。监考环境下时间缩短现象消失,说明快速完成并非能力提升或平台变化所致。后续监考的保留测试中,学生对AI友好题的正确率降低约25%,而难以用AI代劳的图形题未受影响。
德克萨斯大学论文指出,AI 智能体在部署后即使模型不变,也会因长期记忆的摘要压缩、相似记忆混淆、事实更新失效及维护操作而可靠性下降。例如药物剂量可能变成“每日用药”,相似客户记录混淆,已取消订阅仍保留,日程可能因维护消失。论文提出 AgingBench 基准测试,评估智能体在多次会话中的可靠性。研究强调“增加更多记忆”往往是错误修复——问题可能在于从未写入、写入后被挤掉、或写入后未被信任使用。论文将部署智能体重新定义为类似老化基础设施的系统。
一项新研究发现,当前提升AI随时间表现的方法存在盲点:LLM智能体实际上并不理解或应用抽象规则总结,而是仅依赖直接复制原始逐步骤历史日志。实验显示,当研究者将浓缩的规则总结替换为随机垃圾文本时,智能体表现无下降;但破坏逐步执行历史则导致明显失败。这表明智能体只是在机械模仿过往步骤,而非真正从教训中学习。论文质疑需重新设计AI记忆机制,因为当前系统仅是模仿而非理解。
MIT、Stanford、New York Univ、Princeton 联合论文发现,AI 会让用户产生“效率幻觉”——感觉使用 AI 后更高效,但实际提升极小甚至为负。三项预注册研究涉及 2691 名参与者,在算术、拼写、记忆和短文改写任务中,用户实际使用 AI 的比例高于其预测,且平均预期节省 55.7 秒,实测仅 7.5 秒。简单任务的隐藏成本是界面摩擦:写提示、等待、阅读、检查、判断答案是否可接受。这一循环形成后,用户会更倾向再次使用 AI,即使自己完成更快。研究指出,AI 使用会自我强化,导致用户逐渐丧失对“何时自己更快”的判断力。论文链接:arxiv.org/abs/2605.22687。
针对Transformer agent随上下文增长而变慢、变贵的问题,新论文提出“睡眠阶段”:模型暂停,多次重读近期上下文,将有用信息通过状态空间块的fast weights写入固定大小的记忆层,然后清空注意力缓存。额外计算在睡眠时完成,正常预测仍只需一次前向传播。在元胞自动机、图查找、GSM-Infinite数学问题上的测试表明,更长的睡眠提升性能,尤其是需要深入推理的难题。核心启示:长程agent无需无限扩大原始上下文,可通过巩固重要部分、遗忘原始token来解决。
论文提出HLL基准,测试AI智能体解决10种CAPTCHA任务的能力。任务要求智能体查看页面、正确点击或拖动、跟踪状态变化并提交答案,同时需在混乱页面中找到交互元素、理解指令、恢复错误并留下一致的操作轨迹。实验显示,即使是当前最强的智能体,在静态任务上表现良好,但在页面杂乱、任务难度增加或系统验证动作有效性时仍会失败。
该综述梳理了专注大语言模型的智能体强化学习,涵盖500余篇工作,按能力与应用两维度归类。指出传统LLM训练仅对单次答案给予单次奖励,无法处理真实任务中的多步决策、部分信息与延迟反馈。智能体学习框架包含:记忆跟踪上下文、规划选取动作序列、工具影响环境,并整合推理处理约束、感知多模态输入、自我改进优化策略。强化学习串联所有环节——奖励在序列结束时到达,策略借此学习下一步行动。
《自然·医学》一项研究发现,通用大语言模型在经医生评审的临床任务上已超越专用医疗 AI 产品。研究对比了 OpenEvidence、UpToDate Expert AI 与 GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6 在医学考试题、医生风格回答及实时临床提问上的表现。在来自真实临床场景的 100 个脱敏医生问题中,盲审医生更偏好前沿模型,尤其在其回答的完整性和清晰度方面。
Google DeepMind新论文提出从通用人工智能到超级智能的四条路径:持续扩展(计算、模型规模、数据、测试时推理)、算法范式革新(超越Transformer架构)、递归自我改进(AI加速自身研发)、多智能体集体智能(众多专业AI智能体协作出超人类智能)。扩展可能遇到数据、算力、能源瓶颈;递归改进最不确定;多智能体路径最易被低估,通过专业化与协调能超越单个强模型。ASI可能不是单次跃迁,而是AI辅助创造更好AI的加速链。
AGENTCL 提出评估 AI 智能体是否真正从经验学习,而非单纯累积信息。通过构建组合任务流(前序任务包含可被后续任务复用的代码片段、研究证据或工作流),与无固定复用线索的随意任务流对比。关键发现:当前记忆方法在任务连接明显时可复用过去经验,但当任务差异较大时仍难以避免混淆。论文旨在为智能体持续学习提供更清晰的测评标准。
What can a neuron compute? Real biological neurons are complex, but how capable are they? Using a new method, we found t...
For medical information, general AI frontier models (Google, OpenAI, Anthropic) outperformed specialized @EvidenceOpen a...
该论文提出SIA框架,让AI自动循环改进:一个观察者AI监控任务代理的表现,然后修改其外部设置(提示词、工具、重试规则、输出解析)或通过LoRA权重更新训练模型本身,模型主体不变,仅适配器从任务反馈中学习。在三个任务上测试:中文法律罪名分类(LawBench达70.1%)、GPU内核速度调优(生成代码优于此前最佳)、单细胞RNA降噪(得分0.289)。综合版本在所有任务上超越仅修改设置的方案,表明权重更新能帮助模型学到提示和工具无法发现的模式。
随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。