该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。
MIT、斯坦福等高校联合研究发现,人们普遍存在“效率增益错觉”,即高估AI在简单任务(如算术、拼写)上带来的效率提升。在包含2691名参与者的三项研究中,人们实际使用AI完成这些简单任务的频率高于其自我预期。参与者预期AI平均能节省55.7秒,但实测仅节省了7.5秒。研究指出,使用AI存在界面摩擦(如编写提示词、等待、核对)等隐形成本,并会引发“自我证成”循环:一旦开始使用,即使独立完成更快,人们也可能因惯性而继续依赖AI,从而悄然低估自身的独立判断力。
该论文指出,当AI智能体在多轮对话中重复使用相同文档和历史记录时,固定的上下文策略并非最优。研究提出了“效率前沿”框架,将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描,可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明,部署感知的选择能在保持相同性能下减少约25%的有效token使用量,而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。
亚马逊推出了名为“Resilient Network Graphs”(RNG) 的新数据中心网络架构。该设计以扁平的准随机图替代了传统的树形网络,并通过Spraypoint路由系统和ShuffleBox布线设备在多个独立路径上分散流量。测试显示,RNG在性能上与传统fat-tree网络持平,但硬件需求减少69%,吞吐量提升33%,并估算成本可降低9%至45%。该架构现已成为大多数AWS工作负载的默认网络,其分散负载的能力有助于提升AI集群训练效率。
1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...
新研究提出“有效反馈计算(EFC)”指标,用于优化AI智能体测试框架的设计。传统评估中,原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42,而EFC将此提升至0.99。基于EFC进行资源重分配,可在相同计算量下将智能体成功率从0.27显著提升至0.90,使框架设计从经验猜测变为可预测过程。
论文提出了“效率前沿”框架,用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是,在部署时选择合适的上下文方法可使token使用量减少约25%,在部分记忆复用场景下可降低超50%成本,且答案质量损失较小。研究指出,上下文长度存在收益递减,后增加的token成本高但收益小。在5000个HotpotQA问题的测试中,轻量检索适合低复用率,记忆压缩在高复用率下更优,而全上下文提示仍是获取最高性能所需。
微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。
脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。
Yann LeCun团队的新论文探讨了LeJEPA模型学习真实世界隐藏变量的条件。其核心结论是,LeJEPA只有在真实的隐藏变量呈现高斯云结构时,才能可靠地学习它们。论文通过数学证明,当这些隐藏变量是独立高斯变量,并且配对视图由一个稳定的噪声过程生成时,LeJEPA的最优解能够以旋转或翻转等价的形式恢复这些变量。这项研究为自监督AI模型究竟在何时能真正理解世界结构(而不仅仅是提取在测试集上有效的特征)提供了理论解释。
I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identifie...
hexoai开源了SIA(自我改进AI)框架。该框架展示了AI智能体不仅能优化其外部工作流(harness),还能通过任务反馈直接更新自身的模型权重,从而在领域知识和能力上实现自主提升,而非仅依赖人类提供的提示或工具改进。论文报告显示,SIA在LawBench基准上性能提升56.6%,在GPU kernels运行上耗时减少91.9%,在单细胞RNA去噪任务中相比基线提升502%。
Superintelligence will be built on Self Improvement. Today @hexoai, we're excited to release 'SIA' - an open-source Self...
提出了一种名为FluxMem的AI智能体记忆架构,其核心理念是将记忆视为一个持续演化的异构图拓扑。该框架通过三个并行阶段运行:初始连接形成、基于反馈的精炼,以及将反复成功的轨迹长期整合为可复用的程序性回路。执行过程中,它会修复缺失链接、剪枝干扰信息并调整抽象粒度。该方法在LoCoMo、Mind2Web和GAIA三个不同的记忆任务基准测试上均达到了SOTA水平。
论文指出AI智能体在部署后,其记忆系统会因摘要、存储、更新和维护而逐渐“衰老”,导致信息丢失、混淆、过时或被破坏。智能体看似仍能工作,但可靠性已悄然下降。为此提出AgingBench基准,用于评估智能体在多会话中的持续可靠性。论文将智能体比作会衰老的基础设施,强调单纯增加记忆并非解决方案。
传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法,允许每层动态选择使用哪些早期层的输出,且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制,仅通过优化残差连接,使得相同图像质量所需的训练迭代次数减少8.75倍。
针对当前Transformer智能体因上下文不断增长而推理变慢变贵的问题,论文提出效仿人类睡眠机制进行记忆巩固。其核心方案是加入周期性的“睡眠阶段”:模型在此阶段暂停,多次重读近期上下文,将有用信息写入固定大小的记忆层(如状态空间块的快速权重),然后清空短期注意力缓存。此离线过程使后续回答仍只需一次前向传播。在细胞自动机、图查找和GSM-Infinite数学问题上的测试表明,更长的睡眠时间能提升性能,尤其对需要深度推理的复杂任务。该思路表明,长期智能体或可通过记忆巩固实现高效遗忘与重用,不必无限携带原始上下文。
这项研究提出了AgingBench,一个用于纵向评估AI智能体可靠性的基准。它将智能体老化归纳为四种机制,包括压缩老化和干扰老化,旨在衡量部署后的智能体是退化以及退化形式。研究指出,即使冻结模型权重,智能体的有效状态也会因压缩交互历史、检索记忆库、事实更新等操作而不断变化,其可靠性是整个运行系统的寿命属性,而非基础模型的快照。基准测试在智能体部署第一天进行,然后持续数月。
Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。
The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...
腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。
The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...
MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。
Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...
Camera pose matters for video understanding! Today's MLLMs excel at recognizing activities, but still struggle with the ...
文章指出,只有具备明确、可程序自动验收标准的Skill才能有效自我进化,例如优化代码性能。微软等机构提出的SkillOpt框架,通过让AI评估并迭代优化Skills,使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并,并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”,这标志着提示词工程与模型训练界限的融合。
什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让...
微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。
MIT、斯坦福等机构的一项研究(2,691名参与者)揭示了“效率增益幻觉”:在基本计算、拼写等简单任务上,用户实际使用AI的比例高于自我预测,且预期节省时间(平均55.7秒)远高于实际测量值(仅7.5秒)。研究指出,隐性成本源于提示、等待、检查等“界面摩擦”。更关键的是,使用AI会形成依赖循环——仅两次使用后,即便独立完成更快,参与者也更倾向继续依赖AI,这种倾向源于对便捷感的错误认知,可能导致用户逐渐丧失对自身何时是更快工具的准确判断力。
Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...
关联讨论 4 条蚂蚁 inclusionAI:HuggingFace 新模型HuggingFace Daily Papers(社区热门论文)公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)