正式发布 v2.1.104 版本。当前发布说明中未提供具体的更新内容、变更日志或技术细节,未包含功能改进、问题修复等相关信息。建议查阅版本控制系统的提交历史或联系维护者以获取完整的版本变更详情。
正式发布 v2.1.104 版本。当前发布说明中未提供具体的更新内容、变更日志或技术细节,未包含功能改进、问题修复等相关信息。建议查阅版本控制系统的提交历史或联系维护者以获取完整的版本变更详情。
MiniMax M2.7 与 Hermes Agent 结合,构建可自我进化的 AI 智能体工作流。
研究人员针对大语言模型在异构任务中的记忆提取难题,提出基于聚类的自进化策略CluE,并发布涵盖18个数据集的BEHEMOTH基准测试。该基准覆盖个性化、问题解决和智能体任务,采用下游效用驱动指标评估。实验表明,传统静态提示无法跨任务通用,现有自进化框架在异构场景下性能衰减,而CluE通过分簇独立分析与跨簇综合优化,实现9.04%的相对性能提升,有效解决了异构任务中的记忆提取挑战。
研究团队提出 ArcDeck 多智能体框架,将论文转幻灯片任务重新定义为结构化叙事重建问题。与直接总结原文的现有方法不同,ArcDeck 通过解析输入构建话语树和全局承诺文档来显式建模论文逻辑流,并指导多智能体迭代优化演示大纲,最终渲染视觉布局。团队同时发布 ArcBench 基准测试集。实验表明,显式话语建模与角色特定智能体协调能显著提升生成演示的叙事流畅度和逻辑连贯性。
开源框架SemaClaw针对AI工程范式从提示词工程向Harness工程(构建可控、可审计的生产级基础设施)的关键转变,推出面向通用个人AI代理的解决方案。该框架采用基于DAG的两阶段混合智能体团队编排方法,集成PermissionBridge行为安全系统与三层上下文管理架构,并配备可自动构建个人知识库的agentic wiki技能,旨在实现人机交互从离散任务执行向持续上下文感知协作的跨越。
研究团队推出RoMem时序知识图谱模块,采用连续相位旋转机制替代传统离散时间标签。预训练语义速度门为不同关系分配波动率分数,使"总统"等易变关系快速旋转而"出生地"等持久事实保持稳定,通过几何阴影遮蔽过时信息而非直接删除。该方法在ICEWS05-15数据集取得72.6 MRR的SOTA成绩,应用于智能体记忆时在MultiTQ时序推理任务实现2-3倍MRR提升,并在LoCoMo、DMR-MSC及FinTMMBench基准测试中展现零退化与零样本泛化能力。
一项综述系统梳理了2024年至2026年初发表的47种大语言模型强化学习信用分配(CA)方法,按粒度(token、step、turn等)与方法论(蒙特卡洛、时序差分等)建立二维分类体系。研究区分了单条思维链推理(500-3万token)与多轮智能体交互(10万-100万token,100+轮)两种范式,并发布结构化论文清单、报告检查表及基准测试协议三项资源。分析指出,从推理到智能体化的转变正推动信用分配技术从过程奖励模型转向反事实分析、非对称critic等全新方法。
CocoaBench 基准测试针对统一数字智能体发布,通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性,同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示,当前最优系统成功率仅为 45.1%,表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。
SWE-AGILE框架通过动态推理上下文策略解决了多轮软件工程任务中扩展思维链面临的上下文爆炸与重复推理困境。该框架采用"滑动窗口"机制保持近期详细推理以确保连续性,同时将历史推理压缩为精简的Reasoning Digests。实验表明,该方法在SWE-Bench-Verified基准上为7B-8B参数模型创下新纪录,仅使用2.2k条轨迹和896个任务即达到当前最佳性能。
研究者提出隐私主题挑战ToM-SB,要求防御模型充当双重特工,利用心智理论引导攻击者信念,使其误判已获取敏感信息。测试显示Gemini3-Pro和GPT-5.4在硬场景下难以欺骗攻击者。通过强化学习发现,欺骗能力与心智理论存在双向涌现关系:单独优化任一方均可提升另一方。结合两种奖励的AI双重特工在四种攻击者强度和OOD测试中全面超越前沿模型,验证信念建模是任务成功的核心驱动力。
Claude Code Pro Max 5x 用户反馈,在 moderate usage(中等使用强度)下,流量配额仅 1.5 小时即耗尽。该问题已提交至 GitHub issue,引发对配额限制合理性的质疑。
本文提出PersonalAI,一种基于知识图谱的灵活外部记忆框架,由LLM自动构建和更新。该框架在AriGraph基础上引入混合图设计,支持标准边与两种超边,实现丰富的语义和时间表示。系统集成A*、WaterCircles遍历、束搜索等多种检索机制,在TriviaQA、HotpotQA及扩展版DiaASQ基准测试中验证表明:不同任务需配置不同记忆与检索策略。研究还扩展DiaASQ数据集,添加时间注释和矛盾陈述,证明系统在时间依赖管理和上下文感知推理中的鲁棒性。
PokeRL 是基于 PyBoy 的模块化深度强化学习系统,用于训练智能体完成《宝可梦 红》早期任务(离开房屋、探索真新镇、首次宿敌战)。针对 PPO 智能体易陷入动作循环、菜单垃圾信息及无目的漫游等训练脆弱性问题,该系统引入循环感知环境包装器(含地图掩码)、多层反循环与反垃圾机制及密集分层奖励设计。研究指出,这种明确建模失败模式的实用系统,是连接玩具级基准与完整宝可梦联盟冠军智能体的必要中间步骤。
研究发现,增强推理能力的大型语言模型在多智能体行为模拟中可能反而降低保真度。当目标是采样有限理性行为而非求解战略问题时,推理增强的模型会过度优化主导策略,导致妥协行为消失。通过在三个谈判环境(含紧急电力管理场景)的实验显示,有限反思比原生推理生成更多样化且倾向妥协的轨迹:GPT-5.2原生推理在45次运行中全部产生权威决策,而有限反思恢复了妥协结果。这表明行为模拟应更关注模型的采样能力而非求解能力。
研究团队提出自动化多智能体框架,将数据谱系概念引入 LLM 领域以重建数据集演化图谱。大规模分析揭示了数学数据集的垂直细化与通用语料的水平聚合模式,同时发现隐式交集导致的结构冗余及基准污染沿谱系传播等系统性问题。基于该框架,团队构建出谱系感知多样性数据集,通过在上游根源头锚定指令采样缓解下游同质化与隐藏冗余,为大规模数据生态提供了比样本级比较更高效的拓扑分析方案。
Claude Code 发布 v2.1.101,新增 /team-onboarding 命令生成团队上手指南,默认支持 OS CA 证书存储以适配企业 TLS 代理,/ultraplan 可自动创建云环境。优化 brief 模式重试、focus 模式摘要、速率限制提示及插件钩子逻辑。修复 POSIX which 命令注入漏洞、长会话内存泄漏、--resume 上下文丢失、权限规则覆盖失效等关键问题,以及子代理 MCP 工具继承、沙箱命令执行等错误。
作者阐述了对MCP(模型上下文协议)相较于专有AI技能系统的偏好,认为开放协议标准在工具集成和互操作性方面更具长期价值。该观点在Hacker News上获得104个赞。文章讨论了标准化接口对AI生态发展的意义,以及封闭技能系统在灵活性和开发者自由度方面的局限。
版本 v2.1.100 已正式发布,但官方未提供具体的更新内容、变更日志或发布说明。建议用户关注后续补充信息或查看相关发布页面以获取详细更新详情。
小米 MiMo 现已接入全球顶级 Agent 框架 Hermes Agent,并推出限时免费使用两周活动,用户可在两周内免费体验并逐步养成个性化 Agent。
本研究对81个开源仓库的4,550个代理拉取请求进行实证分析,发现AI编程代理在58.4%的仓库中比人类更少修改日志,但修改时日志密度更高。研究表明,明确的日志指令极为罕见(4.7%)且效果有限,代理对建设性请求的违规率达67%。此外,人类开发者承担了72.5%的生成后日志修复工作。这些发现揭示了自然语言指令在规范日志实践上的双重失效,建议采用确定性护栏以确保日志质量。
针对 LLM Agents 面临的多来源指令冲突问题,研究者提出 Many-Tier Instruction Hierarchy(ManyIH)范式,突破传统固定少层级的限制,支持任意多权限级别的指令冲突解决。同步发布的 ManyIH-Bench 基准测试包含 853 个任务,要求模型在 46 个真实 agent 场景中处理多达 12 层级的冲突指令。实验表明,当前前沿模型在复杂冲突下准确率仅约 40%,亟需细粒度、可扩展的冲突解决方法。
研究团队推出SPASM框架,通过模块化设计解决多轮对话中智能体的人设漂移与"回声"问题。该框架包含人设创建、对话生成与终止检测模块,核心创新Egocentric Context Projection(ECP)技术将对话历史存储为视角无关表示,再投影至各智能体自我中心视角,在不改变模型权重的前提下提升长程稳定性。基于GPT-4o-mini、DeepSeek-V3.2和Qwen-Plus构建的数据集包含4,500个人设与45,000段对话,实验证实ECP显著抑制人设漂移并消除回声现象。
Claude Code v2.1.98 发布,新增 Google Vertex AI 交互式设置向导、Perforce 版本控制支持(CLAUDE_CODE_PERFORCE_MODE)及 Linux 子进程沙盒功能(PID 命名空间隔离)。修复多项 Bash 工具安全漏洞,包括权限绕过、复合命令绕过强制提示、/dev/tcp 重定向自动授权等问题。权限管理支持 additionalDirectories 实时生效,同时优化 MCP OAuth 刷新、流式响应超时及后台代理进度报告等体验细节。
MiniMax 发布 MMX-CLI,一款面向 AI 智能体(Agent)的全模态命令行工具,通过命令行界面为 Agent 提供全模态能力。
本文提出首个面向3D具身智能体的推理时视觉对比解码框架3D-VCD,用于缓解多模态大模型在三维环境中的幻觉问题。该方法通过对物体类别、空间坐标及几何范围施加语义与几何扰动构建扭曲的3D场景图,通过对比原始与扭曲场景的预测差异,抑制受语言先验驱动而非场景证据支持的不可靠token。在3D-POPE和HEAL基准测试中,该方法无需重新训练即显著提升了具身智能体的基础推理能力。
CyberAgent 部署 ChatGPT Enterprise 与 Codex,在广告、媒体及游戏业务中安全扩展 AI 应用,提升工作质量并加速决策流程,实现业务全面提速。
Claude Code v2.1.97 版本发布,为 NO_FLICKER 模式新增焦点视图切换(Ctrl+O)及多项渲染修复。权限系统修复了 Bash 工具环境变量检查、MCP HTTP 连接内存累积(约 50MB/小时)、429 重试逻辑及设置热重载等漏洞。新增状态栏自动刷新、git worktree 检测、agents 运行指示器及 Cedar 策略文件语法高亮。改进包括自动批准安全环境变量前缀的文件命令、CJK 输入无需空格即可触发补全,以及图像压缩统一处理。
Google Research 发布 ConvApparel 数据集与评估框架,用于量化 LLM 用户模拟器的"真实感差距"。该数据集包含 4000 余组服装购物多轮对话,采用"好/坏"双智能体协议收集,涵盖从满意到恼怒的全谱系用户行为。框架通过反事实验证测试模拟器对意外糟糕体验的适应能力,解决现有模拟器过于耐心、知识过剩等不现实问题,为训练更鲁棒的对话智能体提供可信的 AI 测试基准。
Bugbot 的 bug 解决率已从 2025 年 7 月正式推出时的 52% 提升至近 80%,领先其他 AI 代码审查产品。其核心改进在于引入了规则学习机制,能够从实时代码审查反馈(如开发者反应、回复和人工评审意见)中自主学习,取代了原先依赖离线实验的更新模式。自测试版推出以来,已有超过 11 万个仓库启用该功能,生成了逾 4.4 万条规则。这些规则可根据信号积累被激活或禁用,帮助 Bugbot 更精准地识别问题。用户可在 Cursor Dashboard 中管理学习规则,以优化审查效果。
Claude Code v2.1.96 修复 Bedrock 请求 403 "Authorization header is missing" 错误,解决使用 AWS_BEARER_TOKEN_BEDROCK 或 CLAUDE_CODE_SKIP_BEDROCK_AUTH 环境变量时的认证失败问题。该回归缺陷源自 2.1.94 版本。
智谱推出开源模型GLM-5.1,支持独立工作长达8小时。模型可直接部署使用,无需人工频繁干预,适用于长周期自动化任务场景。
关联讨论 2 条公众号:智谱(GLM)IT之家(RSS)现有Web Agent基准仅评估最终成功率,丢失过程信息。WebStep引入1800个任务实例,通过语义MDP自动追踪状态与转换,无需人工标注即可实现细粒度过程分析。过程指标揭示了结果评估无法区分的差异:三个成功率在31-33%的智能体在探索覆盖与执行精度上表现各异。按技能分解进一步定位差异:在同一Housing网站上,OpenAI CUA在提交动作上比Qwen3.5高23.7%,但在筛选上低15.6%。分岔分析显示决策错误是智能体特定而非共有。随着任务难度增加,这些差异显著扩大,为每个智能体提供了可操作改进方向。
强化学习是提升大语言模型推理能力的核心后训练工具,但rollout(从提示到终止的采样轨迹)设计常被忽视。本综述从与优化器无关的视角,提出GFCR(生成-过滤-控制-重放)生命周期分类法,将rollout流程模块化为四个阶段:生成候选轨迹、过滤构建中间信号、控制计算分配与决策、重放重用数据。研究引入可靠性、覆盖率和成本敏感性的权衡标准,并以此框架综述了过程监督、自适应计算等方法。案例研究涵盖数学、代码/SQL等多领域,最后提供了诊断索引和开放挑战,以构建可复现、高效的rollout流程。
研究团队发布 ATANT 开源评估框架,用于衡量 AI 系统跨时间保持上下文连续性的能力。框架定义了连续性的 7 项必要属性,采用无 LLM 参与的 10 检查点方法,包含 250 个故事和 1,835 个验证问题。评估显示,参考实现从遗留架构的 58% 提升至隔离模式 100%,250 故事累积模式下达 96%。该框架系统无关、模型独立,可验证 AI 在多叙事共存时避免交叉污染的能力。
新版本新增对 Amazon Bedrock(由 Mantle 驱动)的支持,并将 API-key、Bedrock/Vertex/Foundry、Team 及 Enterprise 用户的默认 effort level 从 medium 提升至 high。修复了 429 速率限制后代理卡死、macOS 控制台登录失败、插件 hooks 被忽略、长会话滚动回显重复、CJK 字符损坏等关键问题。VSCode 扩展优化了冷启动性能并新增设置解析失败警告。
Google Cloud推出PaperVizAgent与ScholarPeer两款学术AI智能体。前者通过检索、规划、风格、可视化与批判五个专门智能体协作迭代,将论文文本转化为符合发表标准的图表,综合评分(60.2)显著超越人类基线(50.0)及GPT-Image-1.5等模型;后者模拟资深审稿人流程,动态构建文献背景并验证基线,实现基于实证的自动化同行评审。
针对AI编码智能体在大型代码库中存在的“上下文盲”问题,本文提出了Spec Kit Agents多智能体规范驱动开发流程。该流程引入阶段级的上下文锚定钩子:只读探测钩子将各开发阶段锚定于仓库证据,验证钩子则检查中间产物。在涵盖5个仓库、32个功能的评估中,上下文锚定钩子将LLM综合评分提升了0.15分(满分5分),同时保持99.7%-100%的仓库级测试兼容性。在SWE-bench Lite基准测试中,该方法将基线性能提升1.7%,达到58.2%的Pass@1通过率。
SuperLocalMemory V3.3("活脑")作为本地优先的Zero-LLM智能体记忆系统发布,实现完整认知记忆分类。核心创新包括:Fisher-Rao量化感知距离(FRQAD)以100%精度识别高保真嵌入;艾宾浩斯自适应遗忘曲线实现6.7倍区分力;7通道认知检索(语义、关键词、实体图、时间、扩散激活、巩固、Hopfield联想)在LoCoMo基准零LLM模式下达70.4%,多跳任务提升23.8个百分点。支持长时内隐记忆参数化与自动认知管道,纯CPU运行,月下载超5000次。
针对大模型智能体技能跨平台行为不一致与执行效率问题,研究团队提出SkVM编译与运行时系统。该系统借鉴传统编译器设计,将技能视为代码、大模型视为异构处理器,基于对11.8万个技能的能力剖析,在编译时进行能力匹配与环境绑定,运行时实施JIT代码固化与自适应重编译。实验覆盖8种大模型及3种agent harness,结果显示SkVM在提升任务完成率的同时,可降低40%的token消耗,实现最高3.2倍加速及19-50倍延迟缩减。