我们与NVIDIA合作,利用自主运行的多智能体系统,在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别,实现了38%的几何平均速度提升,其中63%的问题超越基线,19%实现超2倍优化。这些内核直接影响AI训练与推理效率,传统上需资深工程师耗时数月乃至数年的优化工作,该系统在数周内即自主完成,并能探索更广阔解决方案空间,突破了人工逐项优化的限制。
我们与NVIDIA合作,利用自主运行的多智能体系统,在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别,实现了38%的几何平均速度提升,其中63%的问题超越基线,19%实现超2倍优化。这些内核直接影响AI训练与推理效率,传统上需资深工程师耗时数月乃至数年的优化工作,该系统在数周内即自主完成,并能探索更广阔解决方案空间,突破了人工逐项优化的限制。
MiniMax Agent 的此次更新重新设计了 Agent 操作电脑的方式。本次更新全部内容即是对 Agent 与电脑的交互方式进行了重新设计。
v2.1.107 版本已发布,主要优化了长时间操作场景下的用户反馈体验。新版本改进了思考提示(thinking hints)的显示机制,使其在系统执行冗长运算过程中显著提前出现。用户现在能够更快获知当前处理状态与思维进度,有效减少等待过程中的不确定性,提升交互透明度与操作可控感。
前Amazon GuardDuty负责人Shachar Hirshberg与Abnormal Security前AI负责人Dan Shiebler创立Artemis,推出新一代安全智能平台以应对AI时代的自主化攻击。该平台通过语义理解、智能体检测和闭环学习三大技术,将传统SIEM升级为具备自主推理能力的安全系统。Artemis已在数月内部署至十余家大型企业,每小时处理超10亿起安全事件,并完成A轮融资。
Claude Code v2.1.105 新增 EnterWorktree 路径参数、PreCompact hook 阻塞压缩及插件后台监控功能,技能描述上限提升至 1,536 字符。优化 API 流 5 分钟无数据自动中止、WebFetch 自动过滤 CSS/JavaScript、/doctor 支持一键修复问题。同时修复队列图片丢失、终端输入异常、MCP 工具异步加载失败等 30 余项问题。
Google Research发布实验性评估工具Vantage,通过生成式AI模拟多人协作场景,测试学生的批判性思维与协作等"未来就绪技能"。系统由Executive LLM驱动AI化身,在对话中动态引入冲突以收集能力证据,再由AI Evaluator实时评分。与纽约大学的联合研究显示AI评分与人类专家水平相当,188名18-25岁测试者参与了验证。该项目现已上线Google Labs。
研究人员发布 CowCorpus 数据集,包含 400 个真实人机协作网页会话和 4200 余个交错动作,用于训练 AI 预判人类介入时机。该数据集通过 CowPilot 收集自 20 名真实用户,包含逐步的干预时刻标注。针对当前 AI 代理要么忽视用户需求、要么频繁请求确认的问题,研究转向人机协作范式,让系统学会预测人类何时希望接管,而非追求端到端完全自主。
正式发布 v2.1.104 版本。当前发布说明中未提供具体的更新内容、变更日志或技术细节,未包含功能改进、问题修复等相关信息。建议查阅版本控制系统的提交历史或联系维护者以获取完整的版本变更详情。
MiniMax M2.7 与 Hermes Agent 结合,构建可自我进化的 AI 智能体工作流。
Claude Code 发布 v2.1.101,新增 /team-onboarding 命令生成团队上手指南,默认支持 OS CA 证书存储以适配企业 TLS 代理,/ultraplan 可自动创建云环境。优化 brief 模式重试、focus 模式摘要、速率限制提示及插件钩子逻辑。修复 POSIX which 命令注入漏洞、长会话内存泄漏、--resume 上下文丢失、权限规则覆盖失效等关键问题,以及子代理 MCP 工具继承、沙箱命令执行等错误。
版本 v2.1.100 已正式发布,但官方未提供具体的更新内容、变更日志或发布说明。建议用户关注后续补充信息或查看相关发布页面以获取详细更新详情。
小米 MiMo 现已接入全球顶级 Agent 框架 Hermes Agent,并推出限时免费使用两周活动,用户可在两周内免费体验并逐步养成个性化 Agent。
Claude Code v2.1.98 发布,新增 Google Vertex AI 交互式设置向导、Perforce 版本控制支持(CLAUDE_CODE_PERFORCE_MODE)及 Linux 子进程沙盒功能(PID 命名空间隔离)。修复多项 Bash 工具安全漏洞,包括权限绕过、复合命令绕过强制提示、/dev/tcp 重定向自动授权等问题。权限管理支持 additionalDirectories 实时生效,同时优化 MCP OAuth 刷新、流式响应超时及后台代理进度报告等体验细节。
MiniMax 发布 MMX-CLI,一款面向 AI 智能体(Agent)的全模态命令行工具,通过命令行界面为 Agent 提供全模态能力。
CyberAgent 部署 ChatGPT Enterprise 与 Codex,在广告、媒体及游戏业务中安全扩展 AI 应用,提升工作质量并加速决策流程,实现业务全面提速。
Claude Code v2.1.97 版本发布,为 NO_FLICKER 模式新增焦点视图切换(Ctrl+O)及多项渲染修复。权限系统修复了 Bash 工具环境变量检查、MCP HTTP 连接内存累积(约 50MB/小时)、429 重试逻辑及设置热重载等漏洞。新增状态栏自动刷新、git worktree 检测、agents 运行指示器及 Cedar 策略文件语法高亮。改进包括自动批准安全环境变量前缀的文件命令、CJK 输入无需空格即可触发补全,以及图像压缩统一处理。
Google Research 发布 ConvApparel 数据集与评估框架,用于量化 LLM 用户模拟器的"真实感差距"。该数据集包含 4000 余组服装购物多轮对话,采用"好/坏"双智能体协议收集,涵盖从满意到恼怒的全谱系用户行为。框架通过反事实验证测试模拟器对意外糟糕体验的适应能力,解决现有模拟器过于耐心、知识过剩等不现实问题,为训练更鲁棒的对话智能体提供可信的 AI 测试基准。
Bugbot 的 bug 解决率已从 2025 年 7 月正式推出时的 52% 提升至近 80%,领先其他 AI 代码审查产品。其核心改进在于引入了规则学习机制,能够从实时代码审查反馈(如开发者反应、回复和人工评审意见)中自主学习,取代了原先依赖离线实验的更新模式。自测试版推出以来,已有超过 11 万个仓库启用该功能,生成了逾 4.4 万条规则。这些规则可根据信号积累被激活或禁用,帮助 Bugbot 更精准地识别问题。用户可在 Cursor Dashboard 中管理学习规则,以优化审查效果。
Claude Code v2.1.96 修复 Bedrock 请求 403 "Authorization header is missing" 错误,解决使用 AWS_BEARER_TOKEN_BEDROCK 或 CLAUDE_CODE_SKIP_BEDROCK_AUTH 环境变量时的认证失败问题。该回归缺陷源自 2.1.94 版本。
智谱推出开源模型GLM-5.1,支持独立工作长达8小时。模型可直接部署使用,无需人工频繁干预,适用于长周期自动化任务场景。
关联讨论 2 条公众号:智谱(GLM)IT之家(RSS)新版本新增对 Amazon Bedrock(由 Mantle 驱动)的支持,并将 API-key、Bedrock/Vertex/Foundry、Team 及 Enterprise 用户的默认 effort level 从 medium 提升至 high。修复了 429 速率限制后代理卡死、macOS 控制台登录失败、插件 hooks 被忽略、长会话滚动回显重复、CJK 字符损坏等关键问题。VSCode 扩展优化了冷启动性能并新增设置解析失败警告。
Google Cloud推出PaperVizAgent与ScholarPeer两款学术AI智能体。前者通过检索、规划、风格、可视化与批判五个专门智能体协作迭代,将论文文本转化为符合发表标准的图表,综合评分(60.2)显著超越人类基线(50.0)及GPT-Image-1.5等模型;后者模拟资深审稿人流程,动态构建文献背景并验证基线,实现基于实证的自动化同行评审。
新增强制远程设置刷新策略、Bedrock 交互配置向导与按模型成本细分,远程控制会话默认使用主机名前缀。修复子代理生成、工具验证、API 400 等十余项错误,Write 工具大文件 diff 速度提升 60%。移除 /tag 和 /vim 命令,Linux 沙盒恢复 seccomp 限制。
Gas Town(编程智能体框架)与Beads(智能体记忆系统)今日同步发布1.0.0正式版。Gas Town目前拥有13k星标,已进入稳定维护模式,让非技术人员也能构建软件。Beads则以轻量级问题工单为基础,将记录存储在Git中并支持SQL查询,为智能体提供跨会话的历史记录与上下文。
Claude Code v2.1.91 发布,支持 MCP 工具结果最大 500K 字符不截断,新增禁用技能内联 shell 执行选项,插件可打包 bin/ 目录可执行文件。修复了 --resume 转录链断裂、远程会话计划模式丢失、cmd+delete 快捷键等 bug,并优化了 ANSI 剥离性能。
Meta的Ranking Engineer Agent系列博客第二篇,聚焦其底层基础设施优化能力。该自主AI代理能够优化支撑广告排名模型运行的低层基础设施,旨在提升系统性能与效率。本篇承接首篇介绍的机器学习实验自主探索功能,进一步展示了该代理在硬件与系统层面的自动化优化实践。
Codex 新增按量付费模式,面向 ChatGPT Business 和 Enterprise 团队,支持按需灵活扩展使用规模。
阶跃星辰发布 Step 3.5 Flash 系列,主打更快、更好用、更加 Agent-native,面向所有 Step Plan 用户开放体验。
Google DeepMind 发布了 Gemma 4 系列开源模型,旨在直接在设备端实现多步骤规划和自主智能体工作流。该版本包含用于实验“智能体技能”的 Google AI Edge Gallery,以及为开发者提供显著速度提升和结构化输出的 LiteRT-LM 库。Gemma 4 采用 Apache 2.0 许可,支持超过 140 种语言,并兼容移动设备、台式机及树莓派等多种物联网硬件平台。
Cursor 3.0 正式发布,重构为以 Agent 为核心的统一工作空间。新界面原生支持多仓库协作,可并行运行本地与云端 Agent(覆盖移动端、Slack、GitHub 等入口),支持会话在环境间无缝迁移以便离线运行或本地迭代。完整保留 IDE 能力:文件编辑、LSP、内置浏览器及插件市场。基于自研 Composer 2 模型,目标是通过多 Agent 自主协作实现"代码库自动驾驶"。
Claude Code 发布 v2.1.90 版本。新增 /powerup 交互式教程命令,通过动画演示教授功能使用;增加环境变量支持离线环境保留 marketplace 缓存。修复多项关键 bug:解决速率限制对话框崩溃、--resume 缓存未命中、编辑操作与 format-on-save 冲突等问题。性能方面优化 MCP 工具缓存、SSE 传输及长对话转录效率。同时移除 DNS 缓存查询自动权限以增强隐私,并加固 PowerShell 工具权限检查。
Qwen3.6-Plus 定位真实世界 Agent 应用,Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能,覆盖多模态任务与复杂场景需求。
就业市场即将面临剧烈变革,但短期内无需过度恐慌。尽管未来形势将趋于复杂动荡,大规模冲击不会立即显现,当前仍处于变化酝酿阶段。这种渐进式演变意味着就业者尚有调整与准备的时间窗口,不必对即时性失业风险过度反应。然而,长期结构性转变不可避免,需保持警惕并提前规划。
智谱发布GLM-5V-Turbo多模态Coding基座模型,原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用,上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习,在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同,支持"图像即代码"前端复刻及GUI自主探索,提供开箱即用的官方Skills。
Anthropic 分享构建 Claude 应用的三大实践:使用 Claude 已掌握的通用工具(如 bash 和文本编辑器);允许其自行编排工具调用链,减少不必要的上下文回传以降低 token 消耗;随着模型能力进化,重新评估 agent harness 的预设限制。实测显示,让 Opus 4.6 自主过滤工具输出,在 BrowseComp 基准测试中准确率从 45.3% 提升至 61.6%。
Gradient Labs 使用 GPT-4.1 和 GPT-5.4 mini/nano 驱动 AI 智能体,为每位银行客户提供自动化 AI 账户经理服务,实现低延迟、高可靠性的银行支持工作流。
Claude Code v2.1.89 发布,新增 defer 权限决策支持 headless 会话暂停恢复,引入 CLAUDE_CODE_NO_FLICKER 环境变量实现无闪烁渲染,新增 PermissionDenied hook 允许模型重试被拒命令。修复 Windows 平台 CRLF 处理、StructuredOutput 缓存失效、内存泄漏、LSP 僵尸进程、CJK 字符截断等 30 余项 bug。调整 Edit 工具行为,支持直接编辑通过 Bash 查看的文件;hook 输出超 5 万字符将转存磁盘;默认关闭 thinking summaries。优化 MCP 连接超时和子代理提及体验。
Agent Development Kit (ADK) SkillToolset 推出了“渐进式披露”架构,使AI智能体能够按需加载领域专业知识,与传统单体提示相比,可减少高达90%的令牌使用量。该系统通过四种模式——从简单的内联清单到智能体可自行编写代码的“技能工厂”——使智能体能在运行时利用通用的 agentskills.io 规范动态扩展其能力。这种模块化方法确保了复杂的指令和外部资源仅在相关时被访问,从而为现代AI开发构建了一个可扩展且能自我扩展的框架。