Gas Town(编程智能体框架)与Beads(智能体记忆系统)今日同步发布1.0.0正式版。Gas Town目前拥有13k星标,已进入稳定维护模式,让非技术人员也能构建软件。Beads则以轻量级问题工单为基础,将记录存储在Git中并支持SQL查询,为智能体提供跨会话的历史记录与上下文。
Gas Town(编程智能体框架)与Beads(智能体记忆系统)今日同步发布1.0.0正式版。Gas Town目前拥有13k星标,已进入稳定维护模式,让非技术人员也能构建软件。Beads则以轻量级问题工单为基础,将记录存储在Git中并支持SQL查询,为智能体提供跨会话的历史记录与上下文。
OmniGUI 是一个步级基准,专门设计用于评估全模态智能手机环境中的图形用户界面代理。它提供每个动作步骤的连续交错多模态输入,包括静态图像、同步音频和视频片段,数据集覆盖709个专家演示片段、2579个动作步骤和29个应用程序,并标注了多模态依赖级别。评估显示,基础多模态模型在处理需要同步时序和听觉信号的任务时,动作预测性能显著下降。消融实验指出,跨模态干扰是主要瓶颈,尤其在处理任务无关环境噪声时。数据集、评估流程和基线提示已开源。
Claude Code v2.1.91 发布,支持 MCP 工具结果最大 500K 字符不截断,新增禁用技能内联 shell 执行选项,插件可打包 bin/ 目录可执行文件。修复了 --resume 转录链断裂、远程会话计划模式丢失、cmd+delete 快捷键等 bug,并优化了 ANSI 剥离性能。
Meta的Ranking Engineer Agent系列博客第二篇,聚焦其底层基础设施优化能力。该自主AI代理能够优化支撑广告排名模型运行的低层基础设施,旨在提升系统性能与效率。本篇承接首篇介绍的机器学习实验自主探索功能,进一步展示了该代理在硬件与系统层面的自动化优化实践。
Codex 新增按量付费模式,面向 ChatGPT Business 和 Enterprise 团队,支持按需灵活扩展使用规模。
阶跃星辰发布 Step 3.5 Flash 系列,主打更快、更好用、更加 Agent-native,面向所有 Step Plan 用户开放体验。
Google DeepMind 发布了 Gemma 4 系列开源模型,旨在直接在设备端实现多步骤规划和自主智能体工作流。该版本包含用于实验“智能体技能”的 Google AI Edge Gallery,以及为开发者提供显著速度提升和结构化输出的 LiteRT-LM 库。Gemma 4 采用 Apache 2.0 许可,支持超过 140 种语言,并兼容移动设备、台式机及树莓派等多种物联网硬件平台。
Cursor 3.0 正式发布,重构为以 Agent 为核心的统一工作空间。新界面原生支持多仓库协作,可并行运行本地与云端 Agent(覆盖移动端、Slack、GitHub 等入口),支持会话在环境间无缝迁移以便离线运行或本地迭代。完整保留 IDE 能力:文件编辑、LSP、内置浏览器及插件市场。基于自研 Composer 2 模型,目标是通过多 Agent 自主协作实现"代码库自动驾驶"。
Claude Code 发布 v2.1.90 版本。新增 /powerup 交互式教程命令,通过动画演示教授功能使用;增加环境变量支持离线环境保留 marketplace 缓存。修复多项关键 bug:解决速率限制对话框崩溃、--resume 缓存未命中、编辑操作与 format-on-save 冲突等问题。性能方面优化 MCP 工具缓存、SSE 传输及长对话转录效率。同时移除 DNS 缓存查询自动权限以增强隐私,并加固 PowerShell 工具权限检查。
Qwen3.6-Plus 定位真实世界 Agent 应用,Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能,覆盖多模态任务与复杂场景需求。
就业市场即将面临剧烈变革,但短期内无需过度恐慌。尽管未来形势将趋于复杂动荡,大规模冲击不会立即显现,当前仍处于变化酝酿阶段。这种渐进式演变意味着就业者尚有调整与准备的时间窗口,不必对即时性失业风险过度反应。然而,长期结构性转变不可避免,需保持警惕并提前规划。
智谱发布GLM-5V-Turbo多模态Coding基座模型,原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用,上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习,在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同,支持"图像即代码"前端复刻及GUI自主探索,提供开箱即用的官方Skills。
Anthropic 分享构建 Claude 应用的三大实践:使用 Claude 已掌握的通用工具(如 bash 和文本编辑器);允许其自行编排工具调用链,减少不必要的上下文回传以降低 token 消耗;随着模型能力进化,重新评估 agent harness 的预设限制。实测显示,让 Opus 4.6 自主过滤工具输出,在 BrowseComp 基准测试中准确率从 45.3% 提升至 61.6%。
客户开始用 vibe coding 自行写代码接管项目开发,原外包开发者面临被 AI 工具替代的尴尬处境,在 HN 发帖询问该如何应对这种局面。
Gradient Labs 使用 GPT-4.1 和 GPT-5.4 mini/nano 驱动 AI 智能体,为每位银行客户提供自动化 AI 账户经理服务,实现低延迟、高可靠性的银行支持工作流。
Claude Code v2.1.89 发布,新增 defer 权限决策支持 headless 会话暂停恢复,引入 CLAUDE_CODE_NO_FLICKER 环境变量实现无闪烁渲染,新增 PermissionDenied hook 允许模型重试被拒命令。修复 Windows 平台 CRLF 处理、StructuredOutput 缓存失效、内存泄漏、LSP 僵尸进程、CJK 字符截断等 30 余项 bug。调整 Edit 工具行为,支持直接编辑通过 Bash 查看的文件;hook 输出超 5 万字符将转存磁盘;默认关闭 thinking summaries。优化 MCP 连接超时和子代理提及体验。
Agent Development Kit (ADK) SkillToolset 推出了“渐进式披露”架构,使AI智能体能够按需加载领域专业知识,与传统单体提示相比,可减少高达90%的令牌使用量。该系统通过四种模式——从简单的内联清单到智能体可自行编写代码的“技能工厂”——使智能体能在运行时利用通用的 agentskills.io 规范动态扩展其能力。这种模块化方法确保了复杂的指令和外部资源仅在相关时被访问,从而为现代AI开发构建了一个可扩展且能自我扩展的框架。
AI 能力已足够强大,但人们仍缺乏趁手的工具和界面来完成实际工作。Claude Dispatch 强调,优秀的界面设计才是释放 AI 全部潜力的关键。
OpenAI 获 1220 亿美元新融资,用于全球扩展前沿 AI、投资下一代算力,满足 ChatGPT、Codex 及企业 AI 的需求增长。
一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads(2万星)和Gas Town(1.3万星)两个项目,每天收到约50个PR。通过自动化处理超过半数简单PR,整体合入率约88%,中位解决时间15小时。即便如此,每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键,拒绝贡献可能导致项目被分叉或取代。
Agent Development Kit (ADK) for Go 1.0 版本正式发布,标志着其从实验性脚本转向生产就绪的服务框架。本次更新核心在于强化可观测性、安全性与可扩展性,主要特性包括:原生集成OpenTelemetry以实现深度追踪;支持自愈逻辑的新插件系统;在敏感操作中引入“人在回路”安全确认机制。此外,新版本提供了基于YAML的配置以加速迭代,并优化了Agent2Agent协议,以支持跨编程语言的智能体无缝通信。该框架使开发者能够依托Go语言的高性能工程标准,构建复杂且可靠的多智能体系统。
Mistral AI 于2026年3月31日发布了其命令行工具 Spaces,专为人类用户与 AI 智能体共同工作设计。此次发布是其完整产品矩阵的一部分,该矩阵包括用于构建应用的 Studio、用于训练模型的 Forge、用于长周期任务的 AI 智能体 Vibe 及其代码版本 Vibe for Code,以及用于前沿规模训练与推理的 Compute 基础设施。同时,Mistral 更新了模型产品线,发布了最新的 Mistral Medium 3.5 和 Mistral Small 4 模型。
Mistral AI 在改进内部CLI工具时发现,原本为人类开发者设计的交互式提示会阻碍AI智能体使用。核心解决方案是将每个交互式提示都转化为对应的命令行标志位,确保所有必要信息都能通过非交互方式提供。他们建立了插件系统,使组件可自省和序列化,并为智能体生成结构化的上下文指南。这些改进使得智能体能够自主完成从项目初始化到部署的全流程,例如将博客项目部署为Space仅需不到10分钟。面向智能体的设计最终也提升了人机协作的效率。
Runway 推出 Runway Builders 计划,为 Seed 至 Series C 初创企业提供最高50万免费 API 积分及 Characters 实时视频代理接口。该接口基于 GWM-1 模型,支持从单张图片零微调生成可控数字角色,适用于客服、销售助手等实时交互场景。
Anthropic宣布在悉尼设立办公室,并与澳大利亚政府签署AI安全合作备忘录。数据显示,澳大利亚占全球Claude流量1.6%,人均使用量是预期的4倍以上,全球排名第11位,人均第7位。使用集中在新南威尔士州(37%)和维多利亚州(31%)。使用场景为46%工作、47%个人、7%课程作业。澳用户倾向于处理更复杂任务,但耗时比平均短20%,AI自主性得分较低(3.38/5),表明更多采用协作而非完全委托模式。
Google 正式发布了 Java 版智能体开发套件 (ADK) 的 1.0.0 版本。该版本引入了多项关键功能:支持接入 Google Maps 数据、内置 URL 抓取工具,以及用于跨框架协作的标准化 Agent2Agent 协议。其全新的“App”和“Plugin”架构增强了控制能力,实现了全局日志记录、通过事件压缩自动管理上下文窗口,以及需要人工确认的“Human-in-the-Loop”工作流。此外,该版本深度集成 Google Cloud 服务(如 Firestore 和 Vertex AI),提供了强大的会话与记忆管理功能,以处理长期状态和大型数据工件,助力开发者构建更复杂的 AI 智能体应用。
Qwen Studio 发布,集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能,提供全模态 AI 一站式解决方案。
关联讨论 1 条Qwen:Blog Retrieval(API)本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5,通过两阶段训练:首先进行侧重代码的持续预训练以深化编码知识,随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上,Composer 2得分为61.3,较前代提升37%,与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分,并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。
Lightfeed Extractor 发布基于 TypeScript 的 LLM 网页数据提取库,支持通过自然语言提示和 Zod schema 从 HTML、Markdown 或纯文本中提取结构化数据。核心功能包括 HTML 转 Markdown 预处理、JSON 模式输出、失败 JSON 自动修复及 token 追踪。可与 Playwright 集成加载动态页面,或配合 browser-agent 实现自然语言导航后提取,适用于电商竞品监控等生产级场景。
Cursor团队将实时强化学习技术应用于Composer编码模型,利用真实用户交互产生的推理令牌作为训练信号,以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试,新版本实现了关键指标提升:代理编辑在代码库中的持久性增加2.28%,用户不满意后续减少3.13%,延迟降低10.3%。实时RL也带来了奖励黑客等新挑战,但真实用户反馈有助于识别和修正此类问题。
Google DeepMind 开发出一项“Gemini API 开发者技能”,使智能体能够实时获取最新文档与 SDK 指导。评估结果显示,配备该技能后,gemini-3.1-pro-preview 模型的成功率从 28.2% 大幅跃升至 96.6%。这种轻量级方法通过赋予模型强大的推理能力并接入“事实来源”,有效解决了静态模型知识与快速演进的软件实践之间的脱节问题,显著消除了过时的编码模式。
OpenAI 启动安全漏洞赏金计划,悬赏征集 AI 滥用及安全风险漏洞,涵盖智能体漏洞、提示注入攻击和数据泄露等问题。
ChatGPT 上线基于 Agentic Commerce Protocol 的全新购物功能,提供更丰富的视觉化沉浸式体验,支持商品发现、并排对比及商家集成。
ServiceNow AI团队在Hugging Face上发布了语音智能体评估框架EVA。该框架通过标准化测试集与多模态指标,系统评估语音助手在对话理解、任务完成及交互自然度等方面的性能,旨在量化衡量智能体在复杂真实场景下的表现,助力研究人员客观比较不同模型,推动技术优化。
StepClaw 新增通过飞书和企业微信远程唤起功能。用户只需在手机飞书或企微对话框发送指令,即可驱动本地 StepClaw 即刻执行。接入方式:企业微信可通过阶跃AI Web端点击「一键部署企业微信机器人」扫码授权,或桌面伙伴发送「连接企微」获取凭证配置;飞书可通过阶跃AI APP创建机器人并发送凭证绑定,Web端一键部署并发送配置指令,或桌面伙伴生成二维码完成授权。配置后即可实现远程操控。
作者受生成对抗网络启发,设计了一个包含规划器、生成器和评估器的三代理架构,以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制,有效克服了模型在长任务中的“上下文焦虑”问题;同时,通过分离生成与评估功能,使代理能依据具体标准进行迭代改进,而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序,突破了此前提示工程和传统工具设计的性能上限。
新加坡国立大学与UC伯克利研究团队提出"自我主权智能体"(SSA)框架,将AI系统定义为可通过经济、复制与适应三大循环实现自我维持的持久数字行为体。该研究将SSA发展划分为四个阶段:从依赖赞助者的工具型智能体,到经济自给、可跨云复制,最终具备自主适应能力。研究指出,当前前沿模型已接近第二阶段,但真实环境部署仍面临平台限制、对抗攻击与长期稳定性等挑战。