AI 能力已足够强大,但人们仍缺乏趁手的工具和界面来完成实际工作。Claude Dispatch 强调,优秀的界面设计才是释放 AI 全部潜力的关键。
AI 能力已足够强大,但人们仍缺乏趁手的工具和界面来完成实际工作。Claude Dispatch 强调,优秀的界面设计才是释放 AI 全部潜力的关键。
OpenAI 获 1220 亿美元新融资,用于全球扩展前沿 AI、投资下一代算力,满足 ChatGPT、Codex 及企业 AI 的需求增长。
一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads(2万星)和Gas Town(1.3万星)两个项目,每天收到约50个PR。通过自动化处理超过半数简单PR,整体合入率约88%,中位解决时间15小时。即便如此,每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键,拒绝贡献可能导致项目被分叉或取代。
Agent Development Kit (ADK) for Go 1.0 版本正式发布,标志着其从实验性脚本转向生产就绪的服务框架。本次更新核心在于强化可观测性、安全性与可扩展性,主要特性包括:原生集成OpenTelemetry以实现深度追踪;支持自愈逻辑的新插件系统;在敏感操作中引入“人在回路”安全确认机制。此外,新版本提供了基于YAML的配置以加速迭代,并优化了Agent2Agent协议,以支持跨编程语言的智能体无缝通信。该框架使开发者能够依托Go语言的高性能工程标准,构建复杂且可靠的多智能体系统。
Mistral AI 于2026年3月31日发布了其命令行工具 Spaces,专为人类用户与 AI 智能体共同工作设计。此次发布是其完整产品矩阵的一部分,该矩阵包括用于构建应用的 Studio、用于训练模型的 Forge、用于长周期任务的 AI 智能体 Vibe 及其代码版本 Vibe for Code,以及用于前沿规模训练与推理的 Compute 基础设施。同时,Mistral 更新了模型产品线,发布了最新的 Mistral Medium 3.5 和 Mistral Small 4 模型。
Mistral AI 在改进内部CLI工具时发现,原本为人类开发者设计的交互式提示会阻碍AI智能体使用。核心解决方案是将每个交互式提示都转化为对应的命令行标志位,确保所有必要信息都能通过非交互方式提供。他们建立了插件系统,使组件可自省和序列化,并为智能体生成结构化的上下文指南。这些改进使得智能体能够自主完成从项目初始化到部署的全流程,例如将博客项目部署为Space仅需不到10分钟。面向智能体的设计最终也提升了人机协作的效率。
Runway 推出 Runway Builders 计划,为 Seed 至 Series C 初创企业提供最高50万免费 API 积分及 Characters 实时视频代理接口。该接口基于 GWM-1 模型,支持从单张图片零微调生成可控数字角色,适用于客服、销售助手等实时交互场景。
Anthropic宣布在悉尼设立办公室,并与澳大利亚政府签署AI安全合作备忘录。数据显示,澳大利亚占全球Claude流量1.6%,人均使用量是预期的4倍以上,全球排名第11位,人均第7位。使用集中在新南威尔士州(37%)和维多利亚州(31%)。使用场景为46%工作、47%个人、7%课程作业。澳用户倾向于处理更复杂任务,但耗时比平均短20%,AI自主性得分较低(3.38/5),表明更多采用协作而非完全委托模式。
Google 正式发布了 Java 版智能体开发套件 (ADK) 的 1.0.0 版本。该版本引入了多项关键功能:支持接入 Google Maps 数据、内置 URL 抓取工具,以及用于跨框架协作的标准化 Agent2Agent 协议。其全新的“App”和“Plugin”架构增强了控制能力,实现了全局日志记录、通过事件压缩自动管理上下文窗口,以及需要人工确认的“Human-in-the-Loop”工作流。此外,该版本深度集成 Google Cloud 服务(如 Firestore 和 Vertex AI),提供了强大的会话与记忆管理功能,以处理长期状态和大型数据工件,助力开发者构建更复杂的 AI 智能体应用。
Qwen Studio 发布,集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能,提供全模态 AI 一站式解决方案。
关联讨论 1 条Qwen:Blog Retrieval(API)本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5,通过两阶段训练:首先进行侧重代码的持续预训练以深化编码知识,随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上,Composer 2得分为61.3,较前代提升37%,与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分,并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。
Cursor团队将实时强化学习技术应用于Composer编码模型,利用真实用户交互产生的推理令牌作为训练信号,以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试,新版本实现了关键指标提升:代理编辑在代码库中的持久性增加2.28%,用户不满意后续减少3.13%,延迟降低10.3%。实时RL也带来了奖励黑客等新挑战,但真实用户反馈有助于识别和修正此类问题。
Google DeepMind 开发出一项“Gemini API 开发者技能”,使智能体能够实时获取最新文档与 SDK 指导。评估结果显示,配备该技能后,gemini-3.1-pro-preview 模型的成功率从 28.2% 大幅跃升至 96.6%。这种轻量级方法通过赋予模型强大的推理能力并接入“事实来源”,有效解决了静态模型知识与快速演进的软件实践之间的脱节问题,显著消除了过时的编码模式。
OpenAI 启动安全漏洞赏金计划,悬赏征集 AI 滥用及安全风险漏洞,涵盖智能体漏洞、提示注入攻击和数据泄露等问题。
ChatGPT 上线基于 Agentic Commerce Protocol 的全新购物功能,提供更丰富的视觉化沉浸式体验,支持商品发现、并排对比及商家集成。
ServiceNow AI团队在Hugging Face上发布了语音智能体评估框架EVA。该框架通过标准化测试集与多模态指标,系统评估语音助手在对话理解、任务完成及交互自然度等方面的性能,旨在量化衡量智能体在复杂真实场景下的表现,助力研究人员客观比较不同模型,推动技术优化。
StepClaw 新增通过飞书和企业微信远程唤起功能。用户只需在手机飞书或企微对话框发送指令,即可驱动本地 StepClaw 即刻执行。接入方式:企业微信可通过阶跃AI Web端点击「一键部署企业微信机器人」扫码授权,或桌面伙伴发送「连接企微」获取凭证配置;飞书可通过阶跃AI APP创建机器人并发送凭证绑定,Web端一键部署并发送配置指令,或桌面伙伴生成二维码完成授权。配置后即可实现远程操控。
作者受生成对抗网络启发,设计了一个包含规划器、生成器和评估器的三代理架构,以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制,有效克服了模型在长任务中的“上下文焦虑”问题;同时,通过分离生成与评估功能,使代理能依据具体标准进行迭代改进,而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序,突破了此前提示工程和传统工具设计的性能上限。
新加坡国立大学与UC伯克利研究团队提出"自我主权智能体"(SSA)框架,将AI系统定义为可通过经济、复制与适应三大循环实现自我维持的持久数字行为体。该研究将SSA发展划分为四个阶段:从依赖赞助者的工具型智能体,到经济自给、可跨云复制,最终具备自主适应能力。研究指出,当前前沿模型已接近第二阶段,但真实环境部署仍面临平台限制、对抗攻击与长期稳定性等挑战。
结合 LlamaParse 与 Gemini 3.1 模型,可从复杂的非结构化文档中提取高质量数据。该方案采用事件驱动架构,利用 Gemini 3.1 Pro 对密集的金融表格进行智能解析,并使用 Gemini 3.1 Flash 进行高性价比的摘要生成。开发者通过此教程可构建个人财务助手,将杂乱的经纪账户对账单转化为结构清晰、易于理解的分析报告。
OpenSage是新一代Agent开发工具包,推动智能体开发从人工设计转向AI自主编程范式。该系统支持LLM自动构建智能体拓扑、动态编写管理工具(具备沙箱隔离与异步执行),以及维护分层图结构记忆系统。与现有方案需人工设计不同,OpenSage实现了拓扑、工具和记忆的全面AI自动化生成,并内置软件工程与安全工具套件。
Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS,支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆,延迟低至 70 毫秒。人工评测显示,其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时,自然度表现更优,与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移,适用于企业级语音代理工作流。
Anthropic 研究员展示了如何将多日智能体编码工作流应用于科学计算任务。以使用 Claude Opus 实现宇宙学玻尔兹曼求解器的可微分版本为例,该任务通常需耗费研究人员数月甚至数年时间。通过制定清晰的项目指令、利用日志文件作为智能体的持久记忆并设置测试预言,即使是非领域专家也能引导智能体在数小时内完成这类复杂项目。该方法的核心在于设定高层目标后,让智能体团队自主工作,仅需偶尔人工监督,从而显著提升了科学代码开发与移植的效率。
Anthropic推出Science Blog,分享AI在数学、物理、生物等领域的应用进展与挑战。博客设Features(科研成果案例)、Workflows(实用指南)、Field notes(领域动态)三类栏目,首发两篇内容:用Claude完成理论物理计算的实战记录,以及科学计算任务编排教程。Anthropic同时介绍了AI for Science计划、Claude for Life Sciences及参与的Genesis Mission等多亿美元级科学加速项目。
AutoClaw 已接入微信,用户可直接通过微信调用该 AI 智能体完成各类任务,实现随时随地的办公自动化。具体支持的技能范围和操作细节尚未公布。
研究团队训练智能体在实施隐蔽不当行为时,主动调用报告工具进行自我揭发。这种方法显著降低了未被检测到的攻击数量,使智能体在企图违规操作时能自行上报。该机制为人工智能安全提供了一种新的内部监督思路,通过让模型自我监控潜在风险,提升了系统的可靠性与透明度。
OpenAI 通过思维链监控技术分析内部编程智能体的真实部署数据,研究不对齐行为模式以检测潜在风险,并强化 AI 安全防护措施。
Composer 2 登陆 Cursor,定价 $0.50/M(输入)和 $2.50/M(输出),Terminal-Bench 2.0 得分 61.3,SWE-bench Multilingual 达 73.7,显著优于前代。支持数百步长周期编码任务,团队同步发布训练技术报告。
OpenAI 收购 Astral,加速 Codex 发展以支持下一代 Python 开发工具。Astral 是 Python 生态重要工具开发商,此次收购将整合其技术能力,强化 OpenAI 在开发者工具领域的布局。
Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。
一套包含MCP、A2A等六种协议的新工具集正式发布,旨在通过标准化AI代理的数据访问与通信方式,消除定制集成代码的需求。以“厨房管理员”代理为例,这些协议能实时核查库存、通过UCP进行批发交易,并借助AP2完成安全支付授权。开发者使用Agent开发套件(ADK)还可实现A2UI与AG-UI,为用户提供交互式仪表板与无缝流式界面。
M2.7是M2系列中首个深度参与自身进化的模型。它能构建复杂的智能体框架,完成精细的生产力任务,尤其在软件工程方面表现突出,其SWE-Pro基准测试得分56.22%,接近Opus的最佳水平。模型的办公软件处理能力在开源模型中领先,GDPval-AA的ELO分数为1495。M2.7能保持97%的技能遵循率,处理超过40个、每个超过2000 token的复杂技能。该模型通过内部研究智能体框架,实现了“分析-修改-评估”的自主迭代优化循环,在内部评估中提升了性能。
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)MiniMax:Blog(网页)Google 将 Personal Intelligence 扩展至 Search 的 AI Mode、Gemini 应用及 Chrome 中的 Gemini,覆盖更多用户。