本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环:威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出,漏洞发现现在易于并行化,瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例,截至2026年5月22日已披露1,596个漏洞,其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型,以降低误报,提升发现的可利用性。
同一事件,精选展示《合作伙伴如何运用Opus强化网络安全》本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环:威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出,漏洞发现现在易于并行化,瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例,截至2026年5月22日已披露1,596个漏洞,其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型,以降低误报,提升发现的可利用性。
同一事件,精选展示《合作伙伴如何运用Opus强化网络安全》软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”,其智能驯化包含七个核心组成部分:上下文与记忆、工具与行动、编排与循环、状态与持久性、沙箱与计算、可观测性与治理、成本与工作流优化。这些组件共同构成了一个生产级的智能体系统。这一转变将重塑软件竞争格局,模型通用化的未来中,最佳的智能体驾驭者将获胜。
Anthropic 发布了针对企业部署自主 AI 智能体的安全框架,指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险:基础设施易受 AI 加速攻击,且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构(基础、高级、优化级)及八阶段实施流程,并概述了提示注入、工具投毒、记忆投毒等特有威胁。
Google Pay 正向"智能体商务"演进,推出了通用商务协议和新的 MCP 服务器,允许 AI 智能体管理集成与分析趋势。Android 平台更新引入了动态回调以支持快速结账,并通过 WebView 将支付功能扩展至社交媒体应用。此外,平台还推出了跨设备生物认证和新的交易信号,旨在帮助商家减少流程摩擦。
由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示,所有前沿大模型得分均未超过50%。Claude Opus 4.7(自适应推理,最大努力)以47%领先,GPT-5.5(xhigh)和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍,但更长的轨迹并不转化为更高准确率,过度调查的模型会因提交误报而受罚。在成本方面,开源模型Gemma 4 31B(Reasoning)以每任务$0.14的成本获得37%得分,优于成本更高但得分更低的闭源模型。
关联讨论 1 条X:通义千问 / Qwen (@Alibaba_Qwen)AI代码审查平台CodeRabbit发现,AI生成的代码常能通过编译与测试,却不符合开发者真实意图,根源在于开发者隐含假设AI理解上下文。为此,团队基于Claude构建了一个智能体编排系统,置于编码请求与智能体之间。该系统在代码生成前协调多个Claude模型进行结构化规划,输出可审查的产品需求文档,使需求显式化。系统每周助力审查超过200万个PR。
Reachy Mini 机器人现可通过 speech-to-speech 库实现完全本地化的语音交互,无需依赖云端。该方案采用级联流水线架构,对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问(Qwen3-TTS)作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理,保障了隐私且无 API 费用。
OpenAI、Thrive 与 Crete 合作,使用 Codex 构建了一个自改进的税务智能体。该智能体能够自动处理报税流程,提升工作准确性并加速整体工作流。
关联讨论 1 条X:OpenAI Developers (@OpenAIDevs)火山引擎推出AI Trust安全产品体系,以“模型可信-智能体可控-智能化安全运营”三层架构助力企业可信、可控、合规的AI落地。模型可信层通过AICC机密计算提供端到端全链路加密与芯片级信任,支持豆包、DeepSeek、GLM、Kimi等模型及国产芯片。智能体可控层推出AI助手安全平台,内置防御提示词攻击、防数据泄露、权限管控与全局态势监控,每日支持100亿次检测调用,在IDC智能体威胁检测评估中获总分第一。智能化安全运营层推出安全运营Agent,覆盖代码审计、漏洞分析等7个场景,冷启动准确率超95%,经自主学习后达99%以上,广汽集团落地后告警处理效率提升10倍。
开源智能体编程平台 Kilo Code 现已集成 xAI 的 Grok 模型。用户可使用其 SuperGrok 或 X Premium+ 订阅,在 VS Code、JetBrains IDE 及终端等环境中调用最新的 Grok 模型,包括专为智能体编程设计的 Grok Build。连接过程无需单独的 API 密钥,通过 OAuth 认证即可使用。Kilo Code 本身支持 500+ 种模型,并集成了工具使用、浏览器自动化及 MCP 扩展等能力,适用于软件工程与智能体工作流。
Claude Code 发布 v2.1.152 版本更新。核心改进包括:/code-review --fix 现在会将审查建议直接应用于工作目录;技能与斜杠命令支持通过 frontmatter 的 disallowed-tools 移除模型工具;新增 /reload-skills 命令可不重启会话重新扫描技能目录;SessionStart 钩子现可返回 reloadSkills: true 重新扫描技能,并可通过 hookSpecificOutput.sessionTitle 设置会话标题;新增 MessageDisplay 钩子事件以变换或隐藏助手消息。其他更新涉及插件市场管理、主模型不可用时自动切换至 --fallback-model、会话用量统计优化等。同时修复了终端样式退化、沙箱警告显示、思考摘要、MCP 服务器去重、远程会话连接及多种会话卡顿问题。
在Code w/ Claude 伦敦活动上,Anthropic 宣布了 Claude Managed Agents 的两项新能力:自托管沙箱(公开测试版)和 MCP 隧道(研究预览)。这两项功能使 AI 智能体的工具执行环境与企业私有网络内的 MCP 服务器连接均可运行在客户自有基础设施或指定托管服务商处。活动还介绍了如何通过 Claude Code、优化思维预算以及模型努力级别来提升开发体验。目前,包括 Spotify、Base44 和 Legora 在内的客户已在使用这些新功能。
关联讨论 2 条Claude:Blog(网页)X:Claude (@claudeai)在数据时代,数据重力是核心力量;而在智能体时代,智能体重力将扮演同样角色。智能体运行需要巨大算力,主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多,其智能体重力就越强。例如,Databricks在微软平台推出的某个功能,虽未明言此目的,却让用户更容易在Databricks中构建智能体,而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此,赢得并维持智能体重力,将成为智能体时代的核心竞争主题。
Anthropic通过三重机制控制Claude智能体的部署风险,包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面:通过沙箱、虚拟机和网络出口控制限制智能体运行环境;利用系统提示词和模型训练引导其行为;以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例,阐述了不同产品如何设计对应的隔离架构。
MiniMax对其Agent Team进行了整体升级并更名为Mavis。本次更新的核心是推出Agent Teams功能,允许用户在MiniMax Agent桌面端并行运行多个不同角色的智能体,组成团队以协作处理单一智能体难以完成的复杂长时任务。同时,原有的TokenPlan与Agent Plan合并为统一订阅,整合了CLI、API及Agent对M2.7模型、音乐、视频和语音功能的访问,其信用额度可在智能体与API之间共享。此次升级旨在解决单智能体在执行长期任务时容易出现的停滞、判断模糊及质量衰退问题,通过主智能体快速响应、任务拆分并行执行与关键节点汇报的机制,提供更流畅的用户体验。
百度伐谋2.0产业决策智能体落地排产场景,业务人员用自然语言描述优先级和现场变化(如设备故障、工人请假),系统自动将约束转化为优化模型并迭代求解,将顾问数小时的建模压缩到对话内完成。每次纠偏实时调整方案,隐性经验被结构化沉淀为企业可复用模型。在日均数百订单、十几条产线的大型家具制造企业中,产能提升20%。
通义实验室发布 AgentScope 2.0,从关注“如何构建智能体”转向“如何让智能体可靠运行”。2.0 继续支持 Qwen、Anthropic、DeepSeek、Gemini、OpenAI 等模型,并扩展 Grok、Moonshot 支持。核心升级包括:模型层引入统一重试与备用模型机制;消息模块重构为 Content Block 并引入事件系统;引入权限系统控制工具调用、文件读写和命令执行;上下文管理实现结构化压缩与工具结果自动截断;新增 Middleware 机制;Workspace 抽象执行环境,统一本地文件系统、Docker 容器、E2B 云沙箱等;Agent Service 合并至主库。Python 版已升级至 2.0,TypeScript 版已正式发布。
天工AI今日推出SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite,支持百万token上下文,深度适配复杂工具调用、多轮任务执行、代码生成与文件编辑等智能体场景。模型在主流Agent benchmark上全面超越Minimax 2.7、DeepSeek V4 Flash及Qwen 3.6,在OpenClaw任务上接近更大规模模型,定价低于Minimax 2.7与Qwen 3.6一半。训练采用大规模mid-train、合成轨迹SFT与端到端Agentic RL优化,适配OpenClaw、Hermes、Claude Code等主流Agent框架。模型已于5月22日接入天工Skywork,开放2至4周免费试用,并提供兼容OpenAI格式的免费API调用。
本文旨在厘清 AI 智能体领域中易混淆的关键术语。文章指出,模型(如 Claude、GPT)本身是无记忆、无循环的大语言模型。其行为由“Scaffolding”(行为定义层,如系统提示、工具描述)塑造,而“Harness”(执行层)负责调用模型、处理工具调用与控制循环,是智能体运行的核心。两者结合,模型才能成为智能体。文章以 Claude Code、Codex 为例,说明同一模型搭配不同 Harness 会产生迥异体验,并提出了 Agent = Model + Harness 的常见理解框架。术语尚未统一,本文旨在提供一个实用的心智模型。
Opera Neon 推出命令行工具 opera-browser-cli,标志着浏览器正式进入 AI Agent 时代。
上月启动的Project Glasswing项目旨在利用AI能力保护关键软件安全。在约50家合作伙伴参与下,通过使用Claude Mythos Preview模型,已在全球最重要的系统软件中发现超过一万个高危或严重漏洞。Cloudflare等合作伙伴报告其漏洞发现效率提升超十倍,其中仅Cloudflare就在关键系统中发现了2000个漏洞。该模型在多个独立安全测试中表现突出,被评测为网络攻击模拟领域的首个全通关模型。当前的挑战已从快速发现漏洞,转向了如何快速验证、披露和修补海量漏洞。
关联讨论 5 条Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Anthropic (@AnthropicAI)The Decoder:AI News(RSS)Gartner 最新发布的魔力象限报告中,GitHub 连续第三年被列为“领导者”象限,该评估专注于企业级 AI 编程代理领域。GitHub 表示,其致力于构建一个开放、安全且由 AI 驱动的平台,以赋能每一位开发者并定义软件开发的未来。此次评选进一步巩固了 GitHub 在 AI 辅助开发工具市场的领先地位。
滴滴与智谱AI联合成立“滴滴-智谱AI探索实验室”(DiDi–Z.AI Universe Lab),该实验室旨在利用真实业务场景驱动AI智能体(Agent)的前沿技术探索与应用,推动Agent技术在实际场景中的落地。
本次更新引入了Workflow工具,支持确定性多智能体编排(默认关闭)。将/simplify命令重命名为/code-review,现可报告代码正确性问题并支持生成GitHub PR内联评论。改进了自动更新器(增加重试与错误报告)、大文件diff渲染性能,并优化了提示历史记录以避免重复条目。修复了多个关键问题,包括企业登录限制未生效、Windows下的PowerShell工具与终端闪烁问题、插件系统及shell快照的bug,并增强了沙箱安全性与终端兼容性。
云端智能体已从本地智能体的简单扩展,发展为具备独立环境、可并行无人值守处理长任务的系统。构建的核心经验在于:完整的开发环境是输出质量的关键,这需重建大量基础设施;可靠性方面,团队从自研架构迁移至Temporal平台,将可靠性提升至99.9%以上,该平台每日处理超5000万次操作,支撑超40%的代码拉取请求;同时,实现了智能体循环、机器状态与对话状态的解耦,以适应复杂的跨环境协作。
Google发布了面向开发者的新工具包:Kotlin版ADK与Android版ADK 0.1.0。这两个工具包旨在帮助开发者构建AI Agent。其中,Kotlin版ADK将代理工作流引入后端项目开发;Android版ADK则专注于移动端应用,提供了构建AI代理所需的特定功能。此次发布为开发者提供了在Android生态及更广泛平台创建AI应用的官方工具基础。
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》Mistral AI发布了新模型Mistral Medium 3.5。该模型为Vibe产品中的远程编程智能体(remote coding agents)提供支持,这些智能体可在终端、IDE和后台运行。同时,Le Chat新增Work模式,专为处理复杂任务而设计。发布日期为2026年5月22日。
火山引擎的Agent Plan和Coding Plan产品新增支持DeepSeek V4模型,用户可在相关计划中调用该模型进行开发与部署。
阶跃星辰与金蝶达成战略合作,双方将利用大模型技术推动企业服务范式变革,核心方向是从传统SaaS模式向AI智能体(Agent)模式升级。
通义实验室推出 Qwen3.7-Max,定位为重新定义 AI 智能体基座的模型,侧重提升智能体的基础能力与架构。
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》通义千问发布 Qwen3.7-Max,专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力,通过 MCP 和多智能体编排实现办公自动化,能自主执行超 1000 步工具调用(如 35 小时全自主内核优化)。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型:Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。
关联讨论 8 条X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)公众号:通义实验室(千问)X:OpenRouter (@OpenRouter)IT之家(RSS)本次更新为Claude Code工具带来了多项功能增强与问题修复。新功能包括:新增JSON格式的会话列表命令以便脚本化操作,并在OTEL追踪中完善了Agent父子关系。插件浏览界面现可预览详细信息。在稳定性方面,修复了权限提示被绕过的安全问题、MCP参数校验错误、终端窗口调整后的显示冻结,以及非ASCII名称导致的API调用失败等问题。同时改进了Read工具的文件超限处理,并优化了任务列表排序和状态栏信息显示等交互细节,整体提升了工具的易用性与可靠性。
Claude Code团队正从Markdown转向HTML作为主要输出格式。Markdown虽简洁,但在信息密度、阅读性、分享和交互方面存在局限。HTML能支持表格、CSS样式、SVG图表和JavaScript交互,提供更清晰的视觉结构和高信息密度。由于HTML文件可通过浏览器直接打开和分享,便于团队协作审阅。Claude Code利用其广泛的上下文获取能力生成实用的HTML制品,适用于项目规划、文档编写和验证等多种场景,显著提升了AI生成内容的可读性与实用性。
在2026年开发者大会上,Google宣布其AI战略核心从辅助工具转向开发独立智能体。大会重点发布了Gemini 3.5系列模型,并对“反重力”智能体优先平台进行了重大更新。面向移动开发者,推出了Android CLI工具、评估排行榜及能将多种框架代码快速迁移至原生Kotlin的智能体。Web开发领域也迎来变革,包括专为智能体设计的Chrome DevTools、HTML-in-Canvas API,以及旨在让浏览器内AI智能体执行复杂任务的开放标准WebMCP提案。
Google Cloud与NVIDIA开发者社区迎来成立一周年,会员规模突破10万。社区为开发者提供先进AI基础设施与资源支持,包括LLM优化、GPU加速数据分析等专项学习路径及专家网络研讨会。第二年计划将进一步扩展,推出实践实验室、工程活动及聚焦代理式AI增长的专项内容。
5月22日,xAI宣布,其用户现可在开源个人助理OpenClaw中直接使用Grok模型。所有持有SuperGrok或X Premium订阅的用户均可使用该功能。OpenClaw是一个开源的、本地优先的智能助手,可在多种硬件上运行并保持跨会话记忆,同时能接入WhatsApp、Telegram等多款主流通讯平台。用户通过简单安装和登录,即可在自有设备上运行OpenClaw,并通过其界面或关联的聊天工具与Grok交互。此举进一步扩展了Grok的应用场景,未来还将推出更多开源代理与集成支持。
Google正在整合其AI终端工具,将面向社区的Gemini CLI迁移至全新平台Antigravity CLI。这款新工具采用Go语言开发,作为代理优先的平台,支持复杂的多代理工作流,并提供更快的执行速度、异步处理能力以及与Antigravity 2.0桌面应用同步的统一架构。企业客户可维持现有访问权限,但个人及免费用户必须在2026年6月18日Gemini CLI停止服务前,完成向新平台的迁移。
Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。
Google 在 I/O 2026 大会上宣布 Gemini 进入自主代理时代,新功能使其能够自动执行复杂任务,显著提升用户工作效率。大会展示了 Gemini 如何通过代理操作简化工作流程,实现自动化处理,例如自动管理邮件、安排日程或生成报告,帮助用户从重复性工作中解放出来,专注于创造性任务。这一更新基于先进机器学习模型,强调准确性与效率,标志着 AI 助手向更智能、更自主的方向发展。