If OpenClaw feels more like babysitting, you're not alone. Skip the daily crashes, leaked secrets, and constant monitori...
If OpenClaw feels more like babysitting, you're not alone. Skip the daily crashes, leaked secrets, and constant monitori...
Airwallex 正在解决 AI 智能体金融中资金转移、跨境支付、记账与合规等“无聊部分”。他们推出 Airi(当前提供更快的智能体结账,正在开发真实钱包)和 T:0(AI 原生财务后台平台,仍处于测试版)。Airwallex 已拥有支付轨道,现在此基础上构建智能层。此前,Airwallex 宣布完成 3.2 亿美元融资,估值 110 亿美元,由 Addition 领投。公司指出团队更小、全球化、更多使用智能体是趋势,并用 10 年建设了适配这一世界的金融基础设施。
We've raised $320M at an $11B valuation, led by Addition. AI is changing how companies are built. Teams are smaller, glo...
浦发银行全行已上线超2500个金融智能体,近200个深度嵌入真实业务流程,覆盖营销、风控、运营等核心场景。智能体采用低代码与高代码结合、商用与开源模型互补的研发模式,并首创“三态管理”(创设、发布、运行)适配金融强监管。财报智能识别分析智能体将企业财报录入、校验与分析流程从数小时压缩至分钟级。百度智能云提供四层金融AI基础设施,包括昆仑芯国产芯片、异构算力平台、金融专精大模型及全流程AI治理平台。浦发银行计划推出面向C端的数字客户经理与数字分身,以对话交互实现“对话即服务”。
推文指出80%的Agent生产崩溃与模型智商无关,根源在上下文溢出、工具调错、子代理失控。2026年分水岭是Harness(办公室制度、安保系统、质检流程,含独立验证节点、分层记忆、延迟绑定工具)和Loop(自我发现、任务分派、验证结果、状态记录)。好模型配差循环产生昂贵垃圾,普通模型配好循环加验证反而稳定出货。模型是可替换引擎,Harness是底盘安全系统,Loop是自动驾驶。引用@wizardly_ai的工程笔记拆解了该论点。
http://x.com/i/article/2069720576693022720
高盛研究预测,到2030年AI智能体token使用量将增长24倍。单个智能体任务可能消耗正常回答10倍、50倍甚至更多token。乐观情景下月token使用量可达120 quadrillion,推理成本每年下降60%-70%。Uber和Microsoft已开始重新考虑昂贵的智能体使用。Microsoft本月撤销开发者对Claude Code的访问权限,计划6月30日前迁移至自研Copilot CLI工具,此举被解读为降低成本。
当同时启用Tool Calling与JSON Schema约束时,多个开放权重LLM出现工具调用抑制(Tool Suppression)。控制实验在多模型与部署设置下复现了该现象。分析表明,JSON Schema约束被编译成基于语法的token掩码,导致工具调用token在解码中不可达。研究提出约束优先级反转(CPI)假设,并设计透明两遍执行(Transparent Two-Pass Execution)推理策略,将工具执行与模式约束响应生成解耦,无需重训练即可恢复工具调用并维持结构化输出。结果表明,单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。
高通推出数据中心处理器 Dragonfly C1000,针对 AI 智能体优化,主打低功耗高能效。Meta 计划 2028 年起部署该芯片。同时,高通以约 40 亿美元收购 AI 初创公司 Modular,其软件支持跨芯片架构运行 AI 应用。去年高通已发布两款数据中心 AI 加速芯片。受消息提振,高通盘后股价上涨 15%,公司预计到 2029 年非智能手机业务营收将翻倍至 400 亿美元,其中数据中心目标 150 亿美元。
火山引擎发布53页白皮书,将AI Agent安全归纳为OpenClaw原生风险、云SaaS通用风险、企业治理三大类,列出六大原生风险(如Gateway绑定0.0.0.0无认证等),并涵盖责任共担模型、七项架构设计原则、四层安全保障及企业最佳实践。
🎣 Made this @GoogleChrome extension with @antigravity that lets you record actions in the browser, then has Gemini 3.1 ...
OpenAI 在2025年8月至2026年6月间观察到,智能体产品 Codex 取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求,70.2%超1小时,25.6%超8小时;99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛:个体用户增长137倍,组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点,平均每位律师或招聘人员超85%输出 token 来自 Codex。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Jason Liu (@jxnlco)Google将“Computer Use”功能直接集成到Gemini 3.5 Flash,模型可自主看、理解并操作电脑、浏览器和移动设备,此前该功能仅作为独立Gemini 2.5模型提供。结合函数调用、Search和Maps等工具,开发者可构建跨平台智能体,用于软件测试或办公自动化。在OSWorld基准测试中,Gemini 3.5 Flash得分78.4,高于Gemini 3 Flash(65.1)和GPT-5.4 mini(72.1),略低于GPT-5.5(78.7),Anthropic的Opus 4.8以83.4领先。安全方面采用对抗训练和两项可选企业防护:敏感操作需用户确认、自动阻止间接提示注入。该功能通过Gemini API和Gemini Enterprise Agent Platform提供,附带Browserbase演示和GitHub参考实现。
阿里云发布面向AI智能体的约束基础设施(Constraint Infra),提供治理层解决Agent混乱问题。核心能力包括:通过Nacos热更新提示词与规则实现动态控制;支持token限制及多智能体安全的细粒度治理;已在生产环境验证,StarOps SRE智能体在该边界内安全运行高风险任务;通过AgentLoop数据飞轮驱动规则自我进化。
卡兹克盘点瑞幸、麦当劳、飞猪、滴滴、高德、腾讯地图、美团跑腿、飞书、钉钉、企业微信、腾讯文档、支付宝、微信支付、微信读书、网易云音乐、美图等16款App,均已推出Skill、MCP或CLI服务。覆盖餐饮点单、出行规划、办公协作、支付收款、娱乐编辑等场景。支付环节普遍需跳转App完成。此外,千问、豆包等AI产品也集成第三方服务,Agent化趋势明显。
火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。
同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》谷歌于六月推出Open Knowledge Format(OKF)规范,参考AK的LLM wiki思路。核心是用Markdown加YAML frontmatter将知识组织为可读、可版本控制、可直接被AI智能体(Agent)消费的文件包。示例中,Codex读取该文章后,将自身做过的项目整理为OKF格式并添加到系统记忆索引中。文章见评论区。
Autodata是一种通用方法,使AI智能体扮演数据科学家角色,自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化,使其学会生成更优数据,具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明,Autodata生成的合成数据集质量优于经典方法,且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据,有望改变AI数据的构建方式。
近日,瑞幸、麦当劳、飞猪、滴滴、高德、腾讯地图、美团跑腿、飞书、钉钉、企业微信、腾讯文档、支付宝、微信支付、微信读书、网易云音乐、美图等16款国民级App陆续将核心能力封装为Skill、MCP或CLI,供AI智能体调用,实现点咖啡、叫车、查航班、管理文档、支付等操作。支付环节目前仍需用户跳转App完成,但Agent化趋势已不可逆。
推文提出,Agent 是一种数字化、随时调用、最终趋近免费的劳动力,但不应把人与 Agent 的价差当作商业模式本身。上下文、注意力、信任和品牌的价值不会因模型变便宜而贬值。AI 时代,人的具体技能不再重要,积极好奇、灵活性和自驱力才是核心素质。
昨日(6月24日)股东大会上,英伟达CEO黄仁勋称AI产业进入新阶段,智能体AI已到来,物理AI将驱动下轮增长。他将数据中心比作“AI工厂”,强调AI基础设施成企业计算核心。财务方面,过去1年营收增长65%,利润增长60%,2026财年自由现金流超960亿美元,计划将50%通过回购和分红返还投资者。黄仁勋举例称,运行英伟达系统生成token具盈利性,GitHub今年pull request数量增长近3倍。
开源 Skills 系列(165K stars)新增 in-progress 技能「loop-me」。该技能通过“拷问”采访用户,发现其工作、生活中的重复模式(Loop),并将这些模式打磨成 workflows/*.md 规格文件。核心原则包括:一次一问、附带推荐答案、走完整棵决策树、优先查代码库、状态持久化至文件从而支持跨会话和版本化。loop-me 与已有 grill-me 的区别在于:grill-me 对齐任意计划,loop-me 只产出 workflow 规格。设计哲学强调从重复模式出发,而非直接构建 Agent;规格是唯一交付物,实现留作后续步骤;人类时间最珍贵,将其角色压缩为“晚到的单次决策”。完成标准是 Agent 读取 spec 后无需再提问。
New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...
文章将AI循环分为内层agent loop(模型说“完成”即止)和外层harness loop(外部判定是否真完成,可续接session)。循环放大LLM代码的过度防御、回避不变量等缺陷,每轮叠加局部防御使系统更难理解。有效领域(移植、性能探索)共性是不产生新代码或产出无需长寿。核心隐喻从“机器”转向“有机体”,人不再完全理解代码。深层隐忧是认知依赖:代码由循环产出、review,一旦失去同类系统访问权将无法维持。问题不再是“是否会loop”,而是如何在循环未来中保留判断力与工程规则。
多智能体大语言模型系统中,验证器与批评者智能体存在延迟,导致虚假声明在延迟期间通过网络传播。该过程被建模为带接地校正器节点图上的延迟共识,通过接地拉普拉斯矩阵谱分解得到校正剂量的闭合形式稳定性阈值:过强或过延迟的校正会使共识转变为振荡。通信与验证延迟重合时系统最不稳定;延迟为2时阈值是黄金分割率倒数。同一框架给出超模放置目标及贪婪(1-1/e)近似规则,用于将有限校正器预算分配给影响力节点。五个开放模型上的实验确认了剂量‑延迟振荡,而接地事实性回答使真相成为吸收边界从而消除该效应。
基于LLM的代码智能体依赖关键词搜索导航仓库,但缺失调用图、继承关系等结构信息,导致导航随机且难以复现。研究以OpenAI Codex为基线,向提示词注入不同粒度的轻量级静态结构注释,发现确定性锚定效应:函数级定位Func@5提升2.2个百分点,交互轮次减少1.6轮;链接跟随率从0.15–0.18升至0.21–0.24,单次运行Pass@1提升3.4个百分点,但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑,大型仓库剪枝前向边,密度高的语义注释仅用于隐式依赖场景。
本研究分析了SWE-bench排行榜上7,745个代理轨迹,并在200个实例上评估Claude Code、Codex与开源OpenCode采用四种执行范式的3,000次修复尝试。结果显示:代码执行平均每任务8.8次测试运行,频率2-19,后期成功率更高;对商用SOTA代理,禁止执行与无限制执行间修复成功率差距仅1.25个百分点(无统计显著性),但禁止执行显著节省token与墙钟时间;执行收益集中而非均匀分布。研究表明当前代理不加区分地使用代码执行,应将其视为有明确成本收益权衡的资源。
现有网页智能体基准主要测深度搜索,缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准,通过自动化合成-验证流程构建。任务要求从集合父实体(如电视剧季、王朝)中完整列举成员并填充属性表,采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格,覆盖 190 个实体、16 个类别,设三个难度层级,通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示,智能体能恢复集合但无法填充行(Item-F1 92.8,Row-F1 53.7),难度提升准确率下降,增加搜索或花费无法缩小差距;难点在找到正确值而非格式化,自由文本单元格失败率最高。
针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”,Qwen-Image-Agent 提出统一智能体框架,以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径,Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上,Qwen-Image-Agent 超越强基线,取得最优性能。
OPID从在线策略轨迹中提取技能监督,构建分层技能:回合级技能捕获全局流程,步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能,默认回退至回合级。技能注入交互历史后,旧策略在原始与技能增强上下文下重新评分同一响应,产生token级自蒸馏优势,与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上,OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。
视频推理模型假设每帧可靠,在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段:通过统一接口组织异构视觉工具,每个工具接收子查询和经可靠性-相关性评分筛选的可信帧,返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合(高/中/低)与置信-成本GRPO奖励,联合优化正确性、可靠性和效率。在八个任务上,Robust-TO清洗输入准确率56.4%,超过最强开源基线10.6%p和Gemini-2.5-Pro(46.2%);五种腐蚀下保持54.3%,高出最强开源基线5.8%p,且准确率下降最小。
多模型LLM系统(路由、投票、级联、融合、混合智能体)的准确率提升受限于共同失败上限1−β(β为所有模型在同一查询上均出错的比率)。在21家供应商的67个模型上,开放数学题实际β=0.052,是高斯copula预测值0.023的2.5倍;代码任务β=0.079;GPQA-Diamond自由回答形式β=0.127。低相关异质集成优于高相关Self-MoA,但组合模型很少击败单一最佳模型,除非有强查询级路由信号。收益来自模型在不同问题上犯错,而非增加模型数量。
GauntletBench是一个基于网络的基准测试,用于评估AI智能体在陌生场景中的泛化能力,聚焦时间感知、图形理解与3D推理三项未被充分探索的能力,覆盖视频编辑器、工作流构建器、3D建模器、飞行分析器和电路设计器五个专业应用,每项包含20个视觉密集型任务(共100个)。测试结果显示,最先进智能体的成功率仅19.1%,而人类非专家可达80%以上,凸显当前智能体与复杂现实场景之间的显著差距。
Hang Ten Systems是一家企业AI服务公司,由前Infosys CEO Vishal Sikka创立,旨在通过AI驱动的开发和自动化帮助企业持续构建、修改和运营软件。公司完成3200万美元种子轮融资,由Mayfield领投,Aramco Ventures战略投资,雅虎联合创始人Jerry Yang担任董事会成员。Hang Ten已与Siemens Gamesa Renewable Energy和Fresenius合作进行AI原生项目交付,围绕智能体代码生成、可复用AI技能和领域专业知识构建服务。公司总部位于湾区,正在全球多地招聘。
针对长达3小时播客访谈用AI生成文章时容易遗漏细节的问题,常见做法是连续追问“还有什么细节需要补充?”三次左右(甚至可做成Agent Skill)。但作者采用不同策略:同时让AI生成2-3份稿子,挑选最佳一份作为底稿,再将其它稿子的内容手动合并进来。这样既能避免细节遗漏,也能防止单次生成质量差导致后续追问难以提升质量。
长达3个小时的播客访谈,如果原文提供给AI生成文章。 经常会漏掉一些细节,所以我会连续追问几次: "还有什么细节需要补充吗?" 一般三次左右就差不多,感觉应该做成一个Agent Skill。 哪怕同一个模型,连续追问也能改善质量。 当然,目...
据 Business Insider 获悉,谷歌下一代大语言模型 Gemini 3.5 Pro 原定 6 月上线,现推迟至 7 月,以收集更多早期测试用户反馈并进行优化。该模型在 5 月 I/O 开发者大会预告,CEO 皮查伊称将于“次月”发布。部分用户已通过谷歌“Antigravity”平台及 LMArena 进行体验。新模型预计在长文本任务和驱动 AI 智能体方面提升性能,并融入了 Flash 3.5 用户反馈,包括 token 消耗过快问题。
作者在自研的硅基骑手参考评测(silicon-rider-bench)中累计测试30个模型,发现智谱GLM系列Agent能力持续进化:GLM-5首次实现反思自身行为并主动少接单提准时率;GLM-5.1首创送顺路单,路径效率低于单次配送理论值;GLM-5.2只需看一次地图便记住全部地点与换电站位置,无需调用search_nearby_battery_stations(),大部分tool_call用于推进任务,分数断崖式领先。直至kimi-k2.7-code出现前,无模型超越GLM-5(2月发布),智谱Agent训练领先其他国产模型2-4个月、最大2个代差。故市值破万亿从技术层面并非高估。
Artificial Analysis 发布 AA-Briefcase 基准测试,测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果:Claude Opus 4.8 平均每任务 23 分钟,得分最高但最慢;GPT-5.5 (xhigh) 仅 11 分钟,效率最高且 Elo 前五;GLM-5.2 得 1261 分耗时 16.3 分钟,为开源模型最佳;MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%,其余由输出冗余、回合数和推理速度决定。
Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。Eric Xing 及其同事从哲学与科幻视角出发,分析智能体架构的五维度:目标、身份、决策、自我调节和学习。论文指出,真正“智体性”需这些维度以特定方式组合,从而区分自动化与智能体。论文地址:arxiv.org/abs/2606.23991。
前高盛高管Raoul Pal在访谈中指出,若产品仅是软件,智能体AI可随时复刻、优化并重新部署。他将智能体AI比作专家网站Fiverr,能自动完成建站、编码、域名注册、品牌策划、营销及邮件列表等全流程。他设想用户只需对AI说“把Steven的网站做得更好”,AI便能在3分钟内完成。这引发了关于AI将吞噬软件、软件创业者未来出路的讨论。
Google 将计算机使用(Computer use)作为内置工具集成至 Gemini 3.5 Flash,使开发者能构建跨浏览器、移动端和桌面环境的智能体。此前该功能仅作为独立模型在 Gemini 2.5 中提供,现已原生整合至主 Flash 模型。开发者可通过 Gemini API 及 Gemini Enterprise Agent Platform 调用。安全方面,模型采用针对性对抗训练降低提示注入风险,并新增两项可选企业级保护:要求用户确认敏感操作、检测到间接提示注入时自动停止。该能力在持续软件测试、跨应用知识工作等长周期企业自动化场景中表现更优。(198字)
关联讨论 2 条X:Google AI for Developers (@googleaidevs)Google DeepMind:Blog(RSS)