通义千问(Qwen)团队在百炼平台发布了多模态智能体模型 Qwen3.7-Plus。该模型能理解图像和视频,并新增了自我编程、工具调用、深度推理和自主迭代能力。
通义千问(Qwen)团队在百炼平台发布了多模态智能体模型 Qwen3.7-Plus。该模型能理解图像和视频,并新增了自我编程、工具调用、深度推理和自主迭代能力。
Both Qwen 3.7 Plus and Max are free for paid users of AI Gateway from now till 12PM PT June 4 in partnership with @Aliba...
据X.PIN独家消息,微信的AI智能体采用agent-to-agent架构运行。其中,“管家”智能体负责理解用户意图,并将任务(如外卖、打车等)路由至各小程序自带的“技能”中执行,实现一站式服务闭环。该智能体基于腾讯混元及智谱等模型构建,目前正于数个高流量小程序内进行有限测试。用户可在授权后允许智能体读取聊天历史以实现个性化服务。微信庞大的用户基础、支付、身份体系与百万级小程序生态,使其具备显著的落地优势。
Tencent moves closer to launching AI agent for WeChat's 1.4bn Chinese users https://ft.trib.al/bto5t0c
英伟达CEO黄仁勋在台北电脑展表示,未来Vera CPU将比自家GPU更受欢迎。Vera CPU已内置在所有英伟达AI机器中,上市即具备软件生态优势。其能效相比现有CPU高3-6倍,速度比x86处理器快1.8倍,专为AI智能体打造。黄仁勋强调,Vera CPU并非为争夺传统CPU市场,而是旨在开辟一个此前规模为零的全新AI智能体市场。
黄仁勋在2026台北国际电脑展主题演讲中表示,智能体AI时代并非软件公司的末日,反而将带来“绝佳时代”。他指出,智能体AI会调用更多工具,软件需求不会消失。未来软件竞争将转向“智能体如何使用软件”,软件公司必须调整产品形态以适应这一变化。
MCP-Persona是首个专门评估LLM智能体在个性化MCP工具上表现的基准测试,涵盖Reddit、小红书、Lark和Slack等应用。在多个SOTA智能体上的实验表明,当前智能体在个性化工具使用方面仍面临重大挑战。该基准旨在弥合现有评估主要聚焦通用工具、忽视个人社交应用中工具与个人账户或本地数据库交互所带来的实际挑战这一空白。
JAMEL 是一个用于训练智能体在开放环境中进行探索的框架。它通过新颖性驱动的交互,将智能体的记忆模块与探索策略进行联合训练。该框架利用如代码覆盖率等确定性、持久的新颖性信号,为记忆模块提供无需人工标注的监督信号。实验评估表明,JAMEL 成功泛化至未见过的环境,其探索能力超越开源基线,达到与闭源模型相当的深度,同时减少了 token 消耗。相关代码与模型已开源于 GitHub。
OpenWebRL是一个用于在真实网站上通过在线多轮强化学习训练视觉网页智能体的开源框架,覆盖了完整的训练流程。基于该框架训练的OpenWebRL-4B模型,在仅使用0.4K条监督初始化轨迹和2.2K个开放式RL训练任务的情况下,在Online-Mind2Web基准上达到67.0%成功率,在DeepShop基准上达到64.0%,超越了同规模或更大规模的先前开源智能体,性能可与OpenAI CUA和Gemini CUA等闭源系统竞争。该工作为构建更强、可复现且高性价比的开源网页智能体提供了实践路径。
作者指出,当前许多人仍停留在用AI工具接单的“时间换钱”模式。真正的高价值路径是将个人验证过的方法论(如写作、选题、提示词等)封装成可被AI智能体(如Claude Code、Codex等)反复调用的“技能(Skill)”。这能实现边际成本近乎为零的被动收益,其本质是将自身技能转化为一个“分身”。作者强调,封装的前提是拥有真实、被验证过的方法论,而非空壳,并认为AI时代的核心竞争力在于能否将自己的核心技能封装成他人离不开的Skill。
http://x.com/i/article/2061406941541240838
作者受一条推文启发,使用Codex对自己的MacBook进行了只读存储分析,发现了B站缓存视频等大量可清理空间(激进方案超140G)。为替代收费软件CleanMyMac,作者制作并开源了一个跨平台(支持Mac/Windows)的AI清理skill。该skill会扫描文件并生成可交互的HTML报告,通过三色分级(绿灯可放心清理、黄灯需人工判断、红灯禁止动)直观展示,并提供安全执行按钮。实测清理后释放了近120G空间,相比CleanMyMac仅扫描出的15.8G,其信息更透明、建议更详细。
同一事件,精选展示《基于 Codex 的开源 AI 技能"清理垃圾.skill":自动扫描电脑生成 HTML 报告,一键清理垃圾》本研究探讨预训练视觉语言模型能否通过生成可执行的Blender程序,直接从单张图像重建为可编辑的3D场景,且不依赖专门的2D/3D基础模型、可微渲染或多视图监督。文章提出了“可执行分阶段逆向图形”(SEIG)智能体框架,该框架在可执行的Blender代码空间中,通过分阶段优化几何、材质、构图与光照等因子来重建场景。实验评估表明,分阶段重建策略显著提升了场景重建的保真度(包括像素级、感知和语义保真度),验证了任务分解对于通用视觉语言模型执行可执行逆向图形的重要性。重建后的可编辑Blender场景可支持多种下游应用。
当前单智能体计算机使用智能体在复杂长时程任务中存在不足。为此,本研究提出了多智能体计算机使用系统。该系统由一个管理器模型将任务分解为有向无环图,并行派遣子智能体执行,并根据新信息动态调整该图。实验表明,该系统在桌面和网页导航基准测试上的性能持续优于强单智能体基线3.4-25.5%,并在长时程网页导航任务上将平均任务完成时间缩短约1.5倍。研究结论是,多智能体协调是扩展计算机使用智能体能力的一个有前景方向。
OpenRouter 发布5月更新,推出语音与转录API、模型融合(Model Fusion)功能,并为平台添加了私有模型和企业工作区管控能力。此次更新共上线20个新模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。
关联讨论 1 条OpenRouter:Announcements(RSS)英伟达CEO黄仁勋在媒体招待会上表示,新推出的Vera CPU是为智能体而非人类设计的,开辟了新市场。同时推出的RTX Spark电脑芯片被定位为面向智能体AI时代的计算平台。黄仁勋认为智能体AI将是未来十年最重要的算力变革,并表示英伟达将尽可能使用现成的ARM技术。他坦言公司目前供应仍显紧张。此外,黄仁勋支持SK海力士与三星电子的高薪政策,认为公司“应该尽可能多地奖励员工”。
根据曝光的截图,微软正在开发“Copilot 超级应用”,内部口号是“Delivering one Copilot”,旨在统一所有 Copilot 工具入口。该应用计划整合 GitHub Copilot、Copilot 聊天、Copilot Cowork 及内部代号为 Autopilot 的新智能体能力。应用内包含一个代码页,形态类似 Claude Code 面板,带有一个名为 Scout 的常驻 AI 智能体。用户可通过该页面管理代码仓库、切换模型并安排定时任务。另一个 Cowork 标签页用于汇总数据并提供提示词。
北京时间今晚 20:00 在图灵社区直播间有一场 Agent Skills 的公开课,分享我做 Skill 的实操经验和心得体会,以及聊聊我的新书《图解Skill: Al 提效实战指南》,有需要 Al 提效的朋友可以预约一下,咱们晚八点见。
Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 196B MoE model, and built for ...
论文提出,参数高效微调(PEFT)不仅是全参数微调的低成本替代,更是强大共享基座模型上承载个性化行为的紧凑基底。研究围绕三个扩展维度展开:Scale Up(更强共享先验提升小适配器效用)、Scale Down(探索适配器可靠性的最小化边界)、Scale Out(大规模持久化适配实例共存)。以MinT为例,展示了管理适配器身份、版本、溯源、评估与服务驻留的基础设施。结论表明,PEFT有潜力成为持久化个人模型的紧凑底座,而不仅仅是预算替代方案。
K-BrowseComp 是一个针对韩语语境的网页浏览智能体基准,包含400个问题,其中300个为人工构建验证的子集。在此子集上,GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 等前沿大语言模型仅达到30.00%–45.67%的准确率,而韩国本土大模型得分仅为0.00%–10.33%。此外构建的100题合成对抗测试集中,最强模型得分仅为26.00%。数据集与代码已公开。
腾讯正在为拥有14亿用户的微信测试内嵌式AI智能体原型。用户只需在微信主界面向右滑动,即可调出对话窗口,输入指令后智能体能自动调用微信小程序完成各类任务,例如根据要求找咖啡馆点单。该产品计划最快于本月启动合规审批,之后通过灰度测试分阶段推广。然而,其全量上线面临算力供给不足的挑战,且成本投入极高。面对阿里千问、字节豆包等竞品的AI智能体功能,腾讯已将此项目列为最高战略优先级,力求打磨细节。
该推文拆解了Claude Code的工作流。它是一个能后台运行、可监控的任务系统,包含三个核心角色:Claude负责拆解任务与规划,Runtime负责调度管理状态,每个AI智能体(agent)仅处理一个子任务,并通过并发池与队列推进。系统关键设计是“状态外置”,即中间结果由执行系统保存,主上下文只读取摘要,从而使其能扩展至大量智能体。推文认为这种智能规划、Runtime执行、状态独立、模型按需调度的模式,代表了一种新的工程编排方式,并可将其工作流转换为自有系统的可执行格式。
肝了几天,来回打磨了快 30 遍, 一次性把最新的 Claude Code 的 Workflow 给你完全拆解清楚 有人说它的伟大程度,不亚于 MCP 和 Skill。 第一眼我是不信的,直到拆开看它内部怎么跑: 这不是"问一句答一句"的对...
北京时间今晚 20:00 在图灵社区直播间有一场 Agent Skills 的公开课,分享我做 Skill 的实操经验和心得体会,以及聊聊我的新书《图解Skill: Al 提效实战指南》,有需要 Al 提效的朋友可以预约一下,咱们晚八点见。
阿里云推出Qwen3.7-Plus,这是一个统一视觉与语言的多模态智能体模型。其定位为多功能编码智能体与生产力助手,支持全模态输入,能够跨GUI与CLI执行任务。该模型具备视觉智能体能力,涵盖感知、推理、定位及搜索增强问答,并能跨多种智能体框架泛化。目前已在阿里云百炼平台通过API上线。
关联讨论 6 条IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)Qwen:Blog Retrieval(API)公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)图灵奖得主理查德·萨顿认为,普通生成式AI(如大语言模型)缺乏完成真正科学发现的关键能力。他指出,这类模型生成的内容中,“好的部分不新,新颖的部分不好”,且自身缺少测试与评估机制来筛选有效方案。真正的科学发现需要包含变异、评估和选择性保留的闭环,而生成式AI恰恰缺少评估环节。相比之下,萨顿列举了AlphaGo、AlphaProof、Claude Code等系统,认为这类具备评估反馈机制的AI智能体更有潜力实现突破。
作者基于 Codex 创建并开源了“清理垃圾.skill”,可对 Mac 和 Windows 电脑进行只读扫描,自动生成可交互的 HTML 报告,将文件按优先级分为绿灯(可自动清理)、黄灯(建议手动)、红灯(跳过)。在作者的 MacBook Air 上扫出近 120 GB 垃圾,其中 96.7 GB 为 B 站离线缓存视频,而 CleanMyMac 仅检出 15.8 GB。用户可在网页上逐项或一键清理,全程需二次确认,项目已开源至 GitHub。
用户邵猛在获得 Cursor 团队赠送的 $10K 额度及两个月 Ultra 订阅后,实际使用了约 $2 千美元。其使用体验显示,100% 的时间都在使用 Agent Windows 模式,很少进行多模型切换。模型选择上,有外网访问时偏好 GPT-5.5,否则常用 Composer 2.5,因其 Fast 模式速度快且喜欢输出 Diagram 流程图。优点在于 Context 使用明细清晰,但 Agent 输出界面默认非 Markdown 且不支持拷贝为 Markdown。此外,Agent 界面右侧的扩展窗口(Terminal、Browser、File、Canvas)被认为比较实用。
收到 @cursor_ai 团队成员私信,随后 $10K 到手,非常感谢! 5月份是 Cursor Token 自由的一个月 😃 把 Cursor 新功能用起来,多多给团队提反馈,自己也试试在 Token 自由的情况下,看看能做出什么有趣...
Lee Robinson 分享了四条构建适合AI智能体的代码库的原则:1. 源码应为真相或提供可读路径(如将内容从CMS迁移回代码);2. 智能体需能通过类型系统、测试和Linter验证工作;3. 维护精简有效的AGENTS.md文件,提供项目特有上下文;4. 设置自动化流程(如安全扫描)持续改进。他以Cursor官网迁移为例,该过程耗时3天,消耗344次Agent请求,花费$260,证明降低抽象层成本能带来可量化的投资回报。
Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have so...
Anthropic 核心开发者分享了一套用于 Claude Code 的「理解验证」工作流。该工作流将 AI 定位为“高效且睿智的教师”,成功标准不仅是完成任务,更是确保人类对问题、方案及影响有可复述、可辩护的掌握。它通过增量教学、用户复述、清单+测验等方式,围绕问题域、方案域和语境域三条轴线展开,具体包含8个可执行步骤,强调在进入下一阶段前需确认用户已真正理解。此工作流旨在对抗长会话中人类易沦为“审批按钮”的“智能体黑箱”问题,强制沉淀决策上下文,实现可审计的深度理解。
been asking others at Anthropic how they stay in the loop with Claude and fully understand the work being done this is o...
宝玉(@dotey)宣布将于北京时间当晚20:00在图灵社区直播间举办公开课,主题为 Agent Skills。他将分享自己制作 Skill 的实操经验和心得体会,并介绍新书《图解Skill: AI提效实战指南》。
We just released the Codex Python SDK 🔥 You can now embed Codex directly into your Python apps and workflows! > Start t...
计算机使用智能体在动态交互环境中面临提示注入等对抗性交互和弹窗等环境动态带来的安全风险。现有技能学习方法假设静态安全环境,可能导致危险技能学习。SkillHarness将技能学习与利用建模为安全约束交互过程,引入技能边界机制,利用多源监督信号从交互轨迹中识别安全技能,并构建自改进的安全约束;同时通过选择性技能复用,根据上下文引导任务分解并选择性激活技能子集。实验表明,SkillHarness将学习技能的不安全率降低57.1%,并在动态环境变化下持续提升执行稳定性。
Curation-Bench 是一个面向智能体的基准,固定模型、训练配方和评估套件,赋予智能体命令行权限以检查数据、实施策略并提交训练/评估管道进行迭代。在视觉语言指令微调场景中,开箱即用的智能体在十次迭代内即可达到强数据选择基线。但轨迹分析显示存在执行-研究差距:智能体主要调整局部策略变体,而非探索新策略族。脚手架要求每次迭代引用、实例化并改编先前方法,引导智能体进行方法导向探索。最终脚手架化的智能体自主组合出数据选择策略,以十分之一的数据预算超越了强基线。代码和基准已开源。
EvoTrainer 是一个自主训练框架,通过经验反馈共同进化 LLM 策略与训练端工具。它诊断 rollout 级证据、修正诊断、回测干预并积累可复用技能。在数学推理、竞赛编程代码生成和仓库级软件工程评估中,EvoTrainer 在相同数据、代码库和协议下匹配或超越人工设计的 RL 参考,最大收益在长 horizon SWE 任务上。轨迹分析显示,保留的策略跨领域发散,进化的诊断阻止无效高分分支被提升,可复用技能塑造后续搜索。
针对大语言模型后训练中奖励模型依赖规则验证器、真实参考答案、程序检查表等异构评估标准、缺乏统一机制的问题,提出Skill-RM框架。该框架将奖励建模重构为可复用的“奖励评估技能”执行,把奖励计算当作结构化的智能体任务,通过统一接口动态选择和聚合证据。在奖励基准及best-of-N选择、强化学习等下游任务中,Skill-RM持续优于传统judge基线,为奖励建模提供了统一且透明的方案。代码已开源。
大语言模型执行多步工作流缺乏形式化规范与验证。受形式语言克服自然语言歧义启发,Lean4Agent 首次用依赖类型形式语言 Lean4 建模和验证智能体行为。其核心 FormalAgentLib 是可扩展的 Lean4 库,在显式假设下验证工作流语义一致性并定位运行时故障。LeanEvolve 利用验证结果修正工作流。在 SWE-Bench-Verified 困难子集和 ELAIP-Bench 子集上,5 个 LLM 的验证通过工作流性能平均高 11.94%,LeanEvolve 进一步将 SWE 性能提升 7.47%。
EvoDS 是一个自进化自主数据科学智能体,通过智能体强化学习实现技能扩展与长期上下文自适应管理。核心包括自主技能获取(ASA)机制与自适应上下文压缩(ACC)策略,前者用于合成、验证和复用可执行技能,后者将上下文管理转化为学习控制问题。采用两阶段多智能体训练方案。理论证明其分层设计降低工具选择错误,优化目标符合信息瓶颈原理。在四个基准测试中,EvoDS 平均优于现有开源数据科学智能体 28.9%,并消除 token 溢出失败。代码与数据已开源。
ACTS将推理引导建模为马尔可夫决策过程,控制器智能体在推理中自适应引导冻结的推理器。控制器每步观察推理轨迹与剩余预算,发出含推理策略和引导短语的动作,实现预算感知的推理控制。控制器通过合成轨迹初始化,并经强化学习优化。在多个基准上,ACTS以显著token节省匹配全思考性能,实现可控的精度-效率权衡。代码已开源。
论文整理了2023-2026年间21个编排框架中63起LLM智能体预算超支生产事故,构建8簇故障分类(Cohen's kappa=0.837,N=113),附加47个结构条目。开发了1,180行无unsafe的Rust crate token-budgets,通过仿射所有权模型使克隆、双重花费及委托后使用在编译期报错。单智能体下4行Python计数器表现相当(0/30超支);多智能体委托场景中Python asyncio模式30/30超支,Rust crate编译期拒绝相同模式。在5个运行时、3个提供商、160次温度分层实时API测试中,方案零预算违规且零误拒,静态过度预留4-6倍(自适应2.11倍)。二进制级别预算安全性暂未解决。