Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...
Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...
6月18日,Adobe为Firefly推出更新,引入Creative Skills,用户通过自然语言对话即可生成Logo、配色方案、营销视频等,Firefly会主动反问以完善需求,并提供控制面板微调字体、镜头运动等细节。同时,Photoshop、Premiere Pro等软件加入智能体,侧边栏输入指令可整理素材、重命名文件、更新设计稿。
Hugging Face 发布面向 AI 智能体使用场景的基准测试框架,以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动,通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率,而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍(最高 6 倍),该框架旨在验证类似优化对 transformers 的效果。
多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽。GRPO梯度集中在奖励方差最高的任务(Popoviciu上界所致),靠近智能体能力边界的样本贡献不成比例的梯度。RODS将进度奖励方差作为零成本边界检测器,持续识别边界样本,通过技能对齐重采样管道合成结构复杂度匹配的新变体,并维护与策略共同演化的动态回放缓冲区。从400个人工种子出发、维持约800样本的活动池,RODS性能堪比17K样本离线管道,所需轨迹约少20倍。
Adobe 将其“创意智能体”扩展至 Photoshop、Premiere 等应用,以公开测试形式提供 AI Assistant。该智能体可自动完成多步骤常规任务,如 Premiere 分拣素材和粗剪、Photoshop 换背景、Illustrator 批量生成文件、InDesign 更新版式等。Firefly 新增面向个人创作者的品牌套件、产品图转短视频及 Quick Cut 自动剪辑功能。Adobe 工具已集成至 ChatGPT、Claude 及 Microsoft 365 Copilot,Google Gemini 和 Slack 集成即将推出。
Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。
Adobe在其最受欢迎的Creative Cloud应用中推出AI助手,即日起公开测试。每个应用拥有专精的AI助手:Premiere助手可排序素材、批量重命名剪辑、识别语音关键词并添加时间线标记;Photoshop助手可描述预期效果、整理图层、切换背景、调整资源尺寸;Illustrator助手支持多步生产任务,如检查颜色模式错误、缺失字体、重组图层;InDesign助手可进行打印就绪检查和样式批量更新;Frame.io助手能整理拍摄资产、生成B-roll素材并提供创意方向帮助。
小米开源全屋智能 AI 方案 Xiaomi Miloco 2.0,基于自研 MiMo 大模型,以 Agent 形式接入 OpenClaw。具备六大核心特性:通用常识(自动识别危险并预警)、身份识别(人脸+体态)、家庭记忆(沉淀习惯供主动决策)、家庭任务(条件自动化、定时提醒等)、主动智能、家庭面板。前置条件:内存≥4GB、存储≥256GB、7×24运行(推荐 Mac mini),macOS/Linux,需小米账号及米家设备,以及多模态大模型 API Key(感知用 MiMo-v2.5,Agent 用 MiMo-v2.5-pro)。
千问上线了国内首个全周期高考志愿填报Agent,免费为全国考生提供志愿填报和咨询服务。该Agent帮助用户梳理分数排名、专业详情与选择方向,已有多位家长通过它解决了信息盲区与填报难题。千问同时发起故事征集,邀请考生、家长、老师分享使用经历。
Skywork Super Agents 从2024年底推理模型起步,2025年2月转向办公场景,5月发布Word、PowerPoint、Excel、网页、博客五个专项Agent,8月拓展多模态后在BrowseComp榜单进入第一梯队,11月解决Excel表格准确性难题。202
月之暗面旗下 Kimi Work(Beta 版)新增「目标模式」,支持设定终点后由 Agent 自主循环推进任务,最长连续运行24小时,过程中人类可随时中断调整。同时上线「插件中心」,可选装百度网盘、Canva可画、钉钉、飞书、WPS、Notion、Cloudflare 等外部应用。6月限时福利期间,Kimi 电脑客户端 Work 模式所有任务会员额度消耗减半,即从0.02%降至0.01%。
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》Apodex专为解决无现成答案的硬问题设计。可同时派出最多150个子Agent并行探索,总步数超15,000步。在BrowseComp上超越GPT-5.5-pro,在DeepSearchQA上超越Claude-Opus-4.8和Kimi-K2.6。工作流程分深度研究、自我校验、撰写三阶段。内置三层自我验证机制(冲突审查员、事实检查员、草稿审查员)及独立全局验证器。由AgentOS负责调度、路由、事件流、检查点、成本记账、权限管理等底层事务,添加新应用只需插件代码,无需修改内核。
英伟达GEAR实验室联合负责人Jim Fan于6月17日宣布,基于ENPIRE编码智能体框架,首次在物理世界中启用AutoResearch。团队为8个Codex智能体配备机器人、GPU和Token预算,设定目标高效完成任务。机器人自主学会寻找视觉线索、重置场景、练习技能、调整控制堆栈、在线阅读论文等,并通过物理世界API独立完成系扎带、整理钉子、插显卡等高精度任务。Jim Fan表示将开源该技术,使爱好者可居家托管自动运行机器人实验室。
OmniAgent 提出首个原生全模态智能体框架,将长视频理解建模为基于 POMDP 的迭代观察-思考-行动循环。它通过按需动作选择性提取音视频线索并转化为持久文本记忆,使推理复杂度与视频时长解耦。训练采用 Agentic SFT(最佳轨迹合成与双阶段质量控制)和基于 TAURA 的 Agentic RL(利用 turn 级熵分配探索奖励)。模型在测试时呈现正向缩放:推理轮次越多性能越强。在 VideoMME、LVBench 等 10 项基准上,OmniAgent 达到开源模型最佳水平。7B 参数版本在 LVBench 上以 50.5% 超越 10 倍大的 Qwen2.5-VL-72B(47.3%)。
美团业务研发平台/搜推ASX团队六篇论文被ACL/ICML/KDD 2026接收。CBS将样本选择建模为上下文多臂老虎机,提升数学推理性能效率;ResRL通过负样本投影残差强化学习,数学超NSR 9.4%、代码刷新CodeForces SOTA、ALFWorld超PPO 7.8%;CDRRM仅用3千样本让未微调模型超越全量微调基线;LocalSearchBench覆盖国内9城6品类超134万商户与900道多跳问答,最优DeepSeek-V3.2正确率仅35.60%;DiningBench含3021道菜品多视角图像,29个VLM模型细粒度识别与营养推理不足;Mem²Evolve双记忆自进化框架在6类任务8个基准上优于单一进化策略。
Xcientist 是一个研究框架,将文献证据、想法状态、实施计划、消融记录和修复轨迹作为持久研究工件外部化,使生成机制可落地、测试和修订。它识别出“声称漂移”——可执行工件不再支持原声称机制——作为自动化研究的失败模式。在无训练记忆系统、图结构交通预测和多尺度物理信息神经网络三项任务上,Xcientist 保留了从问题定义到机制设计、验证和有限修订的可追溯轨迹。研究主张,AI科学家评估应关注合成与验证过程是否可归因、可检查且符合科学问责。
千问高考志愿填报Agent在“暖芒计划”公益活动中首次走进河北省青龙满族自治县第一中学,向三百多位考生和家长免费提供志愿填报服务。Agent能根据实际分数和选科生成志愿报告,逐一说明推荐理由和潜在风险。现场教师指出,传统填报痛点在于信息散落且付费服务不透明,而千问Agent将每一步推理过程公开,消除信息鸿沟。该计划后续将覆盖全国10多个省份的偏远地区高中,并举办100多场免费公益直播。
Codex CLI 支持自定义 OpenAI 兼容提供商,只需在 config.toml 中配置即可将请求路由到 OpenRouter。用户无需修改 Codex 本身,就能获得提供商故障转移、使用跟踪以及跨所有模型的统一密钥。
关联讨论 1 条OpenRouter:Announcements(RSS)在 2026 年 WWDC 期间,苹果发布 Xcode 27,其核心组件首次整合 AI 智能体,能理解 Swift 语言并通过多轮自然语言对话辅助开发。AI 可跨多个文件修改整个代码库,也能根据提示与资源生成应用设计并独立构建完整应用,建成后仍可通过对话添加特效、动画等。Xcode 27 支持接入 Anthropic、OpenAI 和 Google 等第三方 AI 模型,同时引入 Core AI 框架提供现代 Swift API 调用端侧模型,并升级开源框架 MLX。
同一事件,精选展示《Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发》Vercel 发布开源 Agent 框架 Eve,核心设计“Agent 即目录”:通过 agent.ts、instructions.md、tools、skills、subagents、channels、schedules、connections 等文件声明行为。内置持久会话(可 checkpoint)、沙箱隔离(本地 Docker/Vercel Sandbox)、Human-in-the-loop 审批(不占算力)、MCP/OpenAPI 连接(鉴权由框架代理)、多 Channel 支持(HTTP/Slack/Discord)、OpenTelemetry 追踪与 eve eval 门禁。本地 eve dev TUI,部署为普通 Vercel 项目,不中断进行中会话。内部已验证:d0 月 3 万+ 查询,Lead Agent 年成本约 $5k 回报 32 倍,Vertex 约 92% 工单自动解决。
Introducing eve, an agent framework. agent/ agent.ts instructions.md tools/ skills/ sandbox/ schedules/ Like Next.js, fo...
关联讨论 1 条MarkTechPost(RSS)邵猛详解 Codex Automations 的双循环架构:内循环负责将上下文带入任务,通过“检索即写作”、可逆动作(只建草稿不自动发送)等原则快速产出可审草稿;外循环在人工审阅后启动,通过草稿与终稿的 diff 提取证据,区分修改类型(写作偏好、事实补漏、承诺删除等),将经批准的教训写入 Markdown 供内循环下次使用。双循环速度错开:内循环快(如每 2 小时),外循环慢(日末/满 N 条审阅/每周),平衡即时效率与模式改进。适用于任何“起草→人审→发送/修改”的流程。
http://x.com/i/article/2067086994455601152
Epic 今日发布虚幻引擎 5.8,同时预热 UE6。UE6 的游戏逻辑开发模型将全面转向 Verse 语言,以降低门槛并支持大规模在线世界与多人协作。引擎将引入开放标准实现跨游戏内容互通,涵盖资源、代码和经济系统,并深度整合 Unreal Editor For Fortnite。UE6 还将集成大语言模型与生成式 AI 工具,整合 Claude、Gemini 等模型辅助开发。时间上,UE6 预计 2027 年底进入 Early Access,正式版在此后 12–18 个月内推出;UE5.8 为 UE5 最后一个重大更新,后续重点转向 UE6。
DeepSeek以4000亿元估值完成首轮融资,融资约510亿元,投资方包括梁文锋、腾讯、宁德时代等。微信支付发布AI专属卡,授权Agent后实现自动消费。谷歌推送Android 17正式版,集成Gemini、Lyria等AI模型,新增AI音乐生成。腾讯自选股内测金融智能体StockBuddy。支付宝提醒AI版“阿宝”内测邀请码无需付费。西安警方侦破AI造谣小米案,4人被刑拘。
研究LLM智能体自主选择工具时的过度特权问题:智能体在存在足够低权限工具时仍倾向选择高权限工具。引入ToolPrivBench评估框架,覆盖8个领域5种风险模式。实验发现主流LLM智能体普遍存在过度特权选择,瞬态工具故障会加剧该问题。一般安全对齐无法可靠迁移至最小权限选择,提示级控制仅在无故障时提供有限缓解。提出的特权感知后训练防御能显著减少不必要高权限工具使用,同时保持通用能力。
MobileForge由MobileGym和层次化反馈引导策略优化(HiFPO)组成,在真实移动应用中自动生成任务和评估rollout,将轨迹结果、步骤级过程反馈及纠正提示转化为提示上下文的步骤级GRPO更新。使用自动生成的无标注数据,MobileForge将Qwen3-VL-8B适配到AndroidWorld达67.2% Pass@3,接近闭数据专用模型GUI-Owl-1.5-8B的69.0%。进一步适配的ForgeOwl-8B在AndroidWorld上达77.6% Pass@3,并在域外MobileWorld GUI-only任务上取得41.0%成功率,成为当前最强的开源数据移动GUI智能体。代码、数据和模型将开源。
ReAct风格提示词在长时域移动GUI任务中因被动累积历史导致prompt膨胀和信息稀释。MemGUI-Agent引入ConAct机制,将上下文管理视为与UI动作同策略的一等动作,维护折叠动作历史、折叠UI状态和最近步骤记录三个结构化字段,保持上下文紧凑。基于2956条轨迹的MemGUI-3K数据集对8B模型进行监督训练,得到MemGUI-8B-SFT,在MemGUI-Bench上达到最优8B开放数据性能,并泛化到分布外MobileWorld基准。代码、数据和模型将开源。
Connect the Dots(CoD)是一个训练大语言模型实现长期生命周期智能体的通用框架。它让LLM在部署后持续探索环境、从自身经验中学习并迭代更新上下文,从而在后续任务中表现更优。框架包括端到端强化学习训练算法与基础设施,采用GRPO风格RL和细粒度信用分配。实验表明,端到端RL训练有效,且激发的元能力具备训练域内、跨域以及从CoD到Ralph-loop设定的分布外泛化潜力。实现已开源。
6月13日,Anthropic在旧金山举办12小时黑客马拉松,310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton:输入历史建筑照片后,Claude自动搜集图纸等资料,跨339个施工步骤重建3D模型,每个构件附带证据链;自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco:基于美国人口普查数据生成10,000名合成市民,各具独立世界观,实时对新闻投票,精准预测选举结果。第三名Custom Universe:用手机拍摄物件照片,Opus 4.8将其转为可拖放、实时渲染的3D物体,支持文本指令重设风格。
实验将11个大语言模型放入自建2D吃鸡游戏中,进行30轮对战。Grok 4.1 Fast以13胜(每胜0.97美元)夺冠,第二名Claude Sonnet 4.6仅5胜(每胜26.78美元),成本相差27倍。GPT 5.4击杀数最高(38次),但仅获2胜排第二。GPT 5.4-mini、DeepSeek 4 Flash和Kimi K2.6共花费57美元,零胜场。游戏包含武器、护甲、载具及缩圈机制,模型可编辑自身人格和记忆文件,彼此仅以字母代称。传统基准未能预测胜负,揭示出模型在“获胜”与“杀人”能力之外的决策差异。
Claude Code v2.1.181 发布,新增 /config key=value 语法允许在提示中直接设置任意配置项,新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events,新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。
一篇介绍AI自动回复邮件的“内循环”与“外循环”设计的文章。内循环是定时任务每2小时检查新邮件,自动检索相关上下文生成草稿但不发送,供用户手动修改后发出;外循环则是自进化的Skill,每次用户对草稿的修改都会被Agent记录,用于不断优化写作风格Skill,使其生成内容更符合用户习惯。作者类比了自己以前手动提炼写作风格Skill的做法,指出该方案将迭代过程自动化,形成持续改进的闭环。
http://x.com/i/article/2067086994455601152
It's now easier to move local agents to the cloud so they can keep working with your laptop closed. Prompt Cursor from y...
Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语,Flue 成为首个针对该 SDK 的框架,同时仪表盘中已推出智能体功能。
Email dashboards had a good run. Two decades. Billions of emails. I built two companies on them. But the dashboard was n...
🚀 Introducing Genspark AgentBase (Preview). Turn your data into custom databases, dashboards, and internal systems. Sto...
We built an internal AI system called Builderbot. It coordinates agents across our entire codebase. Engineers tag it in ...
Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式,旨在结合两者优势。A2UI 采用声明式框架,通过 JSON payload 定义 UI,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 MCP 服务器提供 A2UI,利用 MCP Resources 或 Tool 调用传递 JSON,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。