Google 将计算机使用(Computer use)作为内置工具集成至 Gemini 3.5 Flash,使开发者能构建跨浏览器、移动端和桌面环境的智能体。此前该功能仅作为独立模型在 Gemini 2.5 中提供,现已原生整合至主 Flash 模型。开发者可通过 Gemini API 及 Gemini Enterprise Agent Platform 调用。安全方面,模型采用针对性对抗训练降低提示注入风险,并新增两项可选企业级保护:要求用户确认敏感操作、检测到间接提示注入时自动停止。该能力在持续软件测试、跨应用知识工作等长周期企业自动化场景中表现更优。(198字)
关联讨论 1 条X:Google AI for Developers (@googleaidevs)Notion 通过 Cursor SDK 在数周内将编码智能体嵌入产品。用户可在文档中@Cursor、在讨论串中提及或向数据库指派任务,Cursor 即可端到端完成规划、构建、测试、验证并自动创建 PR。集成基于一套 Provider 无关的智能体框架,Notion 的讨论串对应一个 Cursor 智能体,每条消息对应一次智能体运行;结果通过 SSE 流式传输,支持断连恢复。Cursor SDK 提供与生产环境相同的模型、运行时和远程 MCP 支持,让 Notion 无需自建智能体基础设施即可获得完整栈编码能力。用户还可自定义模板、MCP 服务器、技能和子智能体,并设置自动触发规则。
http://x.com/i/article/2069789657777225729
swyx 在 Data+AI Summit 上采访了 Databricks 联合创始人 Matei Zaharia 和 Reynold Xin。访谈亮点包括:Databricks 为何击败 Snowflake;行业正纷纷构建“元 harness”(共享智能体框架);LTAP 与 Lakebase 重新思考操作型与分析型数据库划分,解决 HTAP 愿景;Omnigent 为编码智能体和自定义智能体提供统一框架;智能体安全需要上下文策略与支出控制;MosaicML 与 DBRX 的后续;在 1750 亿美元大公司中维持研究/创业文化;以及在智能体云竞赛中数据库、操作系统与网络的重要性。核心观点:未来软件只需让数据就绪,智能体置于其上。
Why the Frontier Ecosystem must be Open - Matei Zaharia and Reynold Xin, Databricks https://www.latent.space/p/databrick...
本教程从零构建OpenHarness,一个可运行的Agent运行时,展示完整控制流:接收用户任务、模型决策、验证并执行工具调用、返回观察结果、循环直至任务完成。覆盖核心模块:工具使用与类型化工具架构、权限控制、生命周期钩子、记忆管理、技能、上下文压缩、重试逻辑、Token成本跟踪及多智能体协调。实现采用纯Python,无需API密钥或复杂基础设施即可实验,包含Token成本估算。
Excited to introduce Computer Use support for Gemini 3.5 Flash!🔥 This enables Gemini to reason and act across platforms...
Anthropic 推出 Claude Tag,支持多用户与同一 AI 智能体在同一工作空间协作。智能体具备持久记忆、独立于人类的凭证及广泛信息访问权限。经验:工作公开化并给予智能体广泛上下文,通过工作区级安全边界让信息对人和 AI 均可用;为每位成员(含 AI)分配明确角色与相应工具。用户可通过 @Claude 私信进行敏感交互,对话保持私密。该方法已在 Slack 等团队协作工具中实践,旨在使人类与智能体高效协作完成共享目标。
同一事件,精选展示《Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作》How can we train small agentic models that are highly capable of terminal use and coding? Announcing OpenThoughts-Agent ...
推文认为Prompt Engineering终结,Loop Engineering取而代之。典型场景:@karpathy晚上设好研究循环,自动改脚本、跑测试、保留正确结果、丢弃错误,人睡觉机器跑。四大支柱均来自生产环境:1)硬性退出条件与独立验证,防止模型“自认为完成”;2)上下文当有限预算管理,定期压缩、用子Agent隔离子任务;3)工具少而精、可安全重试、错误信息可读;4)Maker-Checker模式(如Claude Code已用),干活与检查分离。@bcherny总结:不再prompt Claude,而是写loops让它们跑。模型正成为标准件,工程价值转向长期自治系统设计。
http://x.com/i/article/2069072431252434944
Today, we're announcing Runlayer has raised $30M from Felicis and Khosla Ventures to help companies go all in on AI. Run...
The 100x org went viral. Half the internet hated it. The other half was curious. One month later: output is up. producti...
Matt Pocock 推出 /loop-me 技能,旨在帮你梳理日常工作中的重复“循环”。它采用“严苛面试法”逐一追问直到模糊点消除,最终输出清晰的 workflows/.md 规范文件,任何实施者(人类或AI)看完即可执行。核心包括定义 Trigger、Checkpoint、输出等要素,确保达到“完成的定义”。技能目前仍处于进行中状态,但已可直接使用。它强调先打磨工作流程,使之能被 AI 精确理解,从而降低认知负荷,将重复劳动真正委托出去。
New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...
Qwen-AgentWorld是一个原生语言世界模型,端到端以环境建模为训练目标,而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境,并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向:1)将世界模型用作可控Sim RL的环境模拟器,模拟环境训练的Agent在部分任务上超过真实环境训练;2)仅做环境预测(不进行Agent训练)的预测能力零微调迁移到多轮Agent任务,在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。
📣📣 Meet Qwen-AgentWorld - a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SW...
同一事件,精选展示《Qwen-AgentWorld:面向通用智能体的语言世界模型》Emil Kowalski 的 /emil-design-eng 技能安装量突破 10 万次,近期陆续开发更多细分设计工程 skills,目标是让 agent 输出更精准可控。他重点投入测试环节,反复验证答案的正确性与一致性,这是打造高质量 agent skills 最难也最关键的一环。
Google DeepMind 宣布,computer use 现作为内置工具集成于 Gemini 3.5 Flash,开发者可构建跨浏览器、移动端和桌面的智能体,实现视觉感知、推理与操作。此前该功能仅以独立模型形式存在于 Gemini 2.5。3.5 Flash 已支持函数调用及 Search、Maps 等内置工具,新增的 computer use 可提升持续软件测试和跨专业应用知识工作等长周期企业自动化任务的性能。安全方面采用针对性对抗训练,并可选配两项企业防护系统:要求用户确认敏感操作,以及在检测到间接 prompt 注入时自动停止任务。可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。
关联讨论 1 条X:Google AI for Developers (@googleaidevs)Figma在Config 2026将设计画布扩展至代码、动画、3D深度和着色器效果,并集成去年收购的Weave工作流系统。新功能包括Code Layers(代码与设计并存)、Motion动画、深度层、Shader及Generative Plugins。协作方面,团队可搜索复用AI提示词、保存工作流为技能、共享插件。Figma的AI功能依赖Anthropic、OpenAI和Google等外部模型,推理成本挤压利润率。同时,Anthropic等公司的竞争产品可直接生成界面,构成威胁。
RubyLLM 是一个统一的 Ruby 框架,以相同接口对接 OpenAI、xAI、Anthropic、Gemini、DeepSeek、Mistral、Ollama 等十余家 AI 提供商的 API。支持聊天、图像/视频/音频分析、PDF/CSV/JSON 文档处理、图像生成、嵌入向量、内容审核、工具调用与 Agent 定义,并提供结构化输出(JSON Schema)和流式响应。仅依赖 Faraday、Zeitwerk 和 Marcel 三个库。内置 800+ 模型注册表,包含能力检测与定价信息。可与 Rails 集成(acts_as_chat),支持异步 Fiber 并发。
作者从打字提示转向完全用语音与AI智能体交互,发现通过音频能提供更丰富的细节,语音越长越详细,结果越好。这种交互方式还能并行化更多工作,让智能体执行更长时间任务。作者开发了新功能:录制屏幕、截图、追踪鼠标动作、用语音标注解释智能体难以处理的设计和精确功能开发。结论是提示模态越丰富,智能体结果越可靠,虽然消耗更多token成本更高,但可靠性值得。这些模式可存储为可重用技能,效果天差地别。
ACL 2026发表的EverOS推出HyperMem超图记忆架构,替代传统向量RAG。长期对话召回率达93%(RAG约45%)。27B参数模型借助记忆与Skills自进化策略,任务成功率提升234.8%,性能追平397B模型。本地优先,记忆存为Markdown文件,支持Git版本控制与Obsidian。三行命令安装,Apache 2.0开源,GitHub获7200星,兼容Claude Code、Codex等Agent框架。
Google Gemini桌面版新增两大功能:Speak to Window允许用户在任意窗口按住fn键语音指挥Gemini写邮件、写文档、生成图片,操作在当前应用内完成;Magic Pointer可圈选屏幕信息,让Gemini理解上下文后执行编辑、总结或创建任务。目标是把Gemini变成系统级上下文感知助手,抢占工作流入口。
华为今日宣布鸿蒙“龙虾”小艺 Claw 全机型开放,HarmonyOS 5.0 及以上设备可用,小艺 App 需升级至 11.6.4.300 版本。套餐更新:49 元体验包上线 Auto-Model 模式;199 元标准包支持自主选择 openPangu-2.0-Pro、DeepSeek V4-Flash、DeepSeek V4-Pro、MiniMax M3 四种基础大模型。小艺 Skills 市场已支持 500+ 精选 Skills,覆盖消息、办公、知识检索、创意、生活、金融、开发等领域。小艺 Claw 获信通院首个终端厂商权威安全认证,具备开箱即用、一键唤醒、自我学习、深度记忆、多端协同、端云协同等功能。
Inspired by @karpathy's words on why you - yes YOU - should work on AI Agents
The new Claude Tag feature seems extremely useful, but at the same time, a dangerous bargain for enterprises because of ...
Vista分享经验:将3小时播客访谈交由AI生成文章时,通过连续追问“还有什么细节需要补充?”(约三次)能有效补全遗漏细节,显著改善输出质量,使文章更具故事性。她建议将这一追问流程封装为Agent Skill,以便复用。
Google DeepMind 发布播客,由 @weballergy 与 @fryrsquared 共同探讨 AI 智能体经济的崛起。内容涵盖:AI 智能体的定义、在科研中的探索、智能体间的委托与协作、安全风险与陷阱、如何构建智能体经济、认知单一文化(群体思维)风险,以及分布式智能的解决方案。播客还设有详细时间戳分段,帮助听众聚焦不同话题。
Nous Research为开源自改进智能体Hermes Agent的技能系统新增/learn命令。指向文档页面、本地SDK目录、历史对话或粘贴笔记后,Agent自动收集材料并按照标准格式编写SKILL.md。所有技能存放在~/.hermes/skills/,自动映射为斜杠命令(如/plan、/axolotl)。技能采用三级加载(Level 0返回名称与描述约3k tokens,Level 1加载全文,Level 2加载特定文件),避免大技能库撑满上下文窗口。除/learn外,还支持手动编写、skill_manage自动捕获、Skills Hub安装三种创建方式。/learn在CLI、消息网关、TUI和仪表板上均可使用,仪表板额外提供“Learn a skill”按钮。
I used to dread heavy testing days because every API call felt like watching money disappear in real time. Found a backe...
大语言模型正越来越多地作为智能体在文档上进行推理,而非依赖参数化知识。Agora基准测试包含362个问题、8个领域共9664份真实文档和3.72亿个模型token,远超任何模型的上下文窗口,迫使智能体进行审慎探索而非穷举扫描。评估8个模型后,最强模型准确率仅为59.4%,且各领域表现差异显著。
OpenRouter推出统一图像API,整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式,通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述;通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持(如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费)。OpenAI的GPT 5系列图像模型支持SSE流式预览,启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API,建议现有用户切换。
Today, we're launching Vida. A proactive agent that understands context, remembers what matters, anticipates intent, and...
快手新发布KroWork,能将多个AI Skill串成的工作流直接打包为本地桌面应用。用户安装后可在Launchpad中一键下载到本机,双击即可按预设流程运行,无需反复打开对话框或重新配置参数。KroWork支持定时任务(如每天9点自动执行),并允许从Kro Workshop复制他人工作流二次开发。作者用其复刻了Prompt Organizer提示词生成器和Daily Trend Brief(每日AI趋势简报)等日常工具。KroWork定位与Claude Cowork、Codex Site、Claude Code Artifacts相似,旨在将重复工作流沉淀为可分享的本地应用。
火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施,构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块,实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系,Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库,支持IDP/SSO/OAuth及飞书、钉钉等IM入口统一管控。实践案例:海底捞门店经营Agent将小时级工作压缩到分钟级,人工跟进时长缩减70%,巡检满意度提升50%;创维酷开借助ArkClaw终端版打造AIOS,Token消耗节省50%,支撑百万级终端。
研究团队推出Qwen-AgentWorld系列,是首批基于语言模型的“语言世界模型”,通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹,经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器,它支持可扩展的可控仿真以增强智能体强化学习;作为统一基础模型,世界模型训练可有效预热下游7个智能体基准的性能。
关联讨论 3 条HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)Anthropic 面向 Enterprise 和 Team 用户发布 Claude Tag 功能 beta 版。用户可在 Slack 共享频道中通过 @Claude 直接调用 AI 模型,将其引入活跃群组线程。频道内任何成员均可委派任务或审查内容,打破了传统独立聊天框的交互模式。
阿里云发布 Qwen-AgentWorld,一个原生语言世界模型,可在单一模型内模拟 7 种智能体环境(MCP、搜索、终端、SWE、Web、OS、Android),环境建模是其初始训练目标而非事后适配。该模型
Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。
http://x.com/i/article/2069421203073490944
通义千问发布Qwen-AgentWorld,一款原生语言世界模型,可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标,非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径:一是构建环境模拟基础模型;二是探索世界模型增强智能体训练——可控Sim RL(以LWM为环境的智能体强化学习)优于真实环境训练,而LWM预热(预测环境的学习)即使不经任何智能体特定微调,也能将预测知识迁移至智能体任务。
关联讨论 3 条HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)