用户实测SenseNova 6.7 Skills Agent,称其为“牛马人套装”。该AI agent能够自主执行长时间、重复性的数据处理任务,例如爬取网站、整理数据并生成结构化文件(如MD格式),以完成一份市场调研报告。由于任务复杂,执行耗时较长,但因产品处于公测阶段,目前免费使用。用户后续还将测试其自动生成报告PPT的功能,并提醒大家抓紧机会体验其免费的CodingPlan。
用户实测SenseNova 6.7 Skills Agent,称其为“牛马人套装”。该AI agent能够自主执行长时间、重复性的数据处理任务,例如爬取网站、整理数据并生成结构化文件(如MD格式),以完成一份市场调研报告。由于任务复杂,执行耗时较长,但因产品处于公测阶段,目前免费使用。用户后续还将测试其自动生成报告PPT的功能,并提醒大家抓紧机会体验其免费的CodingPlan。
前字节员工推荐飞书作为连接AI工具的平台。通过Zara开源的lark-channel-bridge工具,可将本地Claude Code变为飞书机器人,实现手机端随时进行复杂任务对话。该工具能将飞书消息转给Claude Code处理,支持可交互卡片和文件图片的直接显示,并结合飞书的全量搜索功能,提供流畅、可控的“AI工作助理”体验,被作者强烈推荐。
微软研究院近日推出Fara1.5系列浏览器操作智能体,包含4B、9B和27B三种参数规模。其中最大模型Fara1.5-27B在Online-Mind2Web基准测试中达到72%的准确率,显著优于OpenAI Operator、Gemini 2.5 Computer Use等主流模型。此次发布同步推出FaraGen1.5合成数据流水线,可在受控环境中高效训练智能体,为自动化浏览器操作提供了新解决方案。
Maestro是一个用于多模态任务的强化学习编排框架。它通过训练一个轻量策略,动态组合冻结的专家模型与双层技能库,实现步骤级的实时决策:何时调用专家、选择何种模型-技能组合,以及何时终止。在十个代表性多模态基准测试中,仅4B参数的Maestro平均准确率达70.1%,超越了GPT-5和Gemini-2.5-Pro。其策略可泛化至未见过的模型和技能,无需重新训练;在扩展外部专家后,仍显著优于闭源基线,同时保持高效率和低延迟。代码已开源。
Bloome正式上线,定位为首款将人类与AI Agent置于同一群聊的消息应用。其核心设计是Multi-Agent One Room,即多个AI Agent与人类用户共同在同一个“房间”内协作,如同添加同事一样将不同职能的Agent拉入对话。产品强调AI Agent作为队友而非工具,能共同处理任务(如协作修复Bug、完成写作流程),显著提升协作效率。目前仅开放1000个邀请码,产品迭代更新速度快。
Bloome is officially live. The first messaging app where humans and AI agents share the same group chat - as teammates, ...
WordPress 7.0 于2026年5月20日发布,代号Armstrong,是2026年首个重大更新,由超过875位贡献者参与,包含420多项增强与修复。核心变化是原生集成AI能力,通过新增AI客户端和能力接口,支持生成图片、标题及摘要。后台采用Modern主题优化视觉一致性,编辑体验强化了可视化修订与字体管理。响应式编辑提升,允许直接控制区块在不同设备的显示。此外,新增多种设计区块,并引入区块级自定义CSS控制,增强设计灵活性。
自主智能体正从工具演变为社会基础设施的一部分,其扩展瓶颈已从模型能力转向协调问题。论文提出Foundation Protocol(FP),一种图优先的协调层,用于构建新兴的人机社会。FP旨在统一智能体、工具、资源、人类等异构实体,支持基于事件的多方协作与经济计量结算。该协议设计为包装并桥接现有协议,支持渐进式采用,在保持智能体可组合性的同时,确保问责制的不可妥协性。
语言智能体通过复用从经验中提取的结构化技能来提升能力。本研究系统评估了智能体技能的完整生命周期(经验生成、技能提取与技能运用),构建了涵盖五个多样化任务领域的效用评估框架。研究发现,模型生成的技能平均有益,但存在显著的负面迁移现象;技能的效用与模型规模或任务基线强度无关。研究最终提出了一种元技能,用于指导技能提取过程,以提升技能质量并减少负面迁移。
OpenCode can now officially be used with your Grok or X Premium subscriptions Try it with the new Grok Build model
In the next version of Claude Code: run /usage to see a breakdown of which Skills, Agents, MCPs, and Plugins are using y...
开源数据可视化插件 datasette-agent-charts 发布了 0.1a1 预览版。该版本主要增强了图表呈现:无颜色列的柱状图与华夫图改用连续色阶按数值大小着色,含文本值的颜色列则采用 observable10 分类配色方案。此外,新增了查询前的 execute-sql 权限检查、交互式图表提示信息,并修复了 waffleY 图表类型未被正确描述的问题。
Claude Code上线了/usage指令,实现token消耗的精细化归因。该功能可展示每个Skill、子代理及MCP的用量占比,并能追踪由下游操作触发的消耗源头。支持按天/周筛选历史数据,CLI端已可使用,桌面端即将跟进。这一更新使用户能从模糊感知转向精确掌握AI工作流的具体成本构成。
In the next version of Claude Code: run /usage to see a breakdown of which Skills, Agents, MCPs, and Plugins are using y...
阿里巴巴正式推出最新旗舰模型Qwen3.7-Max,定位为Agent时代的生产级基础模型。该模型在权威评测中得分56.6,较前代显著提升,性能与GPT-5.4相当。其核心优势在于卓越的Agent可靠性,能够在复杂任务中自主规划、调用工具、纠错并持续执行。通过底层深度优化,模型实现了10倍推理加速,并支持长达数小时的自主运行与多工具协作。该模型现已上线阿里云模型工作室,并兼容Claude Code、OpenClaw等主流开发框架,助力开发者构建实际应用。
📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...
关联讨论 8 条公众号:通义实验室(千问)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)In the next version of Claude Code: run /usage to see a breakdown of which Skills, Agents, MCPs, and Plugins are using y...
Mistral AI 的 Studio 产品旨在帮助用户构建、测试并运行 AI 智能体与应用。其核心功能是通过可复用的连接器、直接的工具调用以及人机协同审批控制,将企业数据连接到 AI 应用中。该产品支持使用内置及自定义的 MCP。
团队通过开发和应用一系列自动化技能,旨在将成员从日常琐事中解放出来,专注于核心工作。具体实践包括:利用自动化工具(如openclaw结合钉钉cli)在会议后自动提取待办事项并跟进;基于知识库自动处理邮件,进行摘要、归档和提醒;部署群内机器人自动完成会议室预订;以及自动监控外部资讯并评估其跟进价值。这些方案均有效提升了工作效率,减少了重复性人工操作。
阿里云发布了通义千问系列的新旗舰模型Qwen3.7-Max,定位为面向智能体时代的通用基础模型。该模型旨在为“能真正完成任务”的智能体提供强大支撑,其核心能力包括:支持端到端的复杂编码任务,可作为集成多智能体协作的办公助手,并能执行超过35小时的长期自主任务。该模型具有框架无关的兼容性,可适配Claude Code、OpenClaw等多种工具链。目前,用户已可通过Model Studio平台调用其API。
关联讨论 8 条公众号:通义实验室(千问)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)X:X.PIN (@thexpin)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)Qwen3.7-Max是Qwen系列面向Agent时代推出的最新旗舰模型,旨在为能完成实际任务的智能体提供强大基础。其核心能力包括:可作为端到端编码智能体,处理前端原型与多文件重构;作为可靠的办公助手,通过MCP集成与多智能体编排协同工作;并支持超长时间(超过35小时)的自主运行,执行复杂任务链。该模型兼容Claude Code、OpenClaw等主流开发框架,现已上线阿里云模型工作室与Qwen Studio提供服务。
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》Today, we launch http://Tycoon.us @tycoonai: the world's first operating system for one-person companies. Everyone gets ...
If you are managing multiple machines across clusters and farms, you could ask Grok Build to spin off a sub-agent SSH tu...
该推文展示了一种将墨水屏硬件与AI Agent结合的创新应用。核心思路是通过打包为Skill,使任意AI Agent都能控制墨水屏显示内容:设备开机时,AI可推送待办事项、日历等信息,配合磁吸安装和定时任务刷新,形成常态化桌面看板;关机或休眠时,屏幕则利用墨水屏特性静态显示个人介绍与二维码,便捷实现数字名片功能。项目计划以Skills形式开源,便于拥有类似硬件的用户复用开发。
终于找到了这种墨水屏硬件最适合的场景: 开机的时候,让 AI 往里边推一个 To-do、日历,一些基础的需要记的信息 把它挂在屏幕边上(用磁吸) 关机的时候,利用墨水屏的特性让它显示名片,这样大家加好友什么的直接看就行 太实用了! 到时候打...
该推文集中通报了多个技术项目的最新进展。其中,Code Pilot的重构工作已接近完成;墨水屏相关的Skills功能开发预计今日或明日就能完成。同时,基于PPT Skills的几个衍生项目正在推进,包括将HTML转换为视频的功能,以及生成适用于小红书、微信的图文封面功能。此外,PPT Skills的第三个主题也已启动开发。整体展现了多项技术工具的并行开发与快速迭代状态。
Gemini 3.5 Flash实现了289 tokens/s的输出速度(约为GPT-4o的4倍),同时将幻觉率大幅降低31%,首次在速度、智能和可靠性上达成平衡。这标志着AI发展从单纯比拼模型“智商”的基准竞赛,转向追求“能用起来”的实用主义。高速与可靠性的结合,使得能够执行复杂多步任务的AI Agent从理论走向现实,可能重塑行业竞争格局,未来AI将如同基础设施一般无缝融入工作流。
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:Kim (@kimmonismus)微软举办Claude使用工作坊,通过构建纸杯蛋糕店AI Agent的案例,演示了从部署云模型、接入MCP服务器连接工具与数据源,到赋予企业级安全与可观测性的完整流程。工作坊以实操为主,开发者可现场跟随编码,强调AI Agent已从概念验证进入快速生产落地的实用阶段,成为开发者能直接构建的业务工具。
针对工业智能体在基准测试AssetOpsBench中,现有缓存技术因无法处理时间等动态参数而失效的问题,本研究提出了两种互补优化方案:时间语义缓存与MCP工作流优化。测试显示,MCP工作流优化(结合磁盘工具发现缓存与依赖感知并行执行)实现了1.67倍加速,将端到端延迟降低约40%;而时间语义缓存则在命中时带来了高达30.6倍的显著加速。该研究不仅提升了处理效率,还具体揭示了纯语义缓存在应对参数丰富的工业查询时的失效模式。
Mem-π是一个用于大型语言模型代理的自适应记忆框架,它通过专门的模型按需生成指导内容,而非从外部记忆库检索静态信息。该框架采用决策-内容解耦的强化学习方法,使模型能自主判断是否生成指导及生成何种内容。在涵盖网页导航、终端工具使用等多样化的代理任务基准测试中,Mem-π性能持续优于检索式方法和现有强化学习记忆方案,其中在网页导航任务上实现了超过30%的相对提升。
针对Slack大中华区关停致数据丢失,盛大旗下Tanka AI推出全面升级。它覆盖了即时聊天、语音/视频通话等全部协作功能,并创新性地增加了AI长期记忆层,自动沉淀对话、决策与文件。同时支持接入100+主流办公应用,打通工作流,并能基于记忆与研究自动生成PPT、报告等AI资产,成为高效的Slack替代方案。
Chrome DevTools for Agents 1.0 发布,旨在让 AI Agent 能在真实浏览器中“观察”并调试 Web 应用。该工具通过 MCP server、CLI 和 Agent skills 三种方式接入,提供了一系列核心能力。Agent 可执行自动化质量审计、模拟用户环境、调试 Chrome 扩展、接管已登录会话、检测内存泄漏,并能与 Web 应用暴露的内部状态深度集成。这显著提升了 Agent 在浏览器环境中的调试与测试能力,为自动化开发与运维提供了新的可能性。
Codex已从单纯的代码生成工具,进化为能处理各类电脑任务的“全能打工人”。其核心在于利用持久对话流实现长期记忆,并能调用浏览器、电脑操控等工具,打破工作流限制。通过自动化与目标设定,Codex可离线持续工作,大幅提升生产力。
一个开源项目允许用户增强Codex App的功能。即使通过API登录,也能通过安装插件的方式启用Computer Use特性并添加Goal指令。项目还支持界面自定义,例如调整为类似Chrome浏览器的顶部Tab样式,并可设置任务开始和完成的提醒音效。相关开源项目地址已在评论区提供。
本文探讨了通过微调,将个人知识库(如LLM Wiki)的内容从依赖上下文窗口,转变为固化到模型自身权重中的方法。关键在于利用如Fireworks Agent这样的自主AI代理,仅需提供自然语言目标,它就能自动完成从数据准备、训练到部署的完整微调流程。这标志着模型自我改进的闭环成为可能:当训练成为AI工作流中一个可调用的步骤时,模型能主动将反复使用的模式(如特定写作风格或决策逻辑)学习并内化到权重中,从而实现使用与优化的持续迭代。
Starting today, use your Grok or X Premium subscription in @openclaw. Chat with your agent, generate images and videos, ...
通过Codex客户端与Chrome官方插件,AI能全自动完成Chrome插件的上架表单填写工作。流程中发现中文输入法会干扰内容输入,于是编写Python脚本,采用复制粘贴方式解决。虽然填写速度不快,但对不愿手动处理说明文案的用户而言,这种自动化方式提供了高效便捷的替代方案,降低了操作门槛。
用户完成了两项自动化相关工作:首先开源了常用油猴脚本,支持小红书、抖音等平台截图自动上传、YouTube字幕处理及播客倍速调整;其次利用Codex通过控制Chrome浏览器,实现了插件上架流程的自动化,包括自动处理隐私协议、资料文案、打包压缩包并上传至Chrome商店。
完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整 开源地址:https:/...
Google Stitch 在 I/O 2026 推出五大核心更新,标志着从异步生成转向实时可交互协作模式。新增 Streaming 功能,支持边生成边预览与纠偏;能从代码、Figma 或网站自动生成 DESIGN.md 作为设计中枢;画布升级为原生 HTML Canvas 交互运行时,可实时测试动效;支持一键导出至 Netlify 等平台,打通设计到部署流程;通过 Agent 与 MCP 技术,实现视觉设计与代码仓库双向同步,形成完整设计-开发闭环,定位为连接设计师与开发者的可视化编辑枢纽。
Your vibe design partner just got more collaborative! To celebrate I/O, here are 5 major upgrades (and one big bonus!): ...
兄弟们,喜大普奔啊! 从今天起,你可以用已有的 Grok / X Premium / SuperGrok 订阅, 直接在 OpenClaw 里使用 Grok 模型了, 而且不需要单独申请 API Key, 也不需要额外付费。 可以说是xAI 把 Grok 推向个人 AI 操作系统级别的迈出了关键一步, 让普通用户也能零门槛跑一个属于自己的、带记忆、能联网、能生成多媒体的 AI 助理!
Starting today, use your Grok or X Premium subscription in @openclaw. Chat with your agent, generate images and videos, ...