AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3063 条
全部一手资讯X论文
标签「Agent」清除
AYi@AYi_AInotes · 5月21日77

http://x.com/i/article/2057300084354670592 # 用我的神级Prompt测试了Gemini 3.5 Flash,确认了一件事:Google直接宣告AI 大模型纯聊天时代彻底终结了! 这篇文章跟大家只捞干货,核心三部分:Gemini 3.5 Flash 到底强在哪?怎么免费玩上?我自用的 Gemini 神级提示词开源,8大场景直接拿去用!文章最后放了宝藏彩蛋给大家! # 目录 ## 一、Gemini 3.5 Flash 到底强在哪? ## 核心数据:289 tokens/s 是什么概念 ## 二、战略判断:Google 为什么不再卷 benchmark ## 三、上手体验:Gemini 3.5 Flash免费入口 +玩法 ## 四、自用神级Gemini Prompt开源: 1. KERNEL-X 终极动态专家系统 1. HE COMPILER IDENTITY (全栈编译器人格) 1. 唯一需要的Vibe Coding提示词 1. Naval Ravikant分身(决策神器,哲学/人生Prompt) 1. AI工作流程专家系统提示词 1. 认知挖掘提示词 1. 深度研究报告Prompt 1. 神级反思Prompt ## 五、写在最后:这轮 AI 竞赛的终局是什么 # 一、核心数据 289 tokens/s 是什么概念 - 速度:289 tokens/s(3.1 Pro 的 2.1 倍,GPT-4o 的 4 倍) - 智能:AA Intelligence Index 55(3.1 Pro 是 57) - 幻觉:暴降 31 个百分点,可靠性质的飞跃 - Agent 能力:GDPval-AA Elo 1656(3.1 Pro 1314),MCP 多步工作流 83.6% - 一句话:Flash 首次同时把速度、智能、可靠性三个维度拉满 我尽量讲人话把这些数字意味着什么跟大家说明白讲清楚: 289 tokens/s 的输出速度:你按下回车,还没来得及切回微信看一眼消息,3000 字已经写完了,3.1 Pro 这时候还在思考人生,GPT-4o 和 Claude Opus 直接被甩开 4 倍。 智能指数 55:离四个月前还是旗舰的 3.1 Pro 只差 2 分。 幻觉率暴降 31 个百分点,这个数字最离谱,以前用 Flash 做 Agent 我心里始终有根弦,因为它会编。 现在我让它跑多步工作流,自己不确定的地方它会主动停下来问,跟以前硬编的路数完全不同,属于质的变化。 # 二、战略判断 ## Google 为什么不再卷 benchmark? 说实话,在 Flash 出之前,我每次开新对话都要纠结半天, 用 Pro,等它思考完够泡一杯咖啡, 用 Flash,又怕它在关键步骤上幻觉一下,前面跑的全白费, 三年了,快和准只能选一个,我们从 GPT-3.5 忍到现在。 Flash 这次第一次把这两件事同时解决了。 # 三、免费上手体验 我自己测 Flash 用的是 ZenMux,这也是我一直跑模型的聚合平台。 昨晚刷到它已经免费上线3.5 Flash,顺手就接着测了一天,打开就能用,不用 API、不用翻墙。 它有个多模型 PK 功能,同一个 prompt 能同时丢给 Flash、Claude、GPT 看谁出得好。 我后面那 8 个压箱底的 prompt,有几个就是在这种 PK 模式下磨出来的。 但我也得说一下边界,免得有人冲进去发现不对。 Flash 不是万能的,我让它写长文(3000+字以上)的时候,后半段质量肉眼可见地往下掉,逻辑会开始飘,真要写深度长文我还是会回 Pro,毕竟Flash 是速度型选手,不是耐力型选手。 我现在的分工是:Agent 跑流程、批量处理、即时对话——全交给 Flash,深度思考、长文创作、复杂推理这些还是 Pro。 这套搭配跑了一天,体感是: 聊天框时代的纠结,在这一天里消失了。 # 四、自用神级Gemini Prompt开源 ZenMux 上已经开放免费体验,不用折腾API不用翻墙,打开就能跑:https://zenmux.ai/invite/DIX0WC 用以下给大家开源的最顶的经过实战检验的提示词尽情体验Gemini 3.5 Flash的强大吧。 ## KERNEL-X 终极动态专家系统(我的王炸提示词,迭代了10版) ## 全栈现实编译器Prompt—把模糊的现实需求,编译为逻辑严密、概念独创、且极具透明度的“高维智力资产 ## 这是你唯一需要的Vibe Coding提示词: # 读懂纳瓦尔需要十年,我用 1 条提示词把它封装成了财富与清醒操作系统 ## 复杂问题分析Prompt 神级反思Prompt ## AI工作流程专家系统提示词 ## 深度研究报告Prompt ## 五、写在最后:这轮 AI 竞赛的终局是什么 写到这,我想聊一个更大的问题。 Gemini 3.5 Flash 这次发布,最让我在意的不是 289 tokens/s,也不是幻觉率暴降 31 个百分点,这些数字半年后就会被新的数字盖过去。 最让我在意的是 Google 这次出手的逻辑变了。 以前的逻辑是:我的模型比你聪明,所以你应该用我。 OpenAI 和 Anthropic 到现在还在玩这套——GPT-5 传闻、Claude 的推理深度、各种 benchmark 军备竞赛,比的是智商。 Google 这次的逻辑是:我不跟你比谁更聪明了,我比的是谁能让 AI 真正跑起来。 289 tokens/s 意味着什么?意味着 Agent 从一个“理论上有用”的东西,变成了“今天下午就能塞进工作流”的东西。一个人坐在电脑前,五分鐘跑完十几个步骤、调几次工具、回头修正自己的错误——这件事以前只存在于 Demo 视频里,现在变成真的了。 这才是终局的雏形。 聊天的终局是 Agent。Agent 的终局是基础设施。 什么意思?当 AI 快到一定程度、可靠到一定程度、便宜到一定程度——它就不再是一个“产品”了。 它是水电煤。你不会每天早上起来想“今天要不要用一点电”,你只是按下开关。 AI 的未来也是一样:你不会再纠结用哪个模型、切哪个窗口、等它思考几秒钟——你只需要一个动作,它已经把活干完了。 Google 这次干的,就是把“按下开关”这个动作往前推了一大步。 那 OpenAI 和 Anthropic 在干嘛? 说实话,他们不是没看到这个趋势,是他们船的惯性太大。 旗舰模型推理成本高、推理时间长、商业模式绑在“更聪明的模型”这条线上——转向的速度型产品,会动自己的旗舰定价体系,这不是技术问题,是商业枷锁。 所以 Flash 这次的对手,其实不是 GPT-4o 或者 Claude Opus,是 Google 自己的过去——那个只会在 benchmark 上跟人拼刺刀的 Google。 Google 终于不用“聪明”来证明自己了,它开始用“快”来定义游戏规则。 最后聊一句对你我的影响, Agent 这件事,门槛已经从“技术能力”转移到了“想象力”。 以前你得会搭 LangChain、会写工具调用链、会被各种框架的坑绊倒,才能跑起来一个勉强能用的 Agent。现在门槛降到了——你能不能想清楚一个任务,然后花五分钟跟模型说清楚。 说到底,AI 竞赛的终局不是谁赢了谁,是有一天你回头看,发现那些曾经需要半天的事情,现在你只需要一句话, 而这一天,比所有人以为的都要近。 ## 彩蛋时刻 分享一个宝藏提示词网站,跟强大的Gemini 3.5非常搭,绝对能解决你工作、生活、学习中的大部分问题和困惑! http://prompts.chat —— 目前最强开源免费 AI Prompt 社区! 上千条高质量提示词,按行业/场景直接分类: - AI Agents(目前我用的最多的让我直接起飞) - 商业分析、写作、代码、营销、图像生成…… 搜索关键词秒出最优模板,复制粘贴就能用! 特点: - 完全免费 + 开源 - 社区驱动,每天都有新神 prompt - 支持自建私有库(团队/隐私党福音) - GitHub 15.8万星,OpenAI、Hugging Face 大佬都点赞 再也不用自己瞎琢磨提示词了,效率直接拉满,强烈推荐呀

译Gemini 3.5 Flash实现了289 tokens/s的输出速度(约为GPT-4o的4倍),同时将幻觉率大幅降低31%,首次在速度、智能和可靠性上达成平衡。这标志着AI发展从单纯比拼模型“智商”的基准竞赛,转向追求“能用起来”的实用主义。高速与可靠性的结合,使得能够执行复杂多步任务的AI Agent从理论走向现实,可能重塑行业竞争格局,未来AI将如同基础设施一般无缝融入工作流。

meng shao@shao__meng · 5月21日65

在 Codex/Claude Code 等 Coding Agents 领域,文字是主要的输入输出方式;而在更广泛的通用 Agents 领域,特别是陪伴、实时交互等 Agents 方面,实时语音交互非常重要,语音的仿真生动程度、语音响应的及时性,这些都是 Voice Agent 在 LLM 基础之上要考虑的重点。 Voice Agent 的搭建过程,模型主要包括 ASR、VOD、TTS、LLM 等,而通信基础主要依靠 WebRTC 这个在直播和在线会议场景最通用的方案,前几天 OpenAI 也针对实时语音发布了 WebRTC 相关的技术方案。 在 WebRTC 领域,有一个非常常用的方案团队:Agora,他们也推出了 Agora Skills,让 AI Agent 可以快速安装和理解、使用。 今天咱们就看看基于 Codex 安装使用 Agora Skills 的完整过程。 首先是 Agora Skills 安装,我只需要告诉 Codex:“安装 Agora Skills:https://github.com/AgoraIO/skills”,1-2 分钟后 Codex 自动安装完成。 安装完成它向 Codex 展示 Skills 的主要内容,包括了 Agora 的 RTC、RTM、Conversational AI、CLI 等多个产品的直接集成。因为 Agora Skills 的使用涉及到 Agora Token 认证,在 CLI 中也可以快速完成登录和环境变量设置保存,在网页端登录一次后,就不需要再离开 Codex 了。 然后我让 Codex 帮我用 Agora Skills 写一个 Demo:用 Agora Skills 帮我搭一个浏览器里的 voice AI agent demo,从登录 Agora、创建项目到本地跑通,把关键log和性能数据展示出来。 也是完全 Codex 自动读取 Skills 后完整,我没有介入,说明 Skills 中各种能力的编排和集成做的还是很到位,也是2-3 分钟后,Demo 就写完并运行起来了。 这个 Demo 的功能主要是语音实时对话,从对话体感上看,很流畅,接近于人和人之间语音通话的响应延迟,语音包和 LLM 都可以切换,这里我只做了默认集成。 看几个关键数据: · 整个 RTC、RTM、Conversational AI 启动过程在2-3秒内,很快 · 从我说话结束,到 Voice Agent 首个语音包输出(我听到声音),1秒左右 如果你在做 Voice Agent 方面的探索,可以接入 Agora Skills 快速验证你的想法,让你的 Agent 能实时和你对话。抛砖几个场景,朋友们可以去尝试回来再交流:给 Agent 做一个会说话的陪伴形象、虚拟男女友、把声音和形象装进智能硬件。。 https://github.com/AgoraIO/skills

译实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。

Alibaba Cloud@alibaba_cloud · 5月21日31

Join us on May 26, 2026, at the Alibaba Cloud Claw Talks offline roadshow during Qwen Conference 2026, and discover the next wave of AI agent applications with us: https://click.qwencloud.com/m/20000000190/ Meet advanced AI Agents — QoderWork, JVS Claw, MuleRun, Quick BI, QwenPaw, and Accio Work — built to work, think, and scale with you. Explore how they power automation, analytics, and collaboration to drive the next wave of productivity innovation.

译诚邀您于2026年5月26日参加2026年Qwen大会期间的阿里云Claw Talks线下巡展,与我们一同探索下一波AI智能体应用浪潮:https://click.qwencloud.com/m/20000000190/ 认识先进的AI智能体——QoderWork、JVS Claw、MuleRun、Quick BI、QwenPaw和Accio Work——它们专为与您协同工作、思考和扩展而构建。探索它们如何赋能自动化、分析和协作,以推动下一波生产力创新。

向阳乔木@vista8 · 5月21日71

最近两天爆火的写论文Skill 看来太刚需了,没几天都1.6w Star了。 安装命令: /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills 开源地址:https://github.com/Imbad0202/academic-research-skills

Berryxia.AI@berryxia · 5月21日62

兄弟们,看来微软的Copilot 是真的自己都懒得用! 这不微软今天办了一场Claude 使用的的工作坊! 花半小时看完它,还是不错的! 高级开发者布道师Marlene Mangami直接拉着大家动手,用Foundry + Claude建了一个真实可用的AI Agent。 他们没讲空洞概念,而是用一家叫Sparkles的纸杯蛋糕店做案例: 顾客涌进来点单、选口味、生成客户ID、处理优惠券、准备取货……全流程让Agent自动接管。 从部署云模型,到接入MCP服务器连工具和数据源,再到给Agent赋予企业级安全和可观测性,一步一步教完。 现场还直接用Skillable环境让大家跟着敲代码,完成就送纸杯蛋糕。 AI Agent终于不是实验室玩具,而是开发者能快速从原型做到生产落地的真实工具。

译微软举办Claude使用工作坊,通过构建纸杯蛋糕店AI Agent的案例,演示了从部署云模型、接入MCP服务器连接工具与数据源,到赋予企业级安全与可观测性的完整流程。工作坊以实操为主,开发者可现场跟随编码,强调AI Agent已从概念验证进入快速生产落地的实用阶段,成为开发者能直接构建的业务工具。

swyx🛬 SFO@swyx · 5月21日14

TIL @balajis was a one man internal agi for @brian_armstrong before openclaw existed

译今天才知道,在OpenClaw出现之前,@balajis 曾是 @brian_armstrong 的个人内部AGI。

Artificial Analysis@ArtificialAnlys · 5月21日72

Cursor's new Composer 2.5 takes third on the Artificial Analysis Coding Agent Index and is ~10-60x lower cost than the higher-effort Opus 4.7 and GPT-5.5 variants above it. This release puts Composer among the leading coding agent models, something that wasn’t clear for past releases @cursor_ai has released Composer 2.5, the latest model in its Composer line. Composer 2.5 scored 62 on our Coding Agent Index, a 14 point gain over Composer 2 (48). This puts it in third place of our tested agents, behind only Claude Opus 4.7 (max) in Claude Code (66) and GPT-5.5 (xhigh reasoning) in Codex (65). These cost $4.10 and $4.82 per task respectively, ~10x the cost of Composer 2.5 Fast ($0.44) and ~60x the cost of Composer 2.5 standard ($0.07). Key results for Composer 2.5 in Cursor CLI: ➤ Cost-quality Pareto frontier: At $0.07 (standard) and $0.44 (Fast) per task, Composer 2.5 is cheaper than every other agent scoring above 60 on the Index. Medium-effort peers cost $1.24–$2.21 per task; higher-effort variants land 3-4 points above at $4.10–$4.82 ➤ Per-benchmark gains vs Composer 2: +35 points on SWE-Bench-Pro-Hard-AA (12% → 47%), +2 points on Terminal-Bench v2 (64% → 66%), and +3 points on SWE-Atlas-QnA (69% → 72%). At 47%, Composer 2.5's score on SWE-Bench-Pro-Hard-AA is comparable to Claude Opus 4.7 (max) in Claude Code ➤ Among the fastest coding agents: Composer 2.5 Fast runs at an average wall time of 6.7 minutes per task, the third-fastest agent on the Artificial Analysis Coding Agent Index, behind only Claude Opus 4.7 (medium) in Claude Code (5.8m) and GPT-5.5 (medium) in Cursor CLI (6.2m) ➤ Fast mode enables better responsiveness at 6x pricing: Fast runs 30% faster than standard Composer 2.5, but is ~6x the cost per task ($0.44 vs $0.07). Token pricing is 6x higher for Fast: $3.00/$15.00 vs $0.50/$2.50 per million input/output tokens Model details: ➤ Base model: Continued training on @Kimi_Moonshot's open weights Kimi K2.5 as with Composer 2, with Cursor reporting ~85% of total compute from its own additional training and reinforcement learning ➤ Pricing: $0.50/$2.50 per million input/output tokens for the standard variant; $3.00/$15.00 for the Fast variant (the default in Cursor) ➤ Available exclusively in Cursor: both Cursor IDE and Cursor CLI, an externally accessible API is not available Congratulations @cursor_ai and @mntruell on the impressive release!

译Cursor发布了其编程智能体模型Composer 2.5,在Artificial Analysis编程智能体指数中排名第三,仅次于Claude Opus 4.7和GPT-5.5。该模型的核心优势在于极高的性价比:其标准版任务成本仅为0.07美元,比顶级竞品便宜约60倍。性能方面,它在SWE-Bench-Pro-Hard-AA等基准测试上较前代有显著提升。模型基于月之暗面的Kimi K2.5开源权重进行训练,目前仅限在Cursor产品内使用,未提供独立API。

AYi@AYi_AInotes · 5月21日66

Damn,终于有人懂了 AI Agent的护城河根本不在模型上! xAI刚刚推送了Grok Build的更新,没有任何酷炫的新功能,全是bug修复和底层优化。 但就是这条平淡的更新日志,让我确定Grok Build已经走在了所有编码Agent的最前面。 这次更新最杀的几个点: 1. 修复了后台子代理静默失败的问题,这是所有AI Agent最致命的痛点 2. 终于支持macOS Intel和Windows ARM,老设备用户狂喜 3. 解决了CJK字符路径问题,中文用户再也不用被路径地狱折磨 4. 优化了上下文压缩,Agent能跑更久不崩 很多公司还在比谁的模型参数更大,谁能生成更花哨的demo。 xAI在默默填坑。 填那些看不见但会让你在生产环境崩溃的坑。 填那些别人觉得"不重要"但会劝退90%用户的坑。 决定胜负的从来都不是今天多了哪个酷炫功能, 而是昨天那些看不见的坑,有没有被填上。 #Grok #xAI #AIAgent

译xAI为Grok Build推送的更新看似平淡,无炫酷新功能,但专注于修复致命的“后台子代理静默失败”、支持更多平台及中文字符路径等基础问题。这体现了其工程优先策略,在竞争对手比拼模型参数与演示时,xAI默默填补那些会导致生产环境崩溃、劝退用户的“隐形坑”。这一系列底层优化与漏洞修复,正悄然构筑其编码Agent的长期护城河。

meng shao@shao__meng · 5月21日68

Forward Deployed Engineering (FDE) 是什么?为什么 OpenAI、Anthropic 等 AI 顶流都在力推 FDE,它会是下一个值得转型的职业吗? 为什么 AI 公司疯抢 FDE? @vasuman 这个判断很直接:如果智能本身正在被商品化,那么唯一的竞争优势就是"如何用、用在哪"。 模型能力会被 Anthropic、OpenAI 等拉平,套壳产品也会被复制。真正难复制的是——把 AI 嵌入到某家具体公司的具体业务流里。这件事没法用通用产品解决,只能派人去干。 所以 Applied AI 公司的商业模式是:把 FDE 派驻到客户现场,做"AI 转型外包",客户为效率提升付费。一个能独立完成"理解客户问题 → 写进陌生代码库 → 向非技术高管讲清商业价值"的人,vas 称之为 "million-dollar hire"。 角色的核心要求:必须 On-site! 这一点借用了 Palantir 的传统(FDE 的定义来源): · 2010 年 Palantir 的 FDE 跟着美军特种部队驻阿富汗,白天部队执行任务、晚上 FDE 改代码。 · Palantir CTO 的原话:"你无法为一个你不在其中的环境构建产品。" 迁移到 AI 场景的含义是:真正的效率提升需要"围绕 AI 重建公司",这不可能远程完成,必须坐在客户身边,基于公司专有数据和上下文构建定制 Agent。 FDE 的工作三阶段 1. Audit(审计 / 诊断):以原型 Demo 收尾 驻场轮岗各部门(例如 RevOps 两周、采购一周、财务一个月),目标是: · 摸清每个团队的工作流 · 找到瓶颈 · 判断哪些该自动化、哪些不该 三条"是否上 Agent"的判断原则,非常实用: · 规则可抽象,但输入形态多样(邮件 / PDF / 扫描件),且需要调工具?上 Agent! · 规则和输入都可预测?写普通代码,更快更便宜! · 需要模式识别 + 领域专家判断?保留人工! 另外两条经验法则: · 量要够大:一个月跑 5 次的流程,ROI 撑不起来。 · 别滥用 AI:大多数任务用"一串工具调用 + 一次 LLM 编排"就够了,过度用 AI 会带来 token 成本和质量下降。 2. Evals(评估) 客户砸百万美金做 AI 部署,必须有办法证明"它真的在工作"。好的 eval 不是只看最终答案对不对,而是验证 AI 是否像人一样思考。两个方法: · 拆解人的步骤逐步打分:人解决问题是多步的,把 checkpoint 列出来,看 AI 是否每一步都过关。 · 从黄金样本反向锚定:和资深员工一起把"完美答案"写出来 20 个,作为标尺度量所有产出。 Evals 的真正用途是让怀疑 AI 的高管敢签字——它是商业信任工具,不只是工程工具。 3. Deployment(部署) 几条非常反直觉但很务实的原则: · 不要做大规模数据迁移。在现有数据层(SharePoint、数据库)之上建 API,让模型作为 orchestrator 去查询。客户花了几年几百万上 ERP,不会让你再拆一次。 · 先搭沙箱执行环境,在客户基础设施里安全测试。 · 从最小自治单元起步,再逐步给权限。例:先让 Agent 只做"发现 bug → 调查 → 写工单",跑稳了再允许它"写代码 + 提 PR"。 如何在 30 天内成为 FDE?! vas 认为三类背景最容易切入:咨询顾问、PM、软件工程师。 咨询/PM 的短板:工程能力 解法是用作品集补齐。从下面四个项目里挑两个深做: · 一个能跑通你前公司某个完整流程的生产级 Agent(调 API、记录思考、有失败兜底)。 · 一个面向特定行业数据集(法律 / 医疗 / 财报)的 RAG pipeline。 · 一个自己写的 eval 框架,多维打分(正确性、格式、成本、延迟)。 · 一个把 LLM 接入到不支持 AI 的遗留系统的 MCP。 vas 强调:"Do not outsource your understanding to AI"——别让 AI 替你理解,否则面试一聊就穿。 SWE 的短板:沟通 工程师做同样的项目,但必须能把每个组件、技术选型、迭代过程、商业结果讲清楚,并能回答"你为什么解这个痛点、真实客户场景里会怎么走"。 30 天路线图(角色无关) Week 1:Agent loop 基础(读 Anthropic Building Effective Agents)、tool use、guardrails、context vs 外部记忆、audit trail Week 2:结构化输出(JSON)、Demo → Prod 常见坑、checkpoint 机制 Week 3:重试与指数退避、成本优化(小模型做小事 / 缓存 / token 上限)、构建 golden dataset、多 Agent 并行架构 Week 4:复盘 + 大声讲出来,把每件事绑到商业指标上

译Forward Deployed Engineering (FDE) 是AI公司派驻客户现场的工程师角色,核心是将AI能力嵌入企业具体业务流。随着模型能力趋同,真正优势在于“如何用”,而FDE正是解决AI落地“最后一公里”的关键。该角色借鉴Palantir传统,强调必须现场工作,围绕企业专有数据重建流程。其工作涵盖业务审计、效果评估(Evals)与务实部署三阶段。咨询、PM及软件工程师可通过30天路线图与作品集转型,但需弥补各自短板——工程能力或商业沟通能力。FDE被视作“百万美金级人才”,是AI时代高价值的职业新方向。

meng shao@shao__meng · 5月21日68

Chrome DevTools for Agents 1.0 正式发布 https://developer.chrome.com/blog/devtools-for-agents-v1 它在真实浏览器中观察行为、检查输出,让 Agent "能看见浏览器",有三种接入方式: 1. MCP server:将 LLM 连接到 DevTools 调试能力的标准协议 2. CLI:Token 更省的替代方案,支持 Agent 把动作打包成脚本批量执行 3. Agent skills:教 Agent 何时、如何调用具体工具的专家指令 (如无障碍、性能调试) 共开放了七个能力 1. 自动化质量审计:Agent 可直接跑 Lighthouse,覆盖无障碍、SEO、最佳实践、agentic browsing。可作为"质量门",拦截阻塞性问题进入生产。 2. 真实用户环境模拟:窗口尺寸、地理位置、网络/CPU 节流均可由 Agent 操控,无需手动调整浏览器即可测试响应式与移动端行为 (如汉堡菜单)。 3. Chrome 扩展开发与调试:安装、reload、触发扩展动作,介入 background script 与扩展页面,自动化"保存-刷新"循环。 4. WebMCP 工具调试:配合 WebMCP Origin Trial。让站点向 Agent 暴露结构化工具,Agent 不再靠 DOM 猜测意图,而是直接列出、调用、验证工具,显著降低集成门槛。 5. 内存泄漏检测:支持堆快照,识别 detached DOM 节点等典型泄漏。配合内存调试 skill,Agent 扮演性能专家角色。 6. Auto-connect 会话接管:可把当前已登录的浏览器上下文交给 Agent,而非让其打开沙箱实例。适合调试需要鉴权的页面 (如后台仪表板),省去重新登录。 7. 第三方开发者工具暴露内部状态:Web 应用可主动向 Agent 暴露内部状态与组件细节,使调试建议基于真实运行时数据,而非黑盒推断。

译Chrome DevTools for Agents 1.0 发布,旨在让 AI Agent 能在真实浏览器中“观察”并调试 Web 应用。该工具通过 MCP server、CLI 和 Agent skills 三种方式接入,提供了一系列核心能力。Agent 可执行自动化质量审计、模拟用户环境、调试 Chrome 扩展、接管已登录会话、检测内存泄漏,并能与 Web 应用暴露的内部状态深度集成。这显著提升了 Agent 在浏览器环境中的调试与测试能力,为自动化开发与运维提供了新的可能性。

宝玉@dotey · 5月21日74

http://x.com/i/article/2057247064115838976 # 来自 Codex 官方团队的分享:如何把 Codex 用到极致 作者:jason (@jxnlco) 原文: 大多数开发者刚接触代码编辑类的 AI 智能体 (AI Agent) 时,通常只让它们干一件事:写代码。比如让它检查一下代码库,生成个差异对比 (diff),跑跑测试,然后再提个合并请求 (pull request)。 写代码确实依然是 Codex 的核心强项。但仔细想想,我们在电脑上做的大部分工作,本质上其实都和代码息息相关:执行终端命令、浏览网页、调用应用程序接口、导出文档、响应各种事件,或者是触发自动化流程。当 Codex 开始延伸到这些领域时,它给人的感觉就不再只是一个狭义上的“编程助手”了,而是进化成了一个能帮你搞定各种电脑工作的“全能打工人”。 Codex 的新特性 让这种转变变得触手可及。现在的对话流 (thread) 可以记住你们的上下文、调用各种工具、展示生成的文件 (artifacts),还能在不同的提示词之间无缝衔接,再也不用每次聊完都“重新认识”一遍了。 想要彻底榨干 Codex 的潜能,你需要把下面这些绝招组合起来用: - 能够长期保存记忆的“持久对话流 (durable threads)” - 在你掌控全局时,灵活使用语音输入、任务干预 (steering) 和任务排队 (queuing) - 借助浏览器、电脑操控 (computer-use)、模型上下文协议服务器 (MCP servers, 一种让 AI 安全连接本地数据和工具的通用标准) 以及各类连接器,让 Codex 的手伸向代码库之外的地方 - 当你离开电脑时,利用对话流自动化 (thread automations) 和目标驱动 (Goals) 让它继续搬砖 - 熟练使用侧边栏 (side panel),随时审查它生成的代码、文档、幻灯片和其他文件 ## 持久对话流 (Durable threads) > 持久对话流:可以长时间运行的 Codex 对话流,能在你多次使用的过程中,始终为你保留工作上下文。 把对话流“置顶 (Pinned threads)”是让这些持久对话随叫随到的好办法。这对于那些需要反复推进的工作流来说简直是神器,比如: - 一个专属的“幕僚长”对话流(帮你处理日常杂务) - 一个专门负责产品发布的对话流 - 一个负责审查文档的对话流 - 一个专门盯着外部数据的监控对话流 它们不是那种聊完即焚的闲聊框,而是持久的工作空间。随着时间的推移,Codex 可以随时回到这些对话中,它会记得你之前做过的决定、你的个人偏好以及当前的进度。如果没有这个功能,你每次都得从零开始把这些背景信息重新喂给它。 置顶快捷键让这个操作变得极为实用。只要按下 Command-1 到 Command-9,你就能瞬间穿越回这些保存好的专属对话流里继续工作。 ## 语音输入 (Voice input) 语音输入之所以好用,是因为它能在你把想法字斟句酌地敲成文字之前,先把你脑子里最原始、最粗糙的念头捕捉下来。 Codex 内置了语音输入功能。这对于那些“嘴上说得清,打字嫌麻烦”的模糊想法特别管用。比如: > “我记得有个叫 Ben 的人在 Slack 上提过这事儿。 细节我忘了。 你去帮我找找看。” 对于一个会自己搜索、收集上下文并向你汇报的 AI 智能体来说,这几句话就足够它干活了。 当你脑子里有一个大概的想法,但还没完全成型时,花两三分钟对着它“碎碎念”,把思绪一股脑倒出来,效果也出奇的好。 录音转写也是同样的道理。一份未经修饰的会议记录,或者一段口述的计划草案,往往比一份简短的总结更有价值。因为那些粗糙的记录里,保留了你犹豫的语气、强调的重点,以及那些还没讲完的灵光一现。 ## 任务干预与排队 (Steering and queuing) 当你把语音输入和对运行中任务的直接控制结合起来时,它的威力才真正显现出来。 当一个任务正在执行时,如果你想 > 任务干预 (Steering):在当前任务还没完成时,中途打断 Codex 并给它指引新的方向。 当你发现 AI 跑偏了,需要在它撞南墙之前纠正它时,这个功能就派上用场了。比如,在让它审查网站时,你可以一边在侧边栏上指指点点,一边直接开口打断它的工作: - “把这个调小一点” - “这两个元素之间的间距看着不太对劲” - “这句文案写错了” > 任务排队 (Queuing):在 Codex 完成当前步骤后,给它安排接下来的活儿。 任务排队就不太一样了。它不会打断正在进行的任务,而是把新任务排在队伍后面。你可以这么跟它说: > “等这活儿干完之后,把预览链接发到 Slack 给审核人看看。” 简单来说,“干预”是改变 Codex 眼下正在做的事,而“排队”是安排它接下来要做的事。这两个功能都能让你在任务执行的过程中,始终保持一种“人机合一”的掌控感。 ## 工具与触达范围 (Tools and reach) 当一个对话流有了连续的记忆后,下一个问题就是:它能触碰到什么?Codex 的触角可以向外一层层延伸: - $browser 在侧边栏中运行的应用内浏览器,Codex 可以在这里审查网页并在上面做标记。 - @chrome 可以获取你浏览器的登录状态,用来处理那些基于 Chrome 的工作流。 - @computer 专治那些只能通过桌面图形界面 (GUI) 来完成的任务。 $browser 适合在侧边栏做网页审查;@chrome 适合那些需要你账号登录状态的浏览器内工作;而 @computer 则用来搞定那些只能在电脑桌面上点来点去的任务。 MCP 服务器和各类连接器把这种能力进一步延伸到了你的整个工作流中。Slack 集成、以及各种 MCP 工具连接器 和 MCP 指南 之所以重要,是因为很多关键任务在变成代码之前,最初往往只是一条聊天消息、一封收件箱里的邮件,或者一个日程安排问题。 技能 (Skills) 让那些重复的工作流可以被反复利用。一旦某个工作流被证明好用,你可以将它固化为技能,这样 Codex 下次就能直接跑通,而不需要从头开始重新学习这个流程。 ## 随时随地工作 (Work from anywhere) 随时随地与 Codex 协同工作 的理念,彻底打破了我们“必须坐在电脑前才能干活”的传统限制。一个任务可以在你装满文件、权限和本地环境的 Mac 电脑上启动,然后当你离开工位用手机查看时,它依然在默默推进。 这在很多碎片时间里非常有用。你可以让 Codex 在电脑上跑一个耗时很长的任务,然后自己离开工位去喝杯咖啡。如果在外面时它有问题问你,你可以直接用手机回复、批准它的下一步行动,或者在回座位前就给它指派新的方向。你的本地环境安安静静地待在那里干活,而你的人却可以自由移动。 ## 自动化 (Automations) 自动化功能 能让 Codex 按照你设定的时间表自动干活。如果是需要每天从零开始的任务,比如生成日报或者例行检查代码库,那就用“定时自动化 (scheduled automation)”。但如果需要在一个带有历史记忆的对话中继续推进工作,那就用“对话流自动化 (thread automation)”。 > 对话流自动化:就像一种定时唤醒的“心跳”机制,它会按照设定的时间表,定期回到同一个 Codex 对话流中继续工作。 把对话流置顶固然好用,但它毕竟还得等你主动回去找它。而“对话流自动化”则可以每隔几分钟或几小时自己去查岗,一直跑到满足某个条件为止,甚至还能根据情况自己调整查岗的频率。 比如,你的“幕僚长”对话流可以每 30 分钟跑一次: > 每 30 分钟,去查一下我的 Slack 和 Gmail 里有没有需要处理但还没回的消息。 帮我排个优先级。 如果有人向我提问,尽可能深入地去查资料,然后帮我起草一份回复,但不要直接发送。 当你回到电脑前时,那些最耗时耗力的“收集背景资料”的工作往往已经做完了。作为人类,你只需要做最后拍板发出去的决定。 对话流自动化也非常适合用来处理“反馈循环”。它可以默默盯着你在代码合并请求、Google 文档或是 Slack 里的评论,趁你不在的时候自动推进后续的修改工作。 想象一个制作动画的场景:审核人在 Slack 里发了一个视频。对话流自动化可以定时检查讨论进度,一旦有修改意见进来,它就自动渲染一版新的,然后在原贴里艾特审核人并回复新视频。如果某个软件的集成接口没法自动完成最终的上传,它甚至能调动“电脑桌面自动化”通过图形界面把最后一步走完。 这个完整的闭环跨越了接收反馈的 Slack、负责渲染的代码库,以及负责最终上传的桌面自动化工具。 ## 目标设定 (Goals) 当一个任务有一个清晰的终点线,并且 AI 智能体可以不断朝着那个终点努力时,目标 (Goals) 的威力就彻底爆发了。 > 目标:运行时间更长的 Codex 任务,有一个明确的终点线,AI 会在一段时间内持续向它冲刺。 一个糟糕的目标是这样定的: > 把这个 Markdown 文件里的计划实现一下。 一个优秀的目标必须有一个可以被衡量的成功标准。 比如,一位工程师想把一个内部工具从 Python 语言迁移到 Rust 语言,他可以建好新目录,设定好目标,并画一条明确的终点线: > 直到所有单元测试全部通过,这个新版本的开发才算完成。 目标设定,其实就是把“持续执行”和“验证器 (verifier)”结合在了一起。你作为人类来定义想要的结果、何时停止的条件,以及用来判断 Codex 有没有离终点更近的信号。 好用的验证器包括: - 一套完整的测试用例 - 一项基准性能测试 - 一个能稳定复现的 Bug - 一个验证矩阵 - 一个必须始终跑通的端到端工作流 有野心固然重要,但没有验证机制的野心,就只是在许愿而已。 ## 侧边栏 (The side panel) 侧边栏功能 让你生成的工作成果始终和你们的聊天窗口并排在一起。你再也不用把文件导出来,然后痛苦地在不同软件之间切来切去了,直接在原位就能审查。生成的成果可能是代码,但也可能是幻灯片、PDF 文件、网页、表格,或者任何其他生成的东西。 它特别擅长处理四种工作: 1. 检查生成文件 (artifacts) 1. 标注需要修改的地方 1. 操作网页界面 1. 审查代码或文件的变更 侧边栏允许用户直接原地查看 Markdown 文档、电子表格、数据表、普通文档和幻灯片。你可以不打断现有的工作流,直接检查、做标记、修改文件。 你的幻灯片或 PDF 就乖乖敞开在对话框旁边,随时等你检阅和修改。 应用内浏览器 让 Codex 能够直接检查渲染好的网页,控制它,甚至直接响应你在网页上做的标注。对网页或文件的评论全部留在这个工作闭环里,再也不用像以前那样把它拆分成一个个单独的交接任务了。 网页既变成了它的输出结果,也变成了你可以操控的控制面板。Codex 可以建好一个页面,在侧边栏打开它,自己检查它,修 Bug,然后原地不断迭代优化同一个东西。 下面这些场景配合侧边栏尤其好用: - 用单个 index.html 来做轻量级的静态展示 - 跑 Storybook 来审查用户界面 (UI) 组件 - 用 Remotion Studio 搞代码生成的动画 - 在浏览器里放映的幻灯片演示 - 用于数据分析流的数据应用 (data apps) 一个简简单单的 index.html 文件就能变成一个好玩的交互式小应用,连服务器都不用搭。而且,对话流自动化还能随着时间推移悄悄更新这些静态文件,这样等你回来时,总能看到最新的进展等着你。 ## 共享记忆 (Shared memory) 当那些长时间运行的对话流能够打破单次聊天的界限,把记忆共享出去时,它们的作用将发生质的飞跃。 > 共享记忆 (Shared memory):存储在单一对话之外的持久上下文,它可以让未来的工作能够基于一些明确的、可追溯的信息继续推进。 一个相对稳妥的做法是,把这些持久的对话流“锚定”在一个 Obsidian 知识库 (vault) 里。说白了,就是建一个存放纯文本文件的文件夹。它简单直白,方便你随时查看、修改、移动,而且能保存很久。团队可以把这个文件夹放在任何你们喜欢的云盘里,比如 Git、Dropbox、Google Drive 或是其他的同步工具中。 你的知识库可能长这样: > [text] vault/ ├── TODO.md ├── people/ ├── projects/ ├── agent/ └── notes/ 在最外层目录下,你可以放一个 AGENTS.md 文件。在这里,你可以给 Codex 定规矩:当它了解到关于人员、项目、决策以及待办事项的新情况时,应该如何更新这个知识库。 别死板地照抄某一种知识库结构。你需要做的是“教”你的 AI 智能体:那些持久的上下文该放在哪,哪些上下文需要保留,以及什么时候不要瞎折腾去改文件。 一份实用的 AGENTS.md 指南里可以这么写: - 把 ~/vault 当作你长期的工作记忆区。 - 尽量把笔记整理得有条理,别搞得到处都是碎片记录。 - 准确地把待办事项、人员、项目、每日总结和草稿分类放好。 - 把做过的决定、遇到的卡点、负责人、日期和有用的链接好好保存下来。 - 如果没有什么实质性的新进展,不要随意修改知识库里的文件。 代码库是用来存代码的。而这个知识库,是用来存不断滚动的上下文的:牵涉到哪些人、改了什么、卡在哪里、接下来谁跟进,以及那些如果在两次聊天中间断掉就会彻底消失的细节。 重要的上下文绝不应该仅仅锁死在某一次聊天的文字记录里。把它们写下来,放在下一个对话流能够立刻接手的地方。 Codex 自己也在 设置 > 个性化 > 记忆 中提供官方的 记忆功能。它们就像是系统自带的本地记事本,用来记住你的个人偏好、常用的工作流以及一些经常踩的坑。不过,这个功能是用来辅助你清晰写下来的上下文的,而不是取代它。Chronicle 记忆组件 也是同样的思路,它能帮 Codex 从你最近屏幕上发生的事情中提取并构建记忆。 ## 从代码向外延伸 (From code outward) Codex 虽然还是以写代码为本行起家,但现在,围绕代码的诸多周边工作,都能在这个同一套系统里搞定了:无论是 MCP 服务器、网页界面、电脑桌面控制、对话流自动化,还是那些可以在侧边栏直接审查的文件。 这彻底改变了我们控制它的方式。“任务干预”可以在中途打断它的动作;“任务排队”可以帮它安排好下一步;“对话流自动化”能让你人不在场时系统依然运转;而“目标设定”则给它画了一条清晰的终点线,让 Codex 知道要一直往哪里冲。 如今的 Codex 已经可以扛起一个完整的工作流:从听取指令、执行任务,一直到最终文件的审查。哪怕这些工作早已经超出了代码库的范畴,它也依然游刃有余。

译Codex已从单纯的代码生成工具,进化为能处理各类电脑任务的“全能打工人”。其核心在于利用持久对话流实现长期记忆,并能调用浏览器、电脑操控等工具,打破工作流限制。通过自动化与目标设定,Codex可离线持续工作,大幅提升生产力。

宝玉@dotey · 5月21日68

Codex 使用技巧:Steer 和 Queue 通常 Agent 执行一个任务不会马上结束,可能会要等几分钟甚至更久,如果这时候你有个新的要求想补充,这里有两种方式补充:Steer(任务干预) 和 Queue(排队)。 > Steer(快捷键:Shift + Enter):在当前任务还没完成时,中途打断 Codex 并给它指引新的方向。 这个功能相当于你按停止,输入新指令然后再让 Agent 继续。但不需要你去手动停止再让它继续,只要输入指令,按 Shift + 回车,或者先回车,在点击“Steer”按钮就可以发送。Agent 会在下一轮工具调用间隙直接添加新的指令到上下文。 > Queue(快捷键:Enter):在 Codex 完成当前步骤后,给它安排接下来的活儿。 任务排队就不太一样了。它不会打断正在进行的任务,而是把新任务排在队伍后面。而且你提交多条信息,它在任务结束后,不会一次性把你队列的消息执行,而是执行一条,完成这一条对应的任务后,继续下一条。 所以有时候我睡觉前,会在一个长任务后面加上几个 “Continue” 消息到队列,让它尽可能多跑一会,免得中间就停止了。 简单来说,“Steer”是改变 Codex 眼下正在做的事,而“Queue”是安排它接下来要做的事。

译本文介绍了在 Codex Agent 执行任务时补充新要求的两种核心操作:Steer 与 Queue。Steer 通过快捷键 Shift+Enter 在任务进行中直接插入新指令,改变 Agent 当前的工作方向;Queue 则通过 Enter 键在当前任务完成后添加新任务,并按顺序逐一执行,适用于安排后续步骤。两者本质区别在于 Steer 干预当下执行,Queue 规划未来任务。此外,用户可通过队列添加多个“Continue”指令,实现任务持续运行,适用于需要无人值守的场景。

Google AI Developers@googleaidevs · 5月21日59

Using the new Managed Agents in the Gemini API, @RampLabs built their advanced finance agents without touching the backend infrastructure. Learn more ↓

译通过使用Gemini API中的新托管代理功能,@RampLabs构建了他们的高级财务代理,无需接触后端基础设施。 了解更多 ↓

Google AI Developers@googleaidevs · 5月21日74

🪡 @stitchbygoogle is your agentic AI design partner. Move from an idea to a live mobile and web app UI in a single flow. Here’s what’s new for builders… 𓏵 Design with Stitch more naturally and intuitively. Stitch now streams the design build live so you can make edits, give interactive feedback, and watch the layout update in real-time without losing your flow. 𓏵 Skip the blank canvas and start from existing files. Import your codebase or Design.md directly, and let Stitch build from your actual production components so everything stays on brand. 𓏵 Start designing in motion. Stitch can now generate dynamic, moving interfaces so you get a kinetic UI that actually looks, feels, and functions like a finished product. 𓏵 Take designs directly to production. Skip complex deployment pipelines and export your projects to a live, shareable URL. These updates to Stitch are a step up for prototyping and deployment. Available globally today: http://stitch.withgoogle.com

译Google推出了其AI设计伙伴Stitch的多项重要更新。新功能支持实时流式构建设计,允许用户在不中断流程的情况下直接进行编辑和互动反馈。Stitch现已能够导入现有代码库或Design.md文件,基于实际生产组件进行设计以保持品牌一致性。同时,工具新增了动态界面生成功能,并可将设计项目直接导出为可分享的线上URL,简化了从原型到生产的部署流程。该工具现已面向全球用户开放。

Orange AI@oran_ge · 5月21日30

Cursor 的 Composer 2.5 大家用的体感如何? 在他们内部的指标上,性价比是爆棚的。

swyx🛬 SFO@swyx · 5月21日63

btw we did a bake off of Exa vs competitors and it took all of 1.5 hrs for the team to unanimously converge on exa lol. so proud to see my former landlords crush it - time travel back to last year and listen to a pre pmf @WilliamBryk to understand how to spot companies on a generational tear

译Exa完成2.5亿美元融资,估值达22亿美元,由a16z领投。该公司致力于为AI智能体优化搜索,服务超5000家公司和50万开发者。其在代码、公司等多个垂直领域搜索效果顶尖,能减少90%返回文本且几乎不影响RAG质量,并构建性价比最优的网页智能体。创始人强调搜索创新对对抗虚假信息至关重要,此轮融资将用于改善社会信息环境。推文作者团队在快速对比测试后,一致认可Exa的领先优势。

Google AI Developers@googleaidevs · 5月21日71

Build with Gemini to change the world 🌍 We’re launching a global hackathon with @xprize to solve real-world challenges with our new agentic tools. Join here: https://www.geminixprize.com/

译用Gemini构建,改变世界🌍 我们正与@xprize合作,发起一场全球黑客松,旨在利用我们全新的智能体工具解决现实世界的挑战。 点击加入:https://www.geminixprize.com/

Google AI@GoogleAI · 5月21日69

We partnered with artists, designers, and builders to create new AI tools that solve real problems in their creative workflows. Here’s what’s new: — Introducing Google Pics in @GoogleWorkspace: A brand-new image creation & editing tool. Move and resize objects, add text, and translate just by hovering and clicking — Big updates to @GoogleFlow: 1) You can now create with Gemini Omni Flash in Google Flow 2) Google Flow Agent is a multi-step creative partner that reasons and plans complex tasks with you. 3) Google Flow tools are custom tools you can “vibe code” for animations, video effects, text layering & more — Design live with @StitchbyGoogle: Now, you can use text or voice prompts to edit layouts in real time then export those designs straight to code — More creative control in @GoogleFlowMusic: Edit songs section by section, remix the style of full songs, and create music videos with our new Gemini Omni Flash model

译谷歌与创作者合作推出系列AI工具更新。Google Workspace新增图像创作编辑工具Pics;Google Flow支持Gemini Omni Flash模型,并推出Flow Agent作为多步骤创作伙伴;设计工具StitchbyGoogle支持实时文字或语音编辑布局并导出代码;音乐工具Google FlowMusic增加分段编辑、风格混音及视频生成功能。

向阳乔木@vista8 · 5月21日75

这个项目牛逼啊,增强(Hack)你的 Codex App。 即使你用API 登录Codex,也可以通过安装插件方式用上 Computer Use、添加上Goal指令。 界面样式也能调整,比如变成类似Chrome的顶部Tab。 设置任务开始、完成的声音提醒等等。 开源项目地址见评论区

译一个开源项目允许用户增强Codex App的功能。即使通过API登录,也能通过安装插件的方式启用Computer Use特性并添加Goal指令。项目还支持界面自定义,例如调整为类似Chrome浏览器的顶部Tab样式,并可设置任务开始和完成的提醒音效。相关开源项目地址已在评论区提供。

swyx🛬 SFO@swyx · 5月20日60

very belated but in retrospect i think @sama's mythical "build a business that gets better when models get better" is basically what I called Agent Labs here. seeing a very direct correlation with model performance and agent lab revenue, discontinuity in Q4 2025 (clip from @patrickc's stripe sessions)

译虽然迟了很久,但现在回想起来,我认为@sama那句富有传奇色彩的“构建一个随模型进步而变得更好的业务”,基本上就是我在这里所说的Agent Labs。 看到模型性能与Agent Labs收入之间存在非常直接的关联,在2025年第四季度出现断层。 (摘自@patrickc的Stripe Sessions)

🚨 AI News | TestingCatalog@testingcatalog · 5月20日65

ICYMI 👀: Google AI Studio got a new "antigravity-preview-05-2026" Agent! > A general-purpose autonomous agent running in a remote, Google-hosted Linux environment. > This agent can execute code, take real actions, and use a large number of tokens.

译错过速看👀:Google AI Studio 新增“antigravity-preview-05-2026”代理! > 一个在远程Google托管Linux环境中运行的通用自主代理。 > 该代理可执行代码、执行实际操作,并使用大量token。

凡人小北@frxiaobei · 5月20日51

DeepSeek 招聘,帮转,有志青年可以看看。

译DeepSeek 发布招聘信息,计划在北京组建新团队开发 Code Harness 项目(可能称为 DeepSeek Code)。团队将负责从零开始构建该工具,招聘职位包括 Harness Product Manager 和 Harness R&D Engineer,分别侧重于产品管理和研发工作,强调研究与产品的结合。此次招聘面向有志于AI技术领域的青年人才,工作地点位于北京。

elvis@omarsar0 · 5月20日73

Self-improving AI is a big deal! As a first step, I've been exploring how much of the post-training can be automated. Here is a first post on how I am using @FireworksAI_HQ Agent to automate LLM fine-tuning itself. Dataset + Skill file included. For the use case, I took inspiration from @karpathy's tweet on LLM Knowledge Bases. I asked Claude Code to interact with Fireworks Agent to fine-tune a small Qwen model to get the right output style to efficiently keep growing my PaperWiki (https://x.com/omarsar0/status/2042286186920550498?s=20). All done via natural language. This is obviously the future of improving AI systems. The next step with the PaperWiki project is how to tune a model to better "know" the data. Harder to do, but if possible, then we have an incredibly powerful system that can recursively self-improve and can be extremely useful for things like knowledge discovery and automating all kinds of research end-to-end. More on this soon. Thanks to the Fireworks team for allowing me to test this early. Super excited about this.

译作者探索利用Fireworks AI Agent,通过自然语言交互自动化完成大语言模型的微调流程。他以Qwen小模型为例,调整其输出风格以优化PaperWiki项目的扩展效率。这一方法灵感源于@karpathy关于LLM知识库的推文,强调微调是让模型更“懂”数据的关键步骤。核心观点是自动化微调可推动构建可递归自我改进的AI系统,最终目标是打造一个能自我优化、用于知识发现和端到端自动化研究的强大工具。

elvis@omarsar0 · 5月20日74

http://x.com/i/article/2056851733582880768 # Automating LLM Fine-Tuning with Fireworks Agent ## From Context Window to Weights Andrej Karpathy (@karpathy) recently described the personal LLM Wiki as a kind of pre-AGI memory aid, a curated repo of notes about papers, tools, and ideas you read into context when you want a model to reason over them. In his viral post, Karpathy flagged the obvious next move: "As the repo grows, the natural desire is to also think about synthetic data generation + finetuning to have your LLM 'know' the data in its weights instead of just context windows." Building LLM Knowledge Bases or LLM Wikis is already possible with agents like Claude Code or Codex, but this approach can quickly get inefficient and expensive as you try to scale them. Fine-tuning LLMs to maintain your knowledge bases is often a more efficient path forward. This post takes that next step by putting the wiki's output style into the weights. In under ten minutes of GPU time and a couple of cents of compute, a small open-weight model writes summaries of new papers in the exact format the wiki uses, with no system-prompt gymnastics, no few-shot exemplars, and no router logic. Once deployed, the summary comes back in a single fast call, fast enough to use inline inside a larger agent loop rather than as a batch job. The harder version (parametric knowledge injection of the wiki's contents) is the natural follow-up to Karpathy's framing, and I treat it as future work at the end. The interesting part is not the model itself, but that one @FireworksAI_HQ Agent session did the entire pipeline (dataset inspection, hyperparameter sweep, full training, deployment, and a working inference endpoint). Fireworks Agent is the autonomous orchestration layer for fine-tuning runs, where you give it a natural-language goal, and it plans, executes, and surfaces decision gates back to you. The whole flow can be driven from a coding agent you already use (Claude Code, Codex, or similar), which is how I ran it. The bigger picture this points to is self-improving LLMs and agents. Once training is a callable step inside an agent loop, the same coding agent that drives your workflow can also kick off fine-tuning runs to bake recurring patterns (a wiki's voice, a coding style, a triage policy) into the model itself, closing the loop between using a model and improving it. The rest of this post is the full walkthrough. All resources from this run are available in a companion repo, including the training and validation splits (train.jsonl, val.jsonl, wiki-sft-2026.jsonl), the data-build scripts (parse_2026.py, fetch_abstracts.py, build_jsonl.py), the pilot-agent.md slash command, the smoke-test script (test_new_deployment.py), and the baseline-vs-fine-tuned comparison code (before_after.py). Grab it at github.com/dair-ai/wiki-sft, clone it, point it at your own corpus, and reproduce the run end to end. ## Why Output Style Is the Right First SFT Target For a personal wiki, the high-leverage thing is consistency. Readers recognize a summary by its shape, which is a one-paragraph lede that names the authors' affiliation and the core contribution, followed by three to five bulleted takeaways with bolded short labels. A capable base model can be coaxed into this format with a careful system prompt, but the failure modes are familiar. It reverts to title-case headers, drops the affiliation line, varies bullet count, and sneaks in marketing language. Supervised fine-tuning (SFT) fixes this at the parameter level. Once the format is in the weights, every generation conforms by default, and the system prompt collapses to a single sentence (or drops out entirely). The cost stays small when the dataset stays small, and a clean stylistic dataset of 50 to 100 examples is usually enough to get started. ## Handing the Work to an Agent Most fine-tuning tutorials walk you through ten distinct steps. You format your data, upload it, choose a base model, decide on LoRA rank and learning rate, launch a job, parse logs, pick a winner, retrain on full data, deploy, and smoke test. Each step is its own surface to mess up, and you end up playing the role of a tuning agent yourself. Fireworks Agent inverts this. The interface is firectl session create -n "<your instruction>", where firectl is the Fireworks CLI. After that, you watch events stream and respond to gates when the agent surfaces a decision, such as the proposed plan or the hyperparameter (HP) sweep results. Fireworks also ships a Claude Code slash command (or you can format it as an agent skill), pilot-agent.md (previously known as Pilot Agent), that wraps the firectl commands and handles event streaming, gate detection, and resume-from-last-timestamp logic. ## Full Walkthrough Step 0: Setup Install the Fireworks CLI and confirm your account. In the Fireworks dashboard, create a service account that has the permissions Training Agent needs (the role that lets it launch training jobs and deployments on your behalf), then generate an API key tied to that service account. Also, create a separate user-level API key for inference and deployment inspection. Drop both into a .env file next to the project. Step 1: Build the Dataset The training data I use consists of chat-format records derived from the DAIR.AI Top AI Papers of the Week wiki, drawn from the top 5 papers per week in 2026 and paired with their arXiv abstracts. Three small Python scripts handle the pipeline, namely parse_2026.py (wiki to structured entries), fetch_abstracts.py (arXiv abstract lookup), and build_jsonl.py (chat-format assembly). The chat schema is the standard Fireworks shape: The final outputs are train.jsonl and val.jsonl (plus the combined wiki-sft-2026.jsonl for reference), with about 90 percent of records reserved for training and 10 percent for validation. Step 2: Upload the Dataset to Fireworks Confirm the dataset is `READY`: The dataset path you will pass to the Fireworks Agent looks like accounts/<your-account>/datasets/wiki-sft-2026. Step 3: Kick Off the Fireworks Agent This is the entire user-facing config for the run, just one instruction. The session returns an ID like 1777224532-7ddb. Stream the events: The --wait flag is important; without it, the command dumps existing events and exits. The Claude Code slash command handles this for you. Step 4: Approve the Plan and Promote the Winner The agent surfaces two gates. The first is a plan with a cost estimate and three HP configs to sweep in parallel, with validation loss as the evaluator, which you approve to resume streaming. The HP sweep then runs three SFT jobs in parallel and returns a ranked table, after which the agent surfaces a second gate with the winning config. In my run, the top three configs landed very close to each other on eval loss, which tells you the task is not particularly HP-sensitive at this dataset size, so approving full training is the obvious next step. Full training takes about eight minutes of GPU time and costs a few cents. Step 5: Verify the Deployment Deployment is where ad-hoc fine-tuning workflows usually go sideways, picking the wrong accelerator, missing a compatible shape, or stalling on capacity. The agent handles the recovery itself, so the session lands at status succeeded with a READY scale-to-zero deployment. Confirm the deployment with the following command: Step 6: Call the Model Inference uses the standard Fireworks chat completions endpoint, with a deployment-pinned model ID so requests route to your custom deployment: Once warm, calls return fast enough to use as an inline step inside an agent rather than a batch job. ## Why This Workflow Pays Off I tested the fine-tuned model on a few papers that sit outside the training set, sending the same system prompt and abstract to both the baseline qwen3-8b and the fine-tuned model. The fine-tuned model produces affiliation-led ledes that name the researchers' lab, followed by three to five bullets with bolded short-label prefixes (Method:, Performance Gains:, Scalability:), and an analytical, non-promotional tone. For instance, on Chain-of-Thought, it opened with "Researchers at Stanford University demonstrate that chain-of-thought prompting significantly enhances large language models' reasoning capabilities..." That is the wiki's voice, baked into the weights and produced in a single fast call. The practical payoff is that you no longer need a large, inefficient LLM or agent to write the summaries for your LLM Wiki. A smaller fine-tuned model can do it effectively, efficiently, and cheaply. Getting the style and tone right matters for this use case, and no amount of tuning a skill or system prompt can replace what a properly fine-tuned LLM gives you. Two more things make this useful beyond a one-off experiment. First, training becomes a tool, not a project, with one CLI command, cents of compute, and a real callable endpoint at the end, while the agent handles the boring failure modes. Second, you own the resulting model. The weights live in your account, deployed on infrastructure you control, and the idle cost is zero. At this price and friction, reaching for SFT becomes a reasonable answer to a much wider set of style and format problems. ## What's Next, Knowledge in the Weights I intentionally stopped at style transfer because it is the cleanest first SFT target on a small dataset. The harder version Karpathy described (your wiki's contents in the weights) is the natural follow-up, with synthetic data generation, more training records, and knowledge-recall evaluators in the loop. The pattern generalizes beyond a personal papers wiki. Any structured knowledge surface (an internal docs wiki, a product manual, a research vault) is a candidate for the same two-step recipe, where you SFT on style first and layer knowledge injection on top. A model that has internalized both the voice and the substance of a corpus is what makes a personalized agent on top of it genuinely useful. Fireworks Agent is currently in private preview and will be generally available soon. If you are thinking about applying this workflow to your own corpus and want to request access or talk it through with the Fireworks team, reach out at fireworks.ai/contact-training.

译本文探讨了通过微调,将个人知识库(如LLM Wiki)的内容从依赖上下文窗口,转变为固化到模型自身权重中的方法。关键在于利用如Fireworks Agent这样的自主AI代理,仅需提供自然语言目标,它就能自动完成从数据准备、训练到部署的完整微调流程。这标志着模型自我改进的闭环成为可能:当训练成为AI工作流中一个可调用的步骤时,模型能主动将反复使用的模式(如特定写作风格或决策逻辑)学习并内化到权重中,从而实现使用与优化的持续迭代。

elvis@omarsar0 · 5月20日59

I highly recommend this. The Agentic Review is a new podcast from @QodoAI hosted by Itamar Friedman and Nnenna Ndukwe, and it's a great AI coding show that's neither hype nor doom. It's honest conversations about what shipping high-quality AI-generated code actually looks like. We need more of these conversations around AI agents. As an AI engineer, I think about this stuff constantly. A few things make this show worth your time: * It's a conversation about what good code means in the era of coding agents. * The hosts actually push back at guests instead of doing softball interviews. * The current guest lineup is strong: @dexhorthy, @shanselman, and @fullstackpython. I work a lot on context engineering, so the Dexter Horthy episode resonates the most for me. His take on context engineering as one of the biggest moats right now matches exactly what I'm seeing in production. He talks about a five-month experiment where his team stopped reading the code, then ripped it all out and rebuilt it by hand. That lesson about owning your context and actually reading what your agents produce is something every AI engineer needs to understand today. The bigger thesis across episodes: typing code may be dying, but the SDLC, code review, and craft matter more than ever. AI sprinkled on a broken software lifecycle is "a band-aid on cancer" (Hanselman's line, and it stuck with me). Thanks, @QodoAI, for the partnership on this post.

译推荐QodoAI出品的播客《Agentic Review》,该节目以平衡的视角探讨AI代码生成的真实场景。通过主持人与Dexter Horthy、Scott Hanselman等嘉宾的深度对话,节目强调了上下文工程作为关键技术壁垒的重要性,并指出AI无法弥补破碎的开发流程,反而更凸显了代码审查与工程技艺的持续价值。核心观点认为,尽管编码方式可能变革,但软件开发生命周期的本质与严谨性将更加重要。节目避免了过度炒作或悲观论调,为AI工程师提供了有价值的实践参考。

宝玉@dotey · 5月20日44

终于有个不用侧边栏的 Agent App 设计,但是像浏览器一样顶部 Tab 的体验是否好还不好说。 有个问题就是内存占用必然会更厉害,因为侧边栏切换,默认全局只有一个对话打开,切换了之前的就可以销毁了。顶部 Tab 切换,默认对话都要会保留状态,这样会话一多内存就会占用厉害。

宝玉@dotey · 5月20日65

DeepSeek 招做 Agent 的产品经理和研发

译DeepSeek正在招聘Agent方向的产品经理和研发工程师,并为此组建了新的Harness团队。该团队目标是构建名为Code Harness(或类似产品)的代码相关AI工具,招聘地点位于北京。这标志着DeepSeek正投入资源开发AI Agent及开发者工具。

凡人小北@frxiaobei · 5月20日60

阿里云上了个千问云,把云上一百多个产品全改造了一遍,存储、数据库、运维这些老牌产品线,都有能自己干活的 Agent。 以后云卖的就是劳动力。按 Agent 干了多少活收钱。 千问云可能要变成 Agent 的虚拟办公园区了,这比最近网上看到的一堆空置人工智能园区靠谱多了。

译阿里云通过千问云平台,将旗下一百余个云服务产品(如存储、数据库、运维)全面改造并接入AI Agent能力,使其具备自主执行任务的功能。这标志着云服务商业模式可能转向“按Agent工作量计费”。千问云未来有望演变为一个“Agent虚拟办公园区”,被视为比近期涌现的人工智能实体园区更具可行性的落地路径。

meng shao@shao__meng · 5月20日49

最近面试过程中,用 AI 辅助的候选人,明显多起来了 😄 不太清楚他们用的是什么 AI Agent,不过整体效果都不太好,主要体现是上下文不太对,说的答案都偏泛泛,没有针对性。 比如简历中提到在项目中负责记忆系统,我觉得这部分挺重要的,就想深入探讨一下做记忆系统时遇到的问题,结果候选人等了大概 3-5 秒(应该是 Agent Thinking...)后,开始从记忆系统的基本概念介绍给我复述了,当时好想打断他,告诉他前面这段不用念,跳过 😂 其实我倒也不排除你用 AI 辅助面试,如果问到一些基本概念、原理啥的,让 AI 来回答也没什么,反正随时都能查得到;但真的涉及到工程中遇到的问题,特别是坑,AI 是回答不上来的,因为你没有把工程中的实际问题输入给它,或者说,你没有经历过这些坑。 那我只能认为,如果你过来,这些坑会在我这挖。。

译面试中AI辅助效果不佳,回答泛泛缺乏针对性。深入项目经验时,AI只复述概念,不分享实际工程问题。面试官指出,AI能应对概念提问,但实战经验如工程“坑”无法替代,候选人需依赖真实能力。

🚨 AI News | TestingCatalog@testingcatalog · 5月20日69

ICYMI 👀: SuperGrok and X Premium subscriptions can now be used with OpenClaw! &gt; If you already have a Grok or X Premium subscription, you can now use Grok models inside OpenClaw. Connecting Grok to your OpenClaw agent is available on every tier.

译ICYMI 👀: SuperGrok和X Premium订阅现在可用于OpenClaw! &gt; 如果您已有Grok或X Premium订阅,现在可以在OpenClaw中使用Grok模型。将Grok连接到您的OpenClaw代理功能现已向所有订阅层级开放。

Berryxia.AI@berryxia · 5月20日40

兄弟们,Claude Code直接把营销自动化干到“疯狂”级别了。 Gaurav 今天推出来的Fastlane,只需要一个prompt,就能完成全套操作: 自动部署社交媒体账号、生成病毒式内容、定时发布、甚至持续优化和刷算法。 以前营销团队要花几天甚至几周才能做完的事,现在AI在聊天框里全给你干了。 这已经不是“帮你写文案”或者“帮你排期”那么简单。 Fastlane的agent是真的在替你干活——建号、暖号、产出内容、投放到平台,还能从互动数据里持续学习。 AI Agent不再是玩具,它已经开始把整个营销部门的工作流全部吞掉了。 想试的直接点这里免费体验:https://www.usefastlane.ai

译Gaurav发布的Fastlane工具,基于Claude Code实现营销自动化革命。仅需单一指令,即可自动完成社交媒体账号部署、病毒式内容生成、定时发布及算法优化等全链路操作,将传统团队需数日完成的工作压缩至瞬时。该工具突破传统AI文案辅助层面,实现了从建号、运营到数据反馈学习的完整闭环执行,标志着AI Agent正深度整合并重构营销部门的工作流程。

凡人小北@frxiaobei · 5月20日34

在大健康行业摸爬滚打过的都懂:医疗 AI 的胜负手从来不是谁更会聊,而是医生敢不敢信。 复杂病例答得再漂亮,你追一句“这结论哪儿来的”它就卡壳,在临床上,这就是零分。 这也是我想推荐下“证元芳”的原因(我司产品),作为一款循证医学智能体,刚成了国内首个、也是目前唯一通过信通院 MedClaw 评测的医疗 AI,循证问答、证据溯源、复杂病例分析等 13 项,全过。 证元芳走的是 OpenEvidence 那一挂,每个结论都能溯源、能被你追问。这正是我一直念叨的,可信、可追溯,才是严肃行业愿意用 AI 的底线。 通用大模型在临床上常常只有 60 分,恰恰是这种地方,循证垂类的价值大到离谱。 它还做了个 MedClaw Skills Store,2000+ 个专科技能,从临床诊疗到影像、检验、病历,这些,把医疗专业能力拆成了可复用的能力块。 所以这条是个邀请,医生 / 医学从业者:进群体验,拿你手头的疑难病例去考它,好不好用你说了算。 想做商务 / 渠道 / API 对接的:群里直接找我们对接。 元芳你怎么看?扫码进群,进来自己问。

译该文指出,医疗AI成功的关键在于获得医生信任,而通用大模型因无法溯源结论,在临床上表现不佳。作者推荐其产品“证元芳”,这是一款循证医学智能体,声称是国内首个且唯一通过信通院MedClaw评测的医疗AI,在循证问答、证据溯源等13项评测中全部通过。该产品强调每个结论都能被追溯和追问,体现了“可信、可追溯”的应用底线。其MedClaw Skills Store还提供2000多个专科技能模块,旨在将专业医疗能力拆解为可复用组件。

Alibaba Cloud@alibaba_cloud · 5月20日65

Transform Agents into autonomous workers! 🚀 ❌ Open-source pain points: Low availability, high ops cost & poor observability. ✅ MSE AI Scheduler solves this with: • High-availability distributed scheduling • Unified management & fine-grained permissions • Elastic scaling to cut costs • Full-link observability Supports OpenClaw, Dify & more. Free public beta now open! 🔗 https://int.alibabacloud.com/m/1000413115/ #AI #Agent #MSE

译将Agent转变为自主工作者!🚀 ❌ 开源痛点:可用性低、运维成本高、可观测性差。 ✅ MSE AI调度器通过以下方式解决: • 高可用分布式调度 • 统一管理与细粒度权限 • 弹性伸缩以降低成本 • 全链路可观测性 支持OpenClaw、Dify等。免费公测现已开放! 🔗 https://int.alibabacloud.com/m/1000413115/ #AI #Agent #MSE

Berryxia.AI@berryxia · 5月20日73

兄弟们!今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 prompt,不同模型画出的树形态完全不一样。(见视频) Gemini 3.5 Flash 从输入提示词到生成完整 HTML 动画网页(树干慢慢长出、分支递归展开、最后随风摇摆),全程只用了 77.56 秒! 整体效果非常惊艳:树形态自然优雅、生长动画丝滑、视频和内容呈现都顶级! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发. Google I/O 2026 今天刚发布,现在立刻就能通过 API 调用! 还有免费额度可以白嫖~速度是真的没话说,还完美保留了旗舰级模型的能力。 专为 Agent 设计,在 MCP Atlas、Toolathlon、Finance Agent 等多项榜单直接拿下第一! 多模态理解也极强:MMMU-Pro 83.6%、CharXiv Reasoning 84.2%,全面超越上一代 Gemini 3.1 Pro。完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 直接体验 正式版 → http://zenmux.ai/google/gemini-3.5-flash 免费试用 → http://zenmux.ai/google/gemini-3.5-flash-free

译Gemini 3.5 Flash现已在ZenMux平台免费开放试用。该模型在经典的递归二叉树生长测试中表现惊艳,仅用77.56秒便生成了完整的HTML动画网页,展现了顶级的响应速度与生成质量。其在MCP Atlas、Toolathlon等多项Agent榜单中位列第一,多模态理解能力(如MMMU-Pro得分83.6%)也全面超越上一代模型。模型完全兼容主流API格式,并提供按量计费和Builder套餐选择。

X.PIN@thexpin · 5月20日50

DeepSeek has formed a new internal team: Harness. This team is to build a coding agent aimed squarely at Anthropic's Claude Code. Senior researcher Chen Deli confirmed it: the goal is essentially "DeepSeek Code Harness," a direct answer to Claude Code. They're hiring a PM and an engineer for it, both based in Beijing at their Haidian office near Peking & Tsinghua.

译DeepSeek已成立一个新的内部团队:Harness。该团队旨在打造一个直接对标Anthropic的Claude Code的编程智能体。高级研究员陈德利确认了这一点:目标本质上是“DeepSeek Code Harness”,作为对Claude Code的直接回应。他们正在为此招聘一名产品经理和一名工程师,工作地点均在北京海淀办公室,靠近北京大学和清华大学。

Alibaba Cloud@alibaba_cloud · 5月20日39

As AI agent deployments scale, how do you secure AI without slowing innovation? Join us for ClawTalks Episode 4: Secure AI Agents Across the Full Lifecycle! Set a reminder now! 🔽 📅 May 22, 2026 | 5:00 PM (UTC+8) https://youtu.be/mm9Fl1LcBXI We'll: ✅ Reveal real-world threats targeting AI agents ✅ Share Alibaba Cloud's 7 proven security best practices ✅ Demo the Agent Security Center—discover, map, and secure your AI assets in real time Don't miss these enterprise-grade AI security insights—set a reminder now! #ClawTalks #AISecurity #EnterpriseAI #AlibabaCloud #AgentSecurity #Cybersecurity

译阿里巴巴云将举办ClawTalks研讨会,聚焦大规模AI代理部署中的核心矛盾:如何在保障安全的同时不拖累创新。活动将揭示针对AI代理的真实威胁,分享七项经实践验证的安全最佳实践,并现场演示Agent Security Center工具,该工具可实时发现、测绘并保护企业AI资产。会议旨在提供企业级的AI安全见解。

向阳乔木@vista8 · 5月20日45

AI 全自动完成一个Chrome插件的上架填写工作。 工具:Codex 客户端 + Chrome 官方插件。 填写过程甚至发现用中文输入法会干扰内容输入,自己写了个 Python 进本,直接复制粘贴填写。 表单填写速度不算快,但对没过这件事儿,懒得写各种说明文案的人来说,速度不是问题。

译通过Codex客户端与Chrome官方插件,AI能全自动完成Chrome插件的上架表单填写工作。流程中发现中文输入法会干扰内容输入,于是编写Python脚本,采用复制粘贴方式解决。虽然填写速度不快,但对不愿手动处理说明文案的用户而言,这种自动化方式提供了高效便捷的替代方案,降低了操作门槛。

Alibaba Cloud@alibaba_cloud · 5月20日51

Qwen Conference 2026 is coming! Join us at Sands Expo Singapore on May 26. Featuring our keynotes on full-stack AI breakthroughs, 3 parallel forums, and a 1,000 m² exhibition with 7+ models and 6+ Agent tools. Register now: https://click.qwencloud.com/m/20000000142/

译Qwen Conference 2026即将举行! 5月26日,新加坡金沙会展中心。 主讲全栈AI突破,设3个平行论坛, 1000平方米展区展示7+模型与6+ Agent工具。 立即注册:https://click.qwencloud.com/m/20000000142/

向阳乔木@vista8 · 5月20日71

第二项工作启动,让Codex控制Chrome浏览器自动上架Chrome插件。 1. 添加项目文件夹,新建对话说:“把这个Chrome插件上架到谷歌Chrome商店” 调用Browser use搞定: - 隐私协议地址:[URL] - 资料文案:[本地文件地址] 2. Codex 会自己检查创建Chrome插件压缩包 然后控制浏览器打开网页上传。

译用户完成了两项自动化相关工作:首先开源了常用油猴脚本,支持小红书、抖音等平台截图自动上传、YouTube字幕处理及播客倍速调整;其次利用Codex通过控制Chrome浏览器,实现了插件上架流程的自动化,包括自动处理隐私协议、资料文案、打包压缩包并上传至Chrome商店。

Rohan Paul@rohanpaul_ai · 5月20日51

OpenClaw + Meta Ray-Ban glasses. This setup uses the Ray-Ban glasses' built-in camera for egocentric vision. Voice input triggers Gemini Live to interpret what the wearer sees, then routes tasks to OpenClaw, which then completed the purchase.

译OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月21日
13:03
AYi@AYi_AInotes
77
Gemini 3.5 Flash:速度、智能与可靠性三重突破,开启AI实用主义新时代

Gemini 3.5 Flash实现了289 tokens/s的输出速度(约为GPT-4o的4倍),同时将幻觉率大幅降低31%,首次在速度、智能和可靠性上达成平衡。这标志着AI发展从单纯比拼模型“智商”的基准竞赛,转向追求“能用起来”的实用主义。高速与可靠性的结合,使得能够执行复杂多步任务的AI Agent从理论走向现实,可能重塑行业竞争格局,未来AI将如同基础设施一般无缝融入工作流。

智能体GoogleMCP/工具评测/基准
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:Kim (@kimmonismus)
12:22
meng shao@shao__meng
65
Agora Skills:快速构建实时语音交互 Agent 的实践

实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。

智能体GitHub教程/实践语音
12:09
Alibaba Cloud@alibaba_cloud
31
诚邀您于2026年5月26日参加2026年Qwen大会期间的阿里云Claw Talks线下巡展,与我们一同探索下一波AI智能体应用浪潮:https://click.qwencloud.com/m/20000000190/ 认识先进的AI智能体--QoderWork、JVS Claw、MuleRun、Quick BI、QwenPaw和Accio Work--它们专为与您协同工作、思考和扩展而构建。探索它们如何赋能自动化、分析和协作,以推动下一波生产力创新。
智能体行业动态
12:04
向阳乔木@vista8
71
最近两天爆火的写论文Skill 看来太刚需了,没几天都1.6w Star了。 安装命令: /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills 开源地址:https://github.com/Imbad0202/academic-research-skills
智能体GitHub开源/仓库
11:09
Berryxia.AI@berryxia
62
微软Claude工作坊:AI Agent从原型到生产落地

微软举办Claude使用工作坊,通过构建纸杯蛋糕店AI Agent的案例,演示了从部署云模型、接入MCP服务器连接工具与数据源,到赋予企业级安全与可观测性的完整流程。工作坊以实操为主,开发者可现场跟随编码,强调AI Agent已从概念验证进入快速生产落地的实用阶段,成为开发者能直接构建的业务工具。

智能体AnthropicMCP/工具Microsoft
10:49
swyx🛬 SFO@swyx
14
今天才知道,在OpenClaw出现之前,@balajis 曾是 @brian_armstrong 的个人内部AGI。
智能体大佬观点
10:11
Artificial Analysis@ArtificialAnlys
72
Cursor Composer 2.5:性价比突出的AI编程智能体,跻身全球前三

Cursor发布了其编程智能体模型Composer 2.5,在Artificial Analysis编程智能体指数中排名第三,仅次于Claude Opus 4.7和GPT-5.5。该模型的核心优势在于极高的性价比:其标准版任务成本仅为0.07美元,比顶级竞品便宜约60倍。性能方面,它在SWE-Bench-Pro-Hard-AA等基准测试上较前代有显著提升。模型基于月之暗面的Kimi K2.5开源权重进行训练,目前仅限在Cursor产品内使用,未提供独立API。

智能体产品更新编码
10:01
AYi@AYi_AInotes
66
xAI用基础修复定义AI Agent竞争力

xAI为Grok Build推送的更新看似平淡,无炫酷新功能,但专注于修复致命的“后台子代理静默失败”、支持更多平台及中文字符路径等基础问题。这体现了其工程优先策略,在竞争对手比拼模型参数与演示时,xAI默默填补那些会导致生产环境崩溃、劝退用户的“隐形坑”。这一系列底层优化与漏洞修复,正悄然构筑其编码Agent的长期护城河。

skcd: Bug fixes shipping to Grok Build (release notes will be available in the TUI) - macOS x86_64 (Intel) support - Windows A...

智能体xAI大佬观点编码
09:22
meng shao@shao__meng
68
Forward Deployed Engineering (FDE):AI落地的"最后一公里"关键与新兴职业方向

Forward Deployed Engineering (FDE) 是AI公司派驻客户现场的工程师角色,核心是将AI能力嵌入企业具体业务流。随着模型能力趋同,真正优势在于“如何用”,而FDE正是解决AI落地“最后一公里”的关键。该角色借鉴Palantir传统,强调必须现场工作,围绕企业专有数据重建流程。其工作涵盖业务审计、效果评估(Evals)与务实部署三阶段。咨询、PM及软件工程师可通过30天路线图与作品集转型,但需弥补各自短板——工程能力或商业沟通能力。FDE被视作“百万美金级人才”,是AI时代高价值的职业新方向。

vas: http://x.com/i/article/2057172544277606401

智能体教程/实践现象/趋势部署/工程
08:51
meng shao@shao__meng
68
Chrome DevTools for Agents 1.0正式发布

Chrome DevTools for Agents 1.0 发布,旨在让 AI Agent 能在真实浏览器中“观察”并调试 Web 应用。该工具通过 MCP server、CLI 和 Agent skills 三种方式接入,提供了一系列核心能力。Agent 可执行自动化质量审计、模拟用户环境、调试 Chrome 扩展、接管已登录会话、检测内存泄漏,并能与 Web 应用暴露的内部状态深度集成。这显著提升了 Agent 在浏览器环境中的调试与测试能力,为自动化开发与运维提供了新的可能性。

智能体GoogleMCP/工具产品更新
08:18
宝玉@dotey
74
Codex 从编程助手到全能打工人

Codex已从单纯的代码生成工具,进化为能处理各类电脑任务的“全能打工人”。其核心在于利用持久对话流实现长期记忆,并能调用浏览器、电脑操控等工具,打破工作流限制。通过自动化与目标设定,Codex可离线持续工作,大幅提升生产力。

智能体MCP/工具教程/实践编码
07:18
宝玉@dotey
68
Codex 使用技巧:Steer 和 Queue

本文介绍了在 Codex Agent 执行任务时补充新要求的两种核心操作:Steer 与 Queue。Steer 通过快捷键 Shift+Enter 在任务进行中直接插入新指令,改变 Agent 当前的工作方向;Queue 则通过 Enter 键在当前任务完成后添加新任务,并按顺序逐一执行,适用于安排后续步骤。两者本质区别在于 Steer 干预当下执行,Queue 规划未来任务。此外,用户可通过队列添加多个“Continue”指令,实现任务持续运行,适用于需要无人值守的场景。

智能体OpenAI教程/实践
07:05
Google AI Developers@googleaidevs
59
通过使用Gemini API中的新托管代理功能,@RampLabs构建了他们的高级财务代理,无需接触后端基础设施。 了解更多 ↓
智能体Google教程/实践
05:35
Google AI Developers@googleaidevs
同事件精选74
Google Stitch更新:AI设计助手实现全流程构建

Google推出了其AI设计伙伴Stitch的多项重要更新。新功能支持实时流式构建设计,允许用户在不中断流程的情况下直接进行编辑和互动反馈。Stitch现已能够导入现有代码库或Design.md文件,基于实际生产组件进行设计以保持品牌一致性。同时,工具新增了动态界面生成功能,并可将设计项目直接导出为可分享的线上URL,简化了从原型到生产的部署流程。该工具现已面向全球用户开放。

智能体Google产品更新多模态
同一事件,精选展示《谷歌发布多款AI创意工具新功能》
推荐理由:Stitch 这次更新把设计到生产流水线打通了,实时流加运动 UI 让原型更接近真产品,做移动端和 Web 的可以直接试试,比自己搭环境快太多。
05:13
Orange AI@oran_ge
30
Cursor 的 Composer 2.5 大家用的体感如何? 在他们内部的指标上,性价比是爆棚的。

Lee Robinson: Where could we improve Composer 2.5? We're working on the next model and would love your feedback. Lots of work to do (o...

智能体产品更新编码
03:47
swyx🛬 SFO@swyx
63
Exa完成2.5亿美元融资,估值达22亿美元,由a16z领投。该公司致力于为AI智能体优化搜索,服务超5000家公司和50万开发者。其在代码、公司等多个垂直领域搜索效果顶尖,能减少90%返回文本且几乎不影响RAG质量,并构建性价比最优的网页智能体。创始人强调搜索创新对对抗虚假信息至关重要,此轮融资将用于改善社会信息环境。推文作者团队在快速对比测试后,一致认可Exa的领先优势。

Jeffrey Wang: Exa raised $250M at a $2.2B valuation, led by a16z, to continue organizing the web for agents: - Exa now serves search t...

智能体搜索行业动态
02:35
Google AI Developers@googleaidevs
精选71
用Gemini构建,改变世界🌍 我们正与@xprize合作,发起一场全球黑客松,旨在利用我们全新的智能体工具解决现实世界的挑战。 点击加入:https://www.geminixprize.com/
智能体Google行业动态

推荐理由:Google 拉着 XPrize 搞全球黑客松,重点是用他们的新 agentic 工具解决真问题,对有想法的开发者来说,是个正经的曝光和拿钱入口。
00:14
Google AI@GoogleAI
精选69
谷歌发布多款AI创意工具新功能

谷歌与创作者合作推出系列AI工具更新。Google Workspace新增图像创作编辑工具Pics;Google Flow支持Gemini Omni Flash模型,并推出Flow Agent作为多步骤创作伙伴;设计工具StitchbyGoogle支持实时文字或语音编辑布局并导出代码;音乐工具Google FlowMusic增加分段编辑、风格混音及视频生成功能。

智能体Google产品更新图像生成

推荐理由:Google这次更新的不是单点工具,而是把AI能力像乐高一样嵌入到创意工作流的每一步,Flow Agent的多步骤推理尤其值得做设计的人试试看。
00:02
向阳乔木@vista8
精选75
开源插件为Codex App增添高级功能

一个开源项目允许用户增强Codex App的功能。即使通过API登录,也能通过安装插件的方式启用Computer Use特性并添加Goal指令。项目还支持界面自定义,例如调整为类似Chrome浏览器的顶部Tab样式,并可设置任务开始和完成的提醒音效。相关开源项目地址已在评论区提供。

智能体MCP/工具OpenAI开源/仓库

推荐理由:这不只是个插件,它把 Codex 从只能聊天变成了能动手的 Agent,用 API 登录也能开 Computer Use,是给开发者装上了超能力的实用补丁。
5月20日
23:45
swyx🛬 SFO@swyx
60
虽然迟了很久,但现在回想起来,我认为@sama那句富有传奇色彩的"构建一个随模型进步而变得更好的业务",基本上就是我在这里所说的Agent Labs。 看到模型性能与Agent Labs收入之间存在非常直接的关联,在2025年第四季度出现断层。 (摘自@patrickc的Stripe Sessions)

swyx🛬 SFO: New @latentspacepod Essay: why Agent Labs are clearly emerging in 2025 as a complement to Model Labs' all becoming AI Cl...

智能体大佬观点现象/趋势
23:43
🚨 AI News | TestingCatalog@testingcatalog
65
错过速看👀:Google AI Studio 新增"antigravity-preview-05-2026"代理! &gt; 一个在远程Google托管Linux环境中运行的通用自主代理。 &gt; 该代理可执行代码、执行实际操作,并使用大量token。
智能体Google产品更新
23:41
凡人小北@frxiaobei
51
DeepSeek 发布招聘信息,计划在北京组建新团队开发 Code Harness 项目(可能称为 DeepSeek Code)。团队将负责从零开始构建该工具,招聘职位包括 Harness Product Manager 和 Harness R&D Engineer,分别侧重于产品管理和研发工作,强调研究与产品的结合。此次招聘面向有志于AI技术领域的青年人才,工作地点位于北京。

Deli Chen: 🚀 We're hiring! DeepSeek is forming a new Harness team to build Code Harness from the ground up-may be you can call it ...

智能体DeepSeek编码行业动态
23:33
elvis@omarsar0
73
自我改进的AI是件大事!

作者探索利用Fireworks AI Agent,通过自然语言交互自动化完成大语言模型的微调流程。他以Qwen小模型为例,调整其输出风格以优化PaperWiki项目的扩展效率。这一方法灵感源于@karpathy关于LLM知识库的推文,强调微调是让模型更“懂”数据的关键步骤。核心观点是自动化微调可推动构建可递归自我改进的AI系统,最终目标是打造一个能自我优化、用于知识发现和端到端自动化研究的强大工具。

elvis: http://x.com/i/article/2056851733582880768

智能体开源/仓库教程/实践数据/训练
23:03
elvis@omarsar0
74
通过AI代理自动化微调,将知识注入大语言模型权重

本文探讨了通过微调,将个人知识库(如LLM Wiki)的内容从依赖上下文窗口,转变为固化到模型自身权重中的方法。关键在于利用如Fireworks Agent这样的自主AI代理,仅需提供自然语言目标,它就能自动完成从数据准备、训练到部署的完整微调流程。这标志着模型自我改进的闭环成为可能:当训练成为AI工作流中一个可调用的步骤时,模型能主动将反复使用的模式(如特定写作风格或决策逻辑)学习并内化到权重中,从而实现使用与优化的持续迭代。

智能体MCP/工具教程/实践数据/训练
22:33
elvis@omarsar0
59
播客《Agentic Review》推荐:聚焦AI编程的务实对话

推荐QodoAI出品的播客《Agentic Review》,该节目以平衡的视角探讨AI代码生成的真实场景。通过主持人与Dexter Horthy、Scott Hanselman等嘉宾的深度对话,节目强调了上下文工程作为关键技术壁垒的重要性,并指出AI无法弥补破碎的开发流程,反而更凸显了代码审查与工程技艺的持续价值。核心观点认为,尽管编码方式可能变革,但软件开发生命周期的本质与严谨性将更加重要。节目避免了过度炒作或悲观论调,为AI工程师提供了有价值的实践参考。

智能体大佬观点编码
21:46
宝玉@dotey
44
title_zh:

David Hill: we've been busy redesigning the desktop app from the ground up the beta taught us a lot most importantly, that left side...

智能体大佬观点
21:46
宝玉@dotey
65
DeepSeek正在招聘Agent方向的产品经理和研发工程师,并为此组建了新的Harness团队。该团队目标是构建名为Code Harness(或类似产品)的代码相关AI工具,招聘地点位于北京。这标志着DeepSeek正投入资源开发AI Agent及开发者工具。

Deli Chen: 🚀 We're hiring! DeepSeek is forming a new Harness team to build Code Harness from the ground up-may be you can call it ...

智能体DeepSeek行业动态
21:41
凡人小北@frxiaobei
60
阿里云推千问云,云产品全线Agent化

阿里云通过千问云平台,将旗下一百余个云服务产品(如存储、数据库、运维)全面改造并接入AI Agent能力,使其具备自主执行任务的功能。这标志着云服务商业模式可能转向“按Agent工作量计费”。千问云未来有望演变为一个“Agent虚拟办公园区”,被视为比近期涌现的人工智能实体园区更具可行性的落地路径。

智能体产品更新
21:16
meng shao@shao__meng
49
最近面试过程中,用 AI 辅助的候选人,明显多起来了 😄

面试中AI辅助效果不佳,回答泛泛缺乏针对性。深入项目经验时,AI只复述概念,不分享实际工程问题。面试官指出,AI能应对概念提问,但实战经验如工程“坑”无法替代,候选人需依赖真实能力。

智能体现象/趋势
21:13
🚨 AI News | TestingCatalog@testingcatalog
69
ICYMI 👀: SuperGrok和X Premium订阅现在可用于OpenClaw! &gt; 如果您已有Grok或X Premium订阅,现在可以在OpenClaw中使用Grok模型。将Grok连接到您的OpenClaw代理功能现已向所有订阅层级开放。

xAI: Starting today, use your Grok or X Premium subscription in @openclaw. Chat with your agent, generate images and videos, ...

智能体MCP/工具xAI产品更新
21:08
Berryxia.AI@berryxia
40
AI Agent一键接管全流程营销

Gaurav发布的Fastlane工具,基于Claude Code实现营销自动化革命。仅需单一指令,即可自动完成社交媒体账号部署、病毒式内容生成、定时发布及算法优化等全链路操作,将传统团队需数日完成的工作压缩至瞬时。该工具突破传统AI文案辅助层面,实现了从建号、运营到数据反馈学习的完整闭环执行,标志着AI Agent正深度整合并重构营销部门的工作流程。

Gaurav: Today we're introducing Claude Code for Marketing. In one prompt, Fastlane deploys social media accounts, generates vira...

智能体产品更新
20:41
凡人小北@frxiaobei
34
在大健康行业摸爬滚打过的都懂:医疗 AI 的胜负手从来不是谁更会聊,而是医生敢不敢信。

该文指出,医疗AI成功的关键在于获得医生信任,而通用大模型因无法溯源结论,在临床上表现不佳。作者推荐其产品“证元芳”,这是一款循证医学智能体,声称是国内首个且唯一通过信通院MedClaw评测的医疗AI,在循证问答、证据溯源等13项评测中全部通过。该产品强调每个结论都能被追溯和追问,体现了“可信、可追溯”的应用底线。其MedClaw Skills Store还提供2000多个专科技能模块,旨在将专业医疗能力拆解为可复用组件。

智能体产品更新
18:33
Alibaba Cloud@alibaba_cloud
65
将Agent转变为自主工作者!🚀 ❌ 开源痛点:可用性低、运维成本高、可观测性差。 ✅ MSE AI调度器通过以下方式解决: • 高可用分布式调度 • 统一管理与细粒度权限 • 弹性伸缩以降低成本 • 全链路可观测性 支持OpenClaw、Dify等。免费公测现已开放! 🔗 https://int.alibabacloud.com/m/1000413115/ #AI #Agent #MSE
智能体产品更新部署/工程
18:07
Berryxia.AI@berryxia
73
兄弟们!今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了!

Gemini 3.5 Flash现已在ZenMux平台免费开放试用。该模型在经典的递归二叉树生长测试中表现惊艳,仅用77.56秒便生成了完整的HTML动画网页,展现了顶级的响应速度与生成质量。其在MCP Atlas、Toolathlon等多项Agent榜单中位列第一,多模态理解能力(如MMMU-Pro得分83.6%)也全面超越上一代模型。模型完全兼容主流API格式,并提供按量计费和Builder套餐选择。

智能体Google多模态评测/基准
18:06
X.PIN@thexpin
50
DeepSeek已成立一个新的内部团队:Harness。该团队旨在打造一个直接对标Anthropic的Claude Code的编程智能体。高级研究员陈德利确认了这一点:目标本质上是"DeepSeek Code Harness",作为对Claude Code的直接回应。他们正在为此招聘一名产品经理和一名工程师,工作地点均在北京海淀办公室,靠近北京大学和清华大学。
智能体AnthropicDeepSeek编码
17:33
Alibaba Cloud@alibaba_cloud
39
阿里巴巴云将解析AI代理全生命周期安全防护

阿里巴巴云将举办ClawTalks研讨会,聚焦大规模AI代理部署中的核心矛盾:如何在保障安全的同时不拖累创新。活动将揭示针对AI代理的真实威胁,分享七项经实践验证的安全最佳实践,并现场演示Agent Security Center工具,该工具可实时发现、测绘并保护企业AI资产。会议旨在提供企业级的AI安全见解。

智能体安全/对齐行业动态
16:01
向阳乔木@vista8
45
AI工具全自动填写Chrome插件上架表单

通过Codex客户端与Chrome官方插件,AI能全自动完成Chrome插件的上架表单填写工作。流程中发现中文输入法会干扰内容输入,于是编写Python脚本,采用复制粘贴方式解决。虽然填写速度不快,但对不愿手动处理说明文案的用户而言,这种自动化方式提供了高效便捷的替代方案,降低了操作门槛。

智能体MCP/工具教程/实践
15:33
Alibaba Cloud@alibaba_cloud
51
Qwen Conference 2026即将举行! 5月26日,新加坡金沙会展中心。 主讲全栈AI突破,设3个平行论坛, 1000平方米展区展示7+模型与6+ Agent工具。 立即注册:https://click.qwencloud.com/m/20000000142/
智能体开源生态行业动态
15:31
向阳乔木@vista8
71
Codex自动化上架Chrome插件与开源油猴脚本

用户完成了两项自动化相关工作:首先开源了常用油猴脚本,支持小红书、抖音等平台截图自动上传、YouTube字幕处理及播客倍速调整;其次利用Codex通过控制Chrome浏览器,实现了插件上架流程的自动化,包括自动处理隐私协议、资料文案、打包压缩包并上传至Chrome商店。

向阳乔木: 完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整 开源地址:https:/...

智能体MCP/工具教程/实践
15:05
Rohan Paul@rohanpaul_ai
51
OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。
智能体GoogleMeta多模态
‹ 上一页
1…3940414243…50
下一页 ›