AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1227 条
全部一手资讯X论文
标签「教程/实践」清除
宝玉@dotey · 6月17日47

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。 【1】Computer Use:最广,也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。Spotify、Xcode、系统设置、iOS 模拟器,甚至 iPhone Mirroring 都能控制。 代价是慢。结构化插件可以直接调 API,Computer Use 得一步步看界面、找按钮、等响应、再检查结果。但它能搞定没有 API 的应用,这是其他方式做不到的。 Mac 和 Windows 的体验差距很大:Mac 上 Codex 可以在后台静悄悄地操作,你继续用自己的电脑不受影响;Windows 上它必须占据前台,操作期间你没法用那台机器。 Jason 举了个例子:有次他的快递被偷了,Amazon 说要等 25 分钟才能接通客服。他让 Codex 每五分钟检查一次聊天窗口,客服出现后改为每分钟一次,自动完成退款流程。他去洗了个澡,回来退款已经办好了。 【2】Chrome 扩展:带着你的登录状态 Chrome 扩展让 Codex 使用你已登录的浏览器会话,包括 cookies、账号状态和已有标签页。Gmail、LinkedIn、Salesforce、公司内部后台,这些需要登录才能用的工具,Chrome 扩展是对的选择。 它还能同时控制多个标签页,在一个标签里读信息,到另一个标签里对比,再到第三个标签完成操作。Computer Use 也能操作浏览器,但它只认屏幕坐标,Chrome 扩展理解的是浏览器层面的上下文。 Jason 用它跑了一个长期任务:每天让 Codex 通过 Chrome 检查他的 Twitter 私信、浏览相关新闻、收集反馈,把有价值的内容存到本地文件,但不发任何消息。 要注意的是,网站会把 Codex 的点击和表单提交当作你本人的操作。研究、浏览、起草可以自动化,但发送、发布、付款这类操作最好留给自己确认。 【3】内置浏览器:给开发者的沙盒 内置浏览器住在 Codex 的对话线程里,你和 Codex 共享同一个渲染页面。它不带任何登录状态和 cookies,是个完全隔离的环境。 这反而成了开发场景的优势。它的主场是本地开发服务器、文件预览、公共网页、响应式布局检查和视觉 bug 复现。Codex 可以改代码、操作页面、截图、再跑一遍,形成紧密的反馈循环。 Jason 最喜欢的功能是标注:你可以直接在页面上点击某个元素留评论,比如"这个层级反了""这个按钮间距不够",Codex 会拿着截图和元素上下文去改代码,改完重新打开同一个页面等你下一轮标注。比来回传截图和文字描述高效得多。 【选哪个?】 简单记:任务需要登录状态用 Chrome,需要操作桌面应用用 Computer Use,在做前端开发用内置浏览器。如果有现成的插件或 MCP 能完成任务,优先用结构化工具,视觉控制是最后手段。

译Jason 区分三种方式:Computer Use 像人一样看屏幕点鼠标,可操作任何桌面应用(如 Xcode、iOS 模拟器),Mac 可后台运行,Windows 需占前台;Chrome 扩展使用已登录浏览器的 cookies 和账号状态,适合 Gmail、LinkedIn 等需登录或同时操作多标签页的场景;内置浏览器是对话线程内的沙盒,无登录状态,适合前端开发、本地预览和页面标注改代码。选型:需登录用 Chrome,操作桌面应用用 Computer Use,前端开发用内置浏览器;有现成插件或 MCP 时优先用结构化工具。

宝玉@dotey · 6月17日70

这个提示词挺酷的,可以把照片变成融入了涂鸦元素的平面插图。

jason@jxnlco · 6月17日37

feeling confused about computer use, browser use, and the chrome extension? this is for you by the end you'll know what each one is, how it works, and how app shots ties it all together

译对 computer use、browser use 和 chrome extension 感到困惑? 这篇就是为你准备的 读完后你会明白它们各自是什么、如何工作,以及 app shots 如何将它们串联起来

MiniMax (official)@MiniMax_AI · 6月17日43

nice example of M3 in a real agent loop, all served through @togethercompute

译MiniMax 展示了其 M3 模型在真实 Agent 循环中的应用,通过 Together Compute 提供完整模型栈:Parakeet 负责语音转文字(STT)、MiniMax Speech 2.8 负责语音合成、MiniMax M3 负责推理。Demo 为一个 Mac 顶栏应用,用户提问后 M3 读取屏幕指出薄弱环节,再通过指令直接编辑磁盘上的文件。切换 STT 至 Together AI 后,延迟从 546ms 降至 277ms。

elvis@omarsar0 · 6月16日43

Got a chance to try out @mattpocockuk /teach skill. It's similar to my /learn skill. You can try the skill with Hermes Agent right now in our academy. I will keep the lab FREE for now. It's amazing to learn with AI agents. Go try it!

译有机会尝试了 @mattpocockuk 的/teach 技能。 它类似于我的/learn 技能。 你现在就可以在我们的 academy 中使用 Hermes Agent 尝试该技能。我会暂时保持实验室免费。 用 AI 智能体学习真是太棒了。 去试试吧!

fofr@fofrAI · 6月16日60

A reminder: Omni can generate entirely new audio for you if you remove any existing audio tracks first ffmpeg -i input.mp4 -c:v copy -an input_without_audio.mp4

译提醒:如果你先移除视频中现有的音轨,Omni 可以为你生成全新音频。 ffmpeg -i input.mp4 -c:v copy -an input_without_audio.mp4

jason@jxnlco · 6月16日23

wow hit 100k so, one of the biggest requests is about resetting rate limits, so heres a tip. Codex now has referrals that give you the ability to reset your rate limit on your time

译wow 突破 10 万 那么,最大的需求之一是关于重置速率限制,所以这里有个小技巧。 Codex 现在有推荐机制,让你可以自行重置速率限制。

AYi@AYi_AInotes · 6月16日55

http://x.com/i/article/2066860172387995648 # 所有深度用 AI 编程的朋友,这篇 Codex 全景指南值得存好,架构生态横评和最佳实践一次讲透 有个细节我琢磨了好几天,OpenAI 给 GPT-5.3-Codex 下的官方定语很有意思,没有说是最强编程模型,而是一句有点耐人寻味的话——第一个对创造自身起到关键作用的模型。 我翻译一下:OpenAI 自己的工程师,已经在用 Codex 来造下一代 Codex 了。 我觉得这句话比任何 benchmark 都狠,它告诉我们,除了这个模型有多强,还有就是这个模型已经成了 OpenAI 自己的研发底盘。 也就是说2021 年那个被弃用的补全工具、去年那个帮你改 bug 的助手——跟现在这个比,根本不是一个物种。 我决定写一个系列,这是第一篇。 这篇不讲具体操作,先把全景图铺开:它的架构到底长什么样、核心能力在哪、跟 Claude Code / Cursor / Devin 比谁更能打、官方给的最佳实践有什么能直接抄。后面几篇再一个一个拆——AGENTS.md、Skills、MCP、多 Agent 编排的实操。 > ▸ 五个入口,一套配置——先搞懂这个,后面才不会晕 > ▸ 插件化 + MCP + Skills:这才是它跟别人拉开身位的地方 > ▸ 为什么我说它是目前最强执行引擎(附一张对比表,也说说它的软肋) > ▸ 七条能直接抄的官方最佳实践 ## 一、先搞懂架构——一套执行层,长了五张脸 我第一次把 2026 版 Codex 的所有入口捋了一遍之后,才明白为什么很多人刚接触会懵,因为它同时出现在五个地方:App、CLI、IDE 插件、Cloud、Web。 所以这不只是五个产品那么简单,更像是是一套统一执行层 + 编排中枢,长了五张脸。 Codex App:桌面命令中心,macOS 版,今年最大的形态变化。 定位很明确——AI 编程的指挥中心,你可以在里面并行跑活、管长时任务、加 skills 和 automations、审查 diff,全程沙箱保安全。 为什么今年才出桌面端?OpenAI 自己的解释我挺认同的——2025 年 4 月 Codex 刚出的时候,问题还是“agent 能干什么”; 到了今年,模型能端到端处理复杂长时任务了,问题变成了“怎么同时管好一堆 agent”。 那问题变了,界面就得跟着变。 CLI + IDE 插件: 终端和编辑器里的深度集成,这里有一个细节我踩过一次坑才注意到——它们共用同一份配置,在一个表面改了 config,另一个表面立刻生效,不用各配一遍 MCP,很细节的一件事,但挺省心的。 Cloud Sandbox:异步执行的核心。长时任务、并行工作全挂云上,不占你本地资源,跑完进审查队列。 Web / ChatGPT 集成: 统一登录,所有表面共享 Skills、MCP 配置、AGENTS.md 记忆。 模型底座 :这条时间线值得看一眼,因为一年里迭代太密了: 2025 年 12 月 GPT-5.2-Codex → 2026 年 2 月 5 日 GPT-5.3-Codex → 2 月 12 日 GPT-5.3-Codex-Spark(纯文本、低延迟小号版) → 3 月 5 日 GPT-5.4 for Codex。其中 Spark 那步我特别想提一嘴——它是 OpenAI 第一个跑在 Cerebras 硬件上的生产模型,比早期 Codex 快 15 倍,专门为实时交互编码做的。这步棋的意义不是“更快了”,是“可以一边聊一边出代码了”。 把这五张脸看完,我的理解就一句话:Codex 把“模型”和“编排”分开了。 模型负责干活,App/Cloud 负责调度, 学 Codex,我理解本质上是在学怎么当一个管着好几个 agent 的项目经理。 ## 二、插件化 + MCP + Skills——这三层才是真正的分水岭 光看模型能力,Codex 跟别家在一个量级。 真正让它跟传统工具拉开差距的,是它长成了一个可扩展、可复用、可编排的平台层,三层东西撑起来的。 MCP:把外部世界接进来 配置不复杂。每个 MCP 服务器在配置文件里一张 [mcp_servers.<server-name>] 表,支持两种传输——本地 STDIO 进程,或者远程 Streamable HTTP(走 HTTP 连远程,可选 OAuth 和 bearer token 认证)。 CLI 一行加一个。比如接 Context7(免费开发者文档 MCP),跑这个就行:codex mcp add context7 -- npx -y @upstash/context7-mcp。配置文件默认 ~/.codex/config.toml,想限定到某个项目用项目级的 .codex/config.toml——但只限受信任项目。 热门的有 GitHub、Figma、Playwright、Context7、Sentry 这些。 有一点我想强调,官方隐含了一个最佳实践:高频痛点优先接,别把线全布上。 MCP 接得越多,上下文消耗越大,风险面也越宽。够用就行,别贪。 Skills:把重复劳动变成能复用的东西 一个 skill 就是把指令、资源和可选脚本打个包,让 Codex 可靠地跑一个工作流。Skills 基于开放的 agent skills 标准。 本质就是一个目录,核心文件是 SKILL.md。可以加 agents/openai.yaml 配 UI 元数据、调用策略、工具依赖。 Skill 和 AGENTS.md 的分工,官方说得很清楚,这条特别值得记:每次对话都要发给模型的指令,放 AGENTS.md;只在特定操作时才需要的指令,放 SKILL.md。这个分离能让上下文更聚焦。 Plugins:把上面这些打成一个能分发的包 今年新出的一层,Codex plugins 是可复用的包,把 skills、app 连接器和 MCP 服务器捆成一个可安装单元。 官方的思路是这样:Skills 是创作格式,Plugins 是安装分发单元。你先用 skill 设计工作流,稳定了,再打包成 plugin 给别人装。 Codex CLI v0.117.0(2026 年 3 月 26 日)把 plugins 提成了一等工作流原语,首发了 20 多个一方集成:Slack、Figma、Notion、Gmail、Google Drive、Cloudflare 等。注意是 20+,不是网上传的 90+——别被夸大的数字带偏了。 这三层叠起来,才是 Codex 区别于“一个聊天框”的本质:你能把团队的最佳实践固化成标准,一键分给所有人。 ## 三、为什么我说它是目前最强执行引擎——但也别神化 把 Codex 放到 Claude Code / Cursor / Devin 里横着看,它的优势我概括成五个词:云沙箱、异步委托、并行速度、生产力工具集成、审查执行分离。 到这里你可能觉得我要开始吹 Codex 全面碾压了。 其实并不会,我得先泼点冷水,因为这篇不是软文,是干货。 Codex 还不是全面碾压,几件事得说清楚: 第一,SWE-Bench Pro 上它只是微弱领先 GPT-5.3-Codex 在 SWE-Bench Pro Public 上 56.8%,对比 5.2 的 56.4%——是守住了顶尖梯队,不是阶跃。真正大涨的是终端任务和电脑操作:新模型在 OSWorld-Verified 上几乎翻倍,SWE-Bench Pro 和 Terminal-Bench 都刷了新高。OSWorld 上人类水平大约 72%,它跑到 64.7%,已经很接近人了。 第二,对手没闲着 Anthropic 今年 3 月 24 日上了 macOS 桌面控制,OpenAI 三周后的 4 月 16 日才跟进。更值得注意的——4 月 14 日,OpenAI 发布前两天,Anthropic 抢先发了重新设计的 Claude Code 桌面 app,带并行会话和能通过 API 或 GitHub 事件触发的自动化 Routines。Claude Code 在 Opus 4.6 beta 上那 100 万 token 上下文窗口,在大型代码库推理和多文件重构上是实打实的优势。 所以我自己琢磨下来的判断是:Codex 最强的不是“想”,是“干”和“并行调度”。 它是目前最强的执行与异步编排引擎,但深度推理和超大上下文重构,Claude Code 仍有一手,最佳实践其实是混着用的,这点我会放到系列后面专门写一篇。 ## 四、能直接抄的七条官方最佳实践 这部分含金量最高,全部来自 OpenAI 官方 best practices,我挑出七条能立刻上手的。 官方对 Codex 的定位有一句话,先记住:把 Codex 当成一个需要长期配置和打磨的队友,不是一个一次性助手。 1. Prompt 结构盯住四个东西: Goal(目标)+ Context(上下文)+ Constraints(约束)+ Done-when(完成标准)。复杂任务先开 plan mode。 2. 用 AGENTS.md 固化“持久指令” 官方的思路很清楚:从正确的任务上下文开始,用 AGENTS.md 做持久指引,配 Codex 匹配你的工作流,MCP 连外部系统,重复工作变 skills,稳定工作流自动化。支持层级覆盖——全局放 ~/.codex/AGENTS.md,项目从根目录开始,越靠近当前目录优先级越高。 3. AGENTS.md 保持精简 这是新手最容易踩的坑。Codex 会把整个 AGENTS.md 加载进会话上下文,多余信息既浪费 token,又干扰结果。还有个反直觉的点:运行中改了 AGENTS.md,要重启或开新会话才会生效。 4. 别迷信自然语言约束 官方自己也很坦诚:这是自然语言,模型很擅长理解你的要求,但不保证一定遵守。要更硬的控制,用 config.toml、rules、sandboxing 和审批设置。社区实测也印证了——光靠 AGENTS.md 指令遵守率只有 25-40%,做成运行时 hook 强制执行能到 95%。真正危险的操作——生产部署、删库、改凭证——别指望 prompt,用 execpolicy 和沙箱权限从根上锁死。 5. 永远要求验证 让它写测试、跑 lint、用 /review。官方提了一个团队级的好模式:如果你和团队有 code_review.md 文件,在 AGENTS.md 里引用它,Codex 审查时也能照着那套指引走。 6. 推理档位别无脑拉满 官方推荐 medium 作为平衡智能和速度的全能档。Codex 能自主工作数小时搞最难的任务,最难的时候才用 high 或 xhigh。无脑拉满只会更慢更贵。 7. 形成闭环 把重复工作做成 Skill,稳定了打包成 Plugin 分发,事后复盘回写 AGENTS.md。这是一个 Kaizen 闭环——用得越久,你的 Codex 越懂你的项目。 ## 写在最后 最近玩下来,我自己的感受是:2026 年的 Codex,最大的价值不是它又刷了几个 benchmark,是它真的把 agentic 编程从单点工具变成了可编排的平台层——云原生并行 + 插件化扩展 + 统一多表面 + 企业级集成。 我觉得它倒不是来取代 Claude Code 或 Cursor 的, 更准的说法是,它成了目前最强的执行与异步编排引擎。 Claude 的推理深度、Cursor 的 IDE 体验、Codex 的并行执行,三个其实是互补的。 但平台再强,也得你会用是吧, 所以这个系列接下来一篇一篇拆——下一篇从 AGENTS.md 开始,把“怎么写一个不浪费 token 又真能管住 agent 的指令文件”讲透。 这一篇先到这,有具体想先看哪块——MCP 实战配置、Skills 编写、多 Agent 编排、还是混合栈怎么搭——评论告诉我,我调后面顺序。

译OpenAI Codex 2026版以统一执行层+编排中枢架构覆盖App、CLI、IDE、Cloud、Web五入口,模型迭代至GPT-5.4 for Codex,Spark版快15倍。平台层由MCP、Skills(开放标准)、Plugins(可分发)构成。SWE-Bench Pro Public上56.8%微弱领先,OSWorld-Verified 64.7%接近人类;Claude Code在百万token重构占优,Codex强在异步执行与并行调度。最佳实践:Prompt含Goal/Context/Constraints/Done-when,用AGENTS.md固化持久指令,MCP按高频痛点优先配置。

PixVerse@PixVerse_ · 6月16日38

Awesome UGC ad @heisturnx made a whole UGC ad with Pixverse, zero camera, zero studio.

译用户@heisturnx 用PixVerse等AI工具制作了整条15秒UGC广告,零相机、零摄影棚、零真实产品拍摄。步骤如下:✅ 在PixVerse中用ChatGPT生成首张图片 ✅ Nana Banana Pro 2(Flow AI)完成其余图片 ✅ 在PixVerse中用Kling 3.0制作视频动画 ✅ 在TikTok上精剪完成。这就是品牌现在付费购买的内容。想要完整提示词分解可回复"BLEND"。 PixVerse官方赞叹:太棒了UGC广告!

AYi@AYi_AInotes · 6月16日63

高频用 Codex 的人,建议立刻做这件事: 让 Codex自己帮你挑官方插件,效率直接翻倍, OpenAI 官方插件覆盖场景极全, 表格处理,PPT 制作,服务器部署,本地文件操作, 自动化流程开发,日常工作需求基本都能覆盖。 多数人不知道该装哪些,自己挨个筛选效率极低, 三步即可完成配置: 1️⃣打开对应项目的对话窗口,让它进入 Plugins 页面 2️⃣让它结合当前项目目标,筛选适配插件,并说明每个插件的用途 4️⃣评估确认后,直接让它帮你完成安装 核心逻辑很简单:让 AI 帮你用好 AI 不用自己对着插件库盲目试,因为它比你更清楚哪些工具能真正提效。

译高频使用 Codex 的用户应让其自行挑选 OpenAI 官方插件,效率翻倍。官方插件覆盖表格处理、PPT 制作、服务器部署、本地文件操作、自动化流程等日常需求。具体三步:打开项目对话窗口进入 Plugins 页面;让 Codex 结合项目目标筛选适配插件并说明用途;评估确认后直接让 Codex 完成安装。核心逻辑是让 AI 帮你用好 AI,避免盲目试错。

meng shao@shao__meng · 6月16日66

AI 驱动开发的七阶段 1. Grill 2. Research 3. Prototype 4. PRD 5. Issues 6. Implement 7. Review 来自 Skills For Real Engineers 作者 @mattpocockuk https://github.com/mattpocock/skills 7 个阶段:目的 | 产出 1. Grill:把模糊想法变成共享理解 | 问题陈述 + 对齐 2. Research:缓存难探索的外部信息 | research.md 3. Prototype:用可玩代码验证设计/UX | 可丢弃原型 4. PRD:描述终点,而非路径 | 需求文档 5. Issues:拆成可并行执行的垂直切片 | 带依赖的工单 DAG 6. Implement:Agent 执行(TDD、Ralph 等) | 可运行代码 7. Review:人工 QA,发现问题再回环 | QA 计划 + 新工单 /grill-with-docs:这是 /grill-me 的升级版,专为有代码库的场景设计 额外能力: 1. 领域语言(CONTEXT.md) 来自 DDD 的 ubiquitous language。CONTEXT.md 只是术语表,不是 spec、不是实现笔记。 例:「materialization cascade」比「lesson 被 real 化时文件系统里占坑」省 token、可搜索、命名一致。 2. ADR(docs/adr/) 只在三条件同时满足时写:难逆转、无上下文会令人惊讶、存在真实 trade-off。 3. 会话中的四类动作 · 对照 glossary 挑战用词 · 用具体场景压测边界 · 对照代码发现矛盾 · 决策即时写入 CONTEXT,不批量攒 与 /grill-me 的分工:有代码库 → /grill-with-docs;无代码库(写悼词、纯产品构思)→ /grill-me。

译@mattpocockuk 提出 AI 驱动开发七阶段:Grill(模糊→共享理解)、Research(缓存外部信息)、Prototype(可玩代码验证)、PRD(需求文档)、Issues(垂直切片)、Implement(Agent 执行)、Review(人工 QA)。/grill-with-docs 是 /grill-me 的升级版,专为有代码库场景设计,新增领域语言(CONTEXT.md)、ADR(docs/adr/)及会话四类动作。无代码库时仍用 /grill-me。作者认为 pre-PRD 阶段需更多结构,/grill-with-docs 将再次调整。

MiniMax (official)@MiniMax_AI · 6月16日38

Nice demo from @atomic_chat_hq: M3 Q4 ran locally with MLX-VLM, and completed a US customs form entirely on a Mac Studio M3 Ultra.

译MiniMax 官方展示开源模型 M3 Q4(4-bit 量化版)本地运行能力:使用 MLX-VLM 部署在 Mac Studio M3 Ultra 上,模型读取驾照照片和扫描文档后,自动完成一份美国海关申报表。处理耗时约 31 秒,输入 1,847 tokens,输出 736 tokens。过程中模型流式输出推理链,并调用 write_field、mark、sign 三个工具,无需人工干预。

Nathan Lambert@natolambert · 6月16日56

I launched 3 more videos in my post-training course! 1. Lecture 5: The rise of reasoning models 2. Lecture 6: DPO derivation, intuitions, and practice 3. A Q&amp;A from readers on lectures 1-4 rlhfbook dot com slash course More soon!

译我发布了后训练课程中的另外3个视频! 1. 第5讲:推理模型的崛起 2. 第6讲:DPO推导、直觉与实践 3. 读者关于第1-4讲的问答 rlhfbook dot com slash course 更多即将到来!

Google AI Developers@googleaidevs · 6月16日44

How does Gemma 4 12B handle audio and vision without encoders? @MaartenGr maps out the architecture in this step-by-step visual guide. ⤵️ https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b

译Gemma 4 12B 如何处理音频和视觉而无编码器?@MaartenGr 用逐步视觉指南解析了该架构。⤵️ https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b

OpenAI Developers@OpenAIDevs · 6月16日38

Use the OpenAI Developers plugin in Codex to build faster with OpenAI tools by setting up API keys, finding the right docs, and debugging along the way.

译使用Codex中的OpenAI开发者插件,通过设置API密钥、查找合适的文档并在过程中进行调试,从而更快地使用OpenAI工具进行构建。

宝玉@dotey · 6月16日53

《图解Skill》配套 Repo 里面带的一个我日常用来整理写作 AI 资讯的 Skill:info-digest Skill 就是我日常看到一些 AI 资讯、新闻,就把内容贴进去让它生成资讯,发到 X 和微博。默认是用 Claude 网页 + Opus 4.6。你看我发的大部分 AI 资讯的初稿都是出自它之手,当然我还会人工校验微调一下。 这套 Skill 的提示词还是有一些可以借鉴的地方 1. 是站在读者关心的角度去写 我在写作路上犯的一个错误就是自嗨型写作,只顾自己表达,而不是看目标读者是谁,读者需要什么想看什么。 2. 联网检索做事实核查 另一个容易翻车的地方就是资讯本身是有问题的,一不小心就可能会中招闹笑话,所以让 AI 辅助联网检索验证是有必要的,去做一些事实核查可以避免很多错误。 这也是为什么我是用 Claude 网页版,因为联网检索能力相对更好一些 3. 交代清楚背景信息 这个和第一点有点相关,也是要站在目标读者的角度,看里面的一些概念读者是否知道,这件事是否讲清楚了来龙去脉。 4. 生成格式 因为这个 Skill 生成的内容我是用来发 X 和微博的,而这两个平台就是默认用纯文本,而且篇幅不易过长,所以就需要内容短一点、精炼一点,开头有吸引力一点,以及纯文本格式。 完整内容可以参考: https://github.com/JimLiu/Illustrated-Agent-Skills/blob/main/skills/info-digest/SKILL.md

译宝玉在X介绍其用于整理AI资讯的info-digest Skill,默认使用Claude网页+Opus 4.6。提示词设计遵循四项原则:1.从读者关心角度写作,避免自嗨;2.联网检索事实核查(故用Claude网页版);3.交代背景信息,确保概念清晰;4.生成适合X和微博的短精炼纯文本格式。完整提示词可在GitHub项目仓库查看。

宝玉@dotey · 6月16日73

《图解Skill》配套 Repo 里面带的一个我日常用来整理写作 AI 资讯的 Skill:info-digest Skill 就是我日常看到一些 AI 资讯、新闻,就把内容贴进去让它生成资讯,发到 X 和微博。默认是用 Claude 网页 + Opus 4.6。你看我发的大部分 AI 资讯的初稿都是出自它之手,当然我还会人工校验微调一下。 这套 Skill 的提示词还是有一些可以借鉴的地方 1. 是站在读者关心的角度去写 我在写作路上犯的一个错误就是自嗨型写作,只顾自己表达,而不是看目标读者是谁,读者需要什么想看什么。 2. 联网检索做事实核查 另一个容易翻车的地方就是资讯本身是有问题的,一不小心就可能会中招闹笑话,所以让 AI 辅助联网检索验证是有必要的,去做一些事实核查可以避免很多错误。 这也是为什么我是用 Claude 网页版,因为联网检索能力相对更好一些 3. 交代清楚背景信息 这个和第一点有点相关,也是要站在目标读者的角度,看里面的一些概念读者是否知道,这件事是否讲清楚了来龙去脉。 4. 生成格式 因为这个 Skill 生成的内容我是用来发 X 和微博的,而这两个平台就是默认用纯文本,而且篇幅不易过长,所以就需要内容短一点、精炼一点,开头有吸引力一点,以及纯文本格式。 完整内容可以参考: https://github.com/JimLiu/Illustrated-Agent-Skills/blob/main/skills/info-digest/SKILL.md

译宝玉(@dotey)公开了《图解Skill》配套GitHub仓库中的info-digest Skill,用于日常整理AI资讯并生成推文初稿,默认调用Claude网页版+Opus 4.6。核心提示词技巧:1)站在读者角度写作;2)联网检索做实核查;3)交代背景信息;4)生成短而精炼的纯文本格式。该Skill为项目库JimLiu/Illustrated-Agent-Skills的一部分。同步有抽奖活动(转发/引用/评论抽10人,本周五中午12点,使用Grok抽奖)。

宝玉@dotey · 6月15日39

在微信读书飙升版排名 15 了,感谢大家💗

译宝玉(@dotey)的《图解 Skill —— AI 提效实战指南》在微信读书飙升版排名第15。为回馈读者,抽10人送实体书(限内地)或电子书,北京时间本周五12点开奖,转发、引用、评论即可参与。抽奖借助@Grok进行,将注意防范提示词注入。已购书读者可前往配套GitHub项目JimLiu/Illustrated-Agent-Skills,内含interview-analysis、interview-writing、info-digest等入门级实用Skills。

fofr@fofrAI · 6月15日60

Here's a fun hack that nudges Omni into a style space that it's hard to get to with just a prompt: - take a video and trim it to a few seconds at the start/end/both - pad the rest of the frames to be black (24fps, 720p) - prompt the model: "fill in the black frames" (or similar) It'll make a new video that mostly maintains the motion and look of the original. eg Realistic things stay realistic, without having to be an edit.

译这里有一个有趣的技巧,可以引导Omni进入一个仅靠提示词难以达到的风格空间: - 取一段视频,将其裁剪为开头/结尾/两端各几秒 - 将剩余帧填充为黑色(24fps,720p) - 提示模型:"填充黑色帧"(或类似表述) 它会生成一个新视频,大部分保持原始视频的运动和外观。例如,逼真的事物保持逼真,无需编辑。

fofr@fofrAI · 6月15日72

Anyhoo, you can do this.

译这是一个有趣的技巧,能将 Omni 推入一个仅靠提示词难以进入的风格空间: - 取一段视频,在开头/结尾/两端剪辑出几秒 - 将剩余帧填充为黑色(24fps, 720p) - 提示模型:“填充黑色帧”(或类似表述) 它会生成新视频,基本保持原视频的运动和外观。例如,写实的东西保持写实,无需剪辑。 总之,你可以这样做。

Berryxia.AI@berryxia · 6月15日49

卧槽,惊了兄弟们!这波流量我必须得接住啊! A社CEO Dario EX私信推荐的项目必须推荐啊! 既然“女正主”都主动私信推荐自己做的网站项目,我不得给大家推荐一下啊! 今天不仅仅是吃瓜,这个项目做的还挺有意思的~ Spaces Left Blank,一个个人诗歌文学网站,作者是 Jade Q Wang,风格非常独特。 网站名 "Spaces Left Blank"(留白)本身就是诗歌的核心意象 —— 故意留下的空白、未被言说的部分,比文字本身更有力量。 一、用 AI 做诗歌交互 这个网站最有意思的部分是它设计了两种 AI 交互阅读模式: 1. Adaptive Footnotes(自适应脚注) 把 PDF 上传给 AI(推荐 Opus 4.6+ 或 GPT 5.5) 让 AI 根据你的背景和兴趣,为诗歌中的典故、引用生成个性化注释 二、每个读者看到的注释都不一样 2. Cinematic Universe Exploration(电影宇宙探索模式) 把 PDF 上传到 Claude Project 让 AI 把诗歌当作一个"宇宙"来探索 —— 角色、时间线、意象关联 推荐 Opus 4.6,NotebookLM 也能用但"没那么有趣" 诗歌风格 从 Preview 页面的节选来看: 主题:移民创伤、ICE 突击搜查、童年记忆、种族身份、政治恐惧 形式:自由诗,碎片化叙事 意象:轨道日落、果树、鲁布·戈德堡装置、Von Trapp 船长 引用:《安多》(Andor)、Shane Carruth 的《Primer》 情绪:克制但紧迫,"我们活下来了"的劫后余生感 一句话总结:一个用诗歌探讨移民身份与创伤的文学网站,最大亮点是把 AI 当作诗歌阅读的交互工具 。 让每个读者获得个性化的注释和探索体验。挺有想法的,比大多数诗集网站高级。 PS:看来还是夹带私货了啊,体验推荐的模型是Claude😄 @DarioAmodei 人不念旧情是不可能的~ 关键好友诗情画意啊!

译Berry Xia发推称,Anthropic老板Dario Amodei私信推荐个人诗歌文学网站“Spaces Left Blank”(留白),作者为Jade Q Wang。该站有AI交互阅读模式:Adaptive Footnotes(上传PDF由Opus 4.6+或GPT 5.5根据读者背景生成个性化注释);Cinematic Universe Exploration(将诗歌视为宇宙探索角色与时间线关联,推荐Opus 4.6,NotebookLM也可用但“没那么有趣”)。诗歌主题涉及移民创伤、ICE突击、种族身份等。推文调侃Dario虽早年在中国有经历且对华态度负面,仍推荐此项目。

向阳乔木@vista8 · 6月15日54

研究起来,未来的广告形态,AI时代的广告,巨头已经都开始探索

译主推文指出 AI 时代的广告形态已成巨头探索方向。引用推文 @yaojingang 分析 OpenAI 广告后台发现:ChatGPT Ads 本质不是买关键词,而是买用户任务场景和意图匹配;广告内容越像说明书越适合;投放页面的 SEO 基础设施(爬虫理解与验证页面)至关重要;落地页、标题、文案及上下文提示共同影响匹配质量。官方将其定义为“AI 原生广告”,并开启“GEM 时代”。

Peter Steinberger 🦞@steipete · 6月15日43

Whenever you create an issue on one of oure open source projects, @clawsweeper will review it, and *if* it fits the VISION.md file, will pick it up and create+autoreview a PR. e.g.: https://github.com/openclaw/gogcli/pull/816

译每当你在我们的一个开源项目上创建issue时,@clawsweeper 会审核它,*如果*它符合VISION.md文件,就会接手并创建+自动审核一个PR。 例如:https://github.com/openclaw/gogcli/pull/816

数字生命卡兹克@Khazix0918 · 6月15日24

Codex现在对我最大的作用,就是在手机上启动家里电脑上的Claude code,然后开启远程控制,方便我在手机上继续coding...🤣🤣🤣 说实话, Claude自己客户端的Dispatch实在是太难用了。。。 ​其实不止 Dispatch,整个客户端做的都挺垃圾的。。。

译推文分享Codex的实际用法:在手机上远程启动家里电脑的Claude Code,实现移动端远程编码。作者认为Claude客户端的Dispatch功能极为难用,并进一步批评整个客户端体验都很糟糕。

宝玉@dotey · 6月15日57

中国水墨艺术图的提示词👍

译通过优雅的中国水墨艺术让想象力栩栩如生。 提示词 ↓ “传统水墨画诠释[SUBJECT],表现性黑色墨笔笔触,柔和渐变,诗意简约,极简构图,大面积留白,当代画廊展示,干净白色背景,无文字,无标志。” 👍

jason@jxnlco · 6月15日68

check out my /ultragoal skill https://github.com/jxnl/dots/blob/master/agents/skills/ultragoal/SKILL.md

译查看我的 /ultragoal 技能 https://github.com/jxnl/dots/blob/master/agents/skills/ultragoal/SKILL.md

Orange AI@oran_ge · 6月15日74

周末做了一套长文插图 skill,效果非常不错。 做完之后,我想找篇文章试试这个 skill 的效果,顺便可以作为这个项目的 readme。 在《鹅腿阿姨》和《置身钉内》之间,还是选了后者,毕竟这篇文章不仅是对阿里对钉钉的反思,也是对通用智能产品的反思。 虽然 AI 产品的功能是通用的,但人们对新事物的理解是简单的。 一个好产品只有一个主发心。 这篇文章的原文有 7.5 万字,在注意力涣散的今天,能看完的人寥寥无几,但把20张插图看完只要一分钟,应该人人都可以。 在制作这些插图的时候,我让 Agent 为每个场景生成了2套让我去挑,这样比较高效,也最终也更省 token。 为了展示这个 skill 本身的效果,我没有对任何一张图进行修改,另外最近的感觉是宁抽卡不修改。 我在挑配图的时候有些喜出望外,我发现我自己对文章也有了更强的画面感和更深的理解。 橙线插画.skill 下载地址: https://github.com/orange2ai/orange-line-illustration

译Oran Ge 发布了一套名为“橙线插画.skill”的 AI 智能体技能,可自动将长文生成插图。他以 7.5 万字的文章《置身钉内》作为测试,由 Agent 为每个场景生成 2 套插图供挑选,最终制作了 20 张插图,且未做任何修改。该技能旨在帮助读者快速理解长文内容,下载地址已公开在 GitHub。

meng shao@shao__meng · 6月15日73

OpenAI Codex Mobile 工程实践指南 @Dimillian 提出了 Codex Mobile 核心心智模型: 手机不只是缩小版终端,它是远程开发机的「控制中心」。 · 代码执行、任务运行仍在 Mac / Windows / devbox 等已连接主机上完成 · 手机提供原生 UI,用于启动、引导、审查、组织工程工作 · 价值不在「在手机上写代码」,而在「离桌时仍能做出关键决策」 # 任务启动:先定边界,再发 prompt 好 agent 工作的前提是正确隔离的执行环境。Codex Mobile 在创建新 thread 时可配置: · 选择主机与工作区:指定在哪台机器、哪个项目跑 · 选择 Git 分支:从正确基线出发,避免事后修 Git 状态 · 创建独立 worktree:隔离变更,不污染当前 checkout · 运行 environment setup 脚本:worktree 创建后自动执行桌面端配置的初始化脚本 三种典型模式: 1. 用当前 checkout → 快速调查 2. 新建 worktree → 需要隔离的改动 3. 从目标 base branch 起步 → 避免后续 merge 混乱 限制:environment 脚本目前不能在 Mobile 上编辑,需在 Desktop 配置。 # Side Chat:主线程做活,旁路线程理解 长线程会积累大量上下文;每个旁路问题都打断主线程,会让 transcript 变噪、agent 偏离目标。 Side chat 的定位:与当前 thread 关联的轻量对话,不抢占主工作流。 · /side 或 /side <prompt> 打开 · 选中 transcript 文本 → Ask in side chat,选中内容成为起始上下文 适合的问题类型: · 为什么选这种架构? · 这个 error 实际含义? · 与 desktop 行为是否一致? · 生成 release note 版说明 · 批准这条命令前应验证什么? 分工: 主 thread 负责执行;side chat 负责理解与决策辅助。 # Plan 与 Goal:路径 vs 结果 两者解决不同问题: · Plan mode:「怎么实现?」,任务欠规格、风险高、跨多系统 · Goal:「完成标准是什么?」,需多轮迭代的 durable 目标 推荐工作流: 1. 高风险任务 → 先 Plan,审查边界 2. 方案确认后 → 转为 Goal,让 agent 跨实现、测试、review、清理持续推进 3. 实操中常跳过显式 Plan:先与 Codex 讨论细节,满意后让 Codex 自己写 Goal(通常比人工写更好) Goal 写法注意: 设定可验证、不过宽的终态。过于绝对的要求(如「100% 像 X 或 Y」)容易导致过度执行、浪费 token。Mobile 端现已可监控 token 消耗,但仍应控制 Goal 粒度。 Mobile 对 /goal、/plan 支持完整:可见运行时长、编辑、暂停;Plan 工具的问题也会在 UI 中展示。 # Mobile 独有优势:别忘记「你在用手机」 Composer 内置访问本地手机数据的能力,这是桌面端没有的: · 拍照 / 选图 / 浏览文件 · 语音录制 prompt(后台持续录音:切到其他 app 时 dictation 不中断) 典型场景(作者做 ChatGPT iOS 的经验): · 发现问题 → 直接截图发给 Codex thread → 快速修复,无需回电脑 · 同 Wi-Fi 下 → 在真机构建运行,直接验证 Codex 改动结果 · 边用 app 边口述 10 分钟问题 → 回 Codex 发送,形成「Talk to phone → app appears」闭环 Pinned 长线程: 例如绑定 Linear tracker 的 thread,随手粘贴文本即可按当前上下文正确建 issue、打标签。 # Mobile 代码审查:不必等回工位 Completed turn 可展示变更文件摘要,支持: · 打开 diff、展开/折叠、换行 · 查看带语法高亮的源文件 · 行内评论 → 自动汇入 composer,发回 Codex 分层用法: 1. 变更摘要 → 快速 sanity check 2. 完整 diff / 源文件 → 缺上下文时深入 3. Inline comment → 精确修正 4. review 命令 → 审查本地变更或与分支对比 5. 链接文件回 chat → 让 Codex 针对特定文件推理 关键洞察: 手机不能替代大屏做深度 code reading,但很多 review 卡在一两个决策点——这些决策不必等到回 desk。

译手机是远程开发机“控制中心”,代码执行在主机。任务启动可配主机、工作区、Git分支,创建独立worktree并自动执行环境脚本。Side Chat提供轻量旁路对话,不打断主线程。Plan模式用于高风险任务规划,Goal模式设定可验证终态。手机独有优势包括拍照截图、后台持续录音语音prompt、真机构建验证。代码审查支持diff查看、语法高亮、行内评论,不必等回工位。

karminski-牙医@karminski3 · 6月15日53

27B小模型挑战Fable 5? 还成功了? 劲爆消息, 在 Iterative-Contextual-Refinements 这个框架的加持下, Qwen3.6-27B 跑分超过了 Anthropic Fable5! 真的不是做梦吗? 还是跑分没输过, 实战没赢过? 于是赶紧看了一下这个框架, 发现设计的很有启发性, 能学到很多东西, 给大家详细讲下. 这个框架主要提升的是软件性能优化, 即如何才能让代码性能更高. 大家如果还记得我那个 vector-db-bench, 给大模型提供了火焰图, perf, 各种测试 tool_call 让大模型自己迭代去优化代码性能. 而这个框架更进了一步, 它瞄准了小模型的最核心弱点, 参数量不足导致的"脑残", 即小模型更容易长上下文衰退或陷入局部最优. 于是这个框架出手了, 先针对技术方案, 它搞了个BFS探索模式, 在写代码的 plan 过程, 让小模型自己提出多种解决方案, 比如写个字符串匹配, 小模型直接搞了个O(N^2)的暴力搜索, 而这一步它的Agent会让小模型思考, 你能想到哪些可能的解决方案? 于是就拓展了小模型的视野, KMP, 滑动窗口等技术方案没准就出来了. 然后就是写代码的过程中使用的DFS模式, 它会借助Agent让小模型借助代码性能测试工具不断跑分, 然后让小模型反思, 有哪些性能热点可以优化, 然后进行优化. 最后, 他还有个统筹全局的路由, 不但负责在BFS/DFS过程中选取最佳的技术方案, 而且还会在DFS过程中, 总结模型优化过程中面临的问题, 再反馈到BFS过程, 告诉模型, 需要注意xxx优化是有价值的, xxx优化面临xxx问题. 从而形成优化闭环, 解决掉模型陷入死胡同不断仰卧起坐的问题. 最后, 在框架加持下, Qwen3.6-27B 在 CGRE 测试得到了95.5分, 成功超越了 Fable5(Mythos) 的94.1分! 我只能说这真的是 Agentic 工程的胜利了! 不要模型写的不好就无脑怪模型, 也要看看是不是Agent本身有问题. 那么代价是什么呢? 当然就AI硬通货是 token 了, 这个框架正是用了25-40x的token消耗完成了这一壮举. 值得学习. 框架:http://github.com/ryoiki-tokuiten/Iterative-Contextual-Refinements 论文:http://arxiv.org/abs/2605.15222 #mythos #fable5

译Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分,超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案(如KMP、滑动窗口)、DFS结合性能工具迭代优化代码,以及路由统筹形成闭环,克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。

elvis@omarsar0 · 6月15日53

I also never set /goal by myself. The agent is probably better equipped with its context to help you set a strong goal for longer autonomous runs. Smart to have it as a tool for agents. Exactly how I have it built in my orchestrator app. I even built a little UI for /goal in my orchestrator. Here is something you can try if you want to get better goals that agents follow. Mine your agent sessions, collect goals that performed well, and package those insights/best practices as a skill using an automation. That skill can then be reused with the /goal tool to set even stronger and more reliable goals. Doesn't get more meta than this. I am thinking of doing a live session on this if folks are interested. This is a simple workflow with tons of value and ways to optimize the results of /goal. It turns out that some of the weird behavior of LLM (e.g.g, reward hacking, bias to finish quickly, and other weird shortcuts) creep up a lot when using /goal, so you want to be extremely careful of that. I wrote a little more about better ways to set /goal here: https://x.com/omarsar0/status/2065880971031834786?s=20

译引用推文指出,Codex 可自主查看和设置 /goal,这是元提示的泛化。主推文作者强调,智能体凭借上下文能帮你设定更强目标,因此将 /goal 作为工具是明智之举。他还在编排器中为 /goal 构建了 UI,并建议从会话中挖掘表现良好的目标,封装为技能自动化复用。需注意,LLM 可能出现奖励黑客、偏向快速完成等奇怪行为,使用 /goal 时要格外谨慎。

Tibo@thsottiaux · 6月15日68

Codex can see and set its own /goal. Everything we build, we build also as a tool for the agent. This is a generalization of meta prompting, where you let the agent set its own task based on your intent.

译Codex 可以查看并设置它自己的 /goal。 我们所构建的一切,也都是作为该智能体的工具而构建的。 这是元提示的一种泛化,即让智能体根据你的意图自行设定任务。

elvis@omarsar0 · 6月15日73

To use an LLM Council with your own agent, check out my llm-council skill. It works with Fireworks AI APIs, but you can easily adapt it to OpenRouter. Built for Claude Code, but it might work with other agents. I use it a lot for deep research tasks. Let me know if you would like a full tutorial for this. I have a ton of ideas on how to expand this to other domains and use some of the more recent ideas like dynamic workflows. https://github.com/dair-ai/dair-academy-plugins/blob/main/plugins/llm-council/skills/llm-council/SKILL.md

译Elvis Saravia 开源了 llm-council 技能,专为 Claude Code 等 AI 智能体设计,适用于深度研究任务。该技能默认集成 Fireworks AI 的 API,可轻松适配 OpenRouter。项目代码托管在 GitHub,地址为 dair-ai/dair-academy-plugins。

Ethan Mollick@emollick · 6月14日62

Final one-shot prompt I did before the Fable interruption: "build me a cool simulation thing that lets me demo the various forms of FTL travel from both famous works of fiction and scientific speculation. it should be graphically compelling &amp; interesting." https://superluminal-ftl.netlify.app/

译在 Fable 打断之前,我完成的最后一次一次性提示词:“做一个很酷的模拟工具,让我能演示从科幻名作和科学推测中来的各种超光速旅行形式。它应该有视觉吸引力且有趣。” https://superluminal-ftl.netlify.app/

AYi@AYi_AInotes · 6月14日44

GPT Image 2 加 Grok简直是目前玩AI视频的性价比之王,而且grok还能给你加字幕,真的厉害,@grok bro你还藏了多少我不知道的? 自从Seedance一直涨价我就没续订会员了, 本来以为 Seedance 2.0 是当前 AI 视频的最优解, 试完 GPT Image 2 加 Grok 的混合工作流,直接被性价比打服了, 月费三十美元,SuperGrok 订阅就能全覆盖,现在SuperGrok还有3个月优惠67%的优惠,真的很香! 单条短片几乎零边际成本,想迭代多少版就迭代多少版, 角色风格一致性交给 GPT Image 2 把控,出图丢进 Grok 做动态效果,成片质感完全能打。 最新消息是亚马逊 CEO 向美国政府反映,Claude 的 Fable 模型,存在能找出软件漏洞的能力,进而被美国政府封了,试着把这个热点和做好的老钱风美女照片给grok,出来的视频效果真8错! 你们现在用什么方案做 AI 视频,欢迎评论区聊聊啊~

译用户推荐 GPT Image 2 + Grok 混合工作流制作 AI 视频,称性价比极高。SuperGrok 月费 30 美元,当前 3 个月优惠 67%,单条短片零边际成本;GPT Image 2 把控角色风格一致性,Grok 负责动态效果。另提及 Claude 的 Fable 模型被美国政府管制,真正触发原因并非防中国,而是美国本土竞争对手提交越狱演示证明其安全层 Mythos 可被绕过。Anthropic 事后复测称此漏洞狭窄且非通用。

jason@jxnlco · 6月14日66

added something new to my agents.md "when i send you an app shot with no context try your best to figure out what you want me to do with it and udpate your appshot triage skill"

译在我的 agents.md 中新增了一些内容: "当你给我发送一张没有上下文的应用截图时,尽你所能弄清楚你想让我对它做什么,并更新你的应用截图分诊技能。"

PixVerse@PixVerse_ · 6月14日21

Impressive and humorous pigeon diamond heist by @FutureVibesAi — great work on PixVerse!

译令人印象深刻的幽默鸽子钻石盗窃视频,由@FutureVibesAi制作——在PixVerse上表现很棒!

Orange AI@oran_ge · 6月14日58

用了几天了,很好用

译ReadTo是一款英文网站阅读插件,可在网页上自动标注超出用户英语水平的单词。开发者趁Claude API单独收费前,运行了两个Claude 20x max任务,处理了16万单词表。该插件无需注册、免费使用。用户反馈已使用数日,体验很好。

宝玉@dotey · 6月14日63

给 Agent 交代任务的时候一定说清楚怎么验证,然后就怎么需要管中间结果了

译宝玉分享与AI Agent交互的关键习惯:交代任务时只需说清楚验证标准,之后便无需关注中间结果。引用@huangyun_122的做法:先让Agent写出代码计划,反复确认后汇总为任务列表,最后编程并逐项标记完成。这一流程确保目标明确,同时减少不必要的中间干预,提升效率。

宝玉@dotey · 6月14日74

举一个具体的用 Claude Design 更新设计和代码的例子 我有一个视频字幕编辑器工具,是 Claude Design 做的设计,之前标题文字和下面的信息是放在一行,标题一长就放不下,于是我就让它变成两行。 图1 是我在设计稿上做的修改,修改好了后导出下载 zip 文件,放到项目中,用 git diff 很容易看到做了哪些变更(图2) 然后一句简单的提示给 Claude Code: > 参考设计稿 design 目录下的相关变更,对 UI 进行变更 Claude 自己通过 git diff 去分析变更,然后找出所有设计稿修改了的位置,自己帮我修改了相应的 Swift 代码,任务完成!(图4是修改后的效果) 全程我主要是在 Claude Design 上修改,然后需要手工去同步一下。

译宝玉分享了 Claude Design 与 Claude Code 联动的实际案例:在 Claude Design 上修改字幕编辑器 UI 设计稿后,导出 zip 并用 git diff 查看变更,然后通过一句提示让 Claude Code 参考设计目录变更自动修改 Swift 代码,全程只需手动同步设计文件。他解释为何 Codex 没有类似产品:Claude Design 依赖 Claude Opus 4.8 模型同时具备 UI/UX 设计和系统架构设计能力,能一次性交付可交互原型(含数据结构、状态管理、交互逻辑);而 GPT-5.5 还做不到。Harness 层可复制,模型层才是关键门槛。

jason@jxnlco · 6月14日50

Shopping With codex. You can just go to the checkout page and do an app shot and say “find me a coupon before we checkout.

译Shopping With codex. 你只需前往结账页面,截个图,然后说“在结账前帮我找张优惠券”。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月17日
07:57
宝玉@dotey
47
Codex 操控电脑的三种方式:Computer Use、Chrome 扩展、内置浏览器

Jason 区分三种方式:Computer Use 像人一样看屏幕点鼠标,可操作任何桌面应用(如 Xcode、iOS 模拟器),Mac 可后台运行,Windows 需占前台;Chrome 扩展使用已登录浏览器的 cookies 和账号状态,适合 Gmail、LinkedIn 等需登录或同时操作多标签页的场景;内置浏览器是对话线程内的沙盒,无登录状态,适合前端开发、本地预览和页面标注改代码。选型:需登录用 Chrome,操作桌面应用用 Computer Use,前端开发用内置浏览器;有现成插件或 MCP 时优先用结构化工具。

jason: http://x.com/i/article/2066964446086676480

智能体OpenAI教程/实践
06:26
宝玉@dotey
70
这个提示词挺酷的,可以把照片变成融入了涂鸦元素的平面插图。

Ciri: GPT Image 2 on Chatgpt Prompt: Please transform the entire image into a single Decorative Folk Flat Illustration with Do...

图像生成教程/实践
03:53
jason@jxnlco
37
对 computer use、browser use 和 chrome extension 感到困惑? 这篇就是为你准备的 读完后你会明白它们各自是什么、如何工作,以及 app shots 如何将它们串联起来

jason: http://x.com/i/article/2066964446086676480

智能体OpenAI教程/实践
02:52
MiniMax (official)@MiniMax_AI
43
MiniMax 展示了其 M3 模型在真实 Agent 循环中的应用,通过 Together Compute 提供完整模型栈:Parakeet 负责语音转文字(STT)、MiniMax Speech 2.8 负责语音合成、MiniMax M3 负责推理。Demo 为一个 Mac 顶栏应用,用户提问后 M3 读取屏幕指出薄弱环节,再通过指令直接编辑磁盘上的文件。切换 STT 至 Together AI 后,延迟从 546ms 降至 277ms。

Victor Su-Ortiz: forked clicky into a tiny Mac top-bar app that reviews my website designs, talks back, and patches the code itself. the ...

智能体教程/实践
6月16日
23:52
elvis@omarsar0
43
有机会尝试了 @mattpocockuk 的/teach 技能。 它类似于我的/learn 技能。 你现在就可以在我们的 academy 中使用 Hermes Agent 尝试该技能。我会暂时保持实验室免费。 用 AI 智能体学习真是太棒了。 去试试吧!
智能体教程/实践
22:48
fofr@fofrAI
60
提醒:如果你先移除视频中现有的音轨,Omni 可以为你生成全新音频。 ffmpeg -i input.mp4 -c:v copy -an input_without_audio.mp4

fofr: Omni tip: If you remove any audio from the video you're editing, Omni will fully regenerate the audio for you, which mig...

多模态教程/实践
21:17
jason@jxnlco
23
wow 突破 10 万 那么,最大的需求之一是关于重置速率限制,所以这里有个小技巧。 Codex 现在有推荐机制,让你可以自行重置速率限制。

jason: so close to 90k followers... what codex articles do i need to write to get there...

教程/实践编码
21:04
AYi@AYi_AInotes
55
OpenAI Codex 2026版全景:架构、生态横评与最佳实践

OpenAI Codex 2026版以统一执行层+编排中枢架构覆盖App、CLI、IDE、Cloud、Web五入口,模型迭代至GPT-5.4 for Codex,Spark版快15倍。平台层由MCP、Skills(开放标准)、Plugins(可分发)构成。SWE-Bench Pro Public上56.8%微弱领先,OSWorld-Verified 64.7%接近人类;Claude Code在百万token重构占优,Codex强在异步执行与并行调度。最佳实践:Prompt含Goal/Context/Constraints/Done-when,用AGENTS.md固化持久指令,MCP按高频痛点优先配置。

智能体MCP/工具OpenAI教程/实践
18:18
PixVerse@PixVerse_
38
用户@heisturnx 用PixVerse等AI工具制作了整条15秒UGC广告,零相机、零摄影棚、零真实产品拍摄。步骤如下:✅ 在PixVerse中用ChatGPT生成首张图片 ✅ Nana Banana Pro 2(Flow AI)完成其余图片 ✅ 在PixVerse中用Kling 3.0制作视频动画 ✅ 在TikTok上精剪完成。这就是品牌现在付费购买的内容。想要完整提示词分解可回复"BLEND"。 PixVerse官方赞叹:太棒了UGC广告!

Turnx: 🤖 made this entire 15-second UGC ad with AI zero camera, zero studio, zero real product shoot. Here's the quick breakdo...

教程/实践视频
10:03
AYi@AYi_AInotes
63
Codex自选官方插件配置指南

高频使用 Codex 的用户应让其自行挑选 OpenAI 官方插件,效率翻倍。官方插件覆盖表格处理、PPT 制作、服务器部署、本地文件操作、自动化流程等日常需求。具体三步:打开项目对话窗口进入 Plugins 页面;让 Codex 结合项目目标筛选适配插件并说明用途;评估确认后直接让 Codex 完成安装。核心逻辑是让 AI 帮你用好 AI,避免盲目试错。

AYi: http://x.com/i/article/2063237792746831872

OpenAI教程/实践编码
08:49
meng shao@shao__meng
66
@mattpocockuk 提出 AI 驱动开发七阶段及 /grill-with-docs 升级

@mattpocockuk 提出 AI 驱动开发七阶段:Grill(模糊→共享理解)、Research(缓存外部信息)、Prototype(可玩代码验证)、PRD(需求文档)、Issues(垂直切片)、Implement(Agent 执行)、Review(人工 QA)。/grill-with-docs 是 /grill-me 的升级版,专为有代码库场景设计,新增领域语言(CONTEXT.md)、ADR(docs/adr/)及会话四类动作。无代码库时仍用 /grill-me。作者认为 pre-PRD 阶段需更多结构,/grill-with-docs 将再次调整。

Matt Pocock: Here are my 7 phases of AI-powered development. I've been thinking that the pre-PRD phase needs more structure. You need...

智能体GitHub教程/实践编码
08:03
MiniMax (official)@MiniMax_AI
38
MiniMax 官方展示开源模型 M3 Q4(4-bit 量化版)本地运行能力:使用 MLX-VLM 部署在 Mac Studio M3 Ultra 上,模型读取驾照照片和扫描文档后,自动完成一份美国海关申报表。处理耗时约 31 秒,输入 1,847 tokens,输出 736 tokens。过程中模型流式输出推理链,并调用 write_field、mark、sign 三个工具,无需人工干预。

atomic.chat: Open-weight MiniMax M3 filled out a US customs form from a driver's license photo For this test we deployed MiniMax M3 Q...

推理教程/实践端侧
06:43
Nathan Lambert@natolambert
56
我发布了后训练课程中的另外3个视频! 1. 第5讲:推理模型的崛起 2. 第6讲:DPO推导、直觉与实践 3. 读者关于第1-4讲的问答 rlhfbook dot com slash course 更多即将到来!
推理教程/实践数据/训练
05:36
Google AI Developers@googleaidevs
44
Gemma 4 12B 如何处理音频和视觉而无编码器?@MaartenGr 用逐步视觉指南解析了该架构。⤵️ https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b
Google多模态教程/实践
05:32
OpenAI Developers@OpenAIDevs
38
使用Codex中的OpenAI开发者插件,通过设置API密钥、查找合适的文档并在过程中进行调试,从而更快地使用OpenAI工具进行构建。
OpenAI教程/实践编码
05:06
宝玉@dotey
53
宝玉分享《图解Skill》配套的 info-digest Skill 提示词设计原则

宝玉在X介绍其用于整理AI资讯的info-digest Skill,默认使用Claude网页+Opus 4.6。提示词设计遵循四项原则:1.从读者关心角度写作,避免自嗨;2.联网检索事实核查(故用Claude网页版);3.交代背景信息,确保概念清晰;4.生成适合X和微博的短精炼纯文本格式。完整提示词可在GitHub项目仓库查看。

宝玉: 🎟️抽奖啦!为了回馈读者们对《图解 Skill -- AI 提效实战指南》这本书的支持,也搞一次抽奖活动,抽 10 个人,北京时间本周五中午12点开奖。 规则很简单:转发、引用、评论这条推文就可以。 可以选择实体书(仅限内地地址)或者电子...

教程/实践
04:36
宝玉@dotey
73
宝玉发布《图解Skill》配套Repo中的info-digest Skill

宝玉(@dotey)公开了《图解Skill》配套GitHub仓库中的info-digest Skill,用于日常整理AI资讯并生成推文初稿,默认调用Claude网页版+Opus 4.6。核心提示词技巧:1)站在读者角度写作;2)联网检索做实核查;3)交代背景信息;4)生成短而精炼的纯文本格式。该Skill为项目库JimLiu/Illustrated-Agent-Skills的一部分。同步有抽奖活动(转发/引用/评论抽10人,本周五中午12点,使用Grok抽奖)。

宝玉: 🎟️抽奖啦!为了回馈读者们对《图解 Skill -- AI 提效实战指南》这本书的支持,也搞一次抽奖活动,抽 10 个人,北京时间本周五中午12点开奖。 规则很简单:转发、引用、评论这条推文就可以。 可以选择实体书(仅限内地地址)或者电子...

GitHub开源生态教程/实践
6月15日
23:24
宝玉@dotey
39
宝玉(@dotey)的《图解 Skill -- AI 提效实战指南》在微信读书飙升版排名第15。为回馈读者,抽10人送实体书(限内地)或电子书,北京时间本周五12点开奖,转发、引用、评论即可参与。抽奖借助@Grok进行,将注意防范提示词注入。已购书读者可前往配套GitHub项目JimLiu/Illustrated-Agent-Skills,内含interview-analysis、interview-writing、info-digest等入门级实用Skills。

宝玉: 🎟️抽奖啦!为了回馈读者们对《图解 Skill -- AI 提效实战指南》这本书的支持,也搞一次抽奖活动,抽 10 个人,北京时间本周五中午12点开奖。 规则很简单:转发、引用、评论这条推文就可以。 可以选择实体书(仅限内地地址)或者电子...

GitHub教程/实践
23:23
fofr@fofrAI
60
这里有一个有趣的技巧,可以引导Omni进入一个仅靠提示词难以达到的风格空间: - 取一段视频,将其裁剪为开头/结尾/两端各几秒 - 将剩余帧填充为黑色(24fps,720p) - 提示模型:"填充黑色帧"(或类似表述) 它会生成一个新视频,大部分保持原始视频的运动和外观。例如,逼真的事物保持逼真,无需编辑。
教程/实践视频
23:23
fofr@fofrAI
72
这是一个有趣的技巧,能将 Omni 推入一个仅靠提示词难以进入的风格空间: - 取一段视频,在开头/结尾/两端剪辑出几秒 - 将剩余帧填充为黑色(24fps, 720p) - 提示模型:"填充黑色帧"(或类似表述) 它会生成新视频,基本保持原视频的运动和外观。例如,写实的东西保持写实,无需剪辑。 总之,你可以这样做。

fofr: Here's a fun hack that nudges Omni into a style space that it's hard to get to with just a prompt: - take a video and tr...

教程/实践视频
22:25
Berryxia.AI@berryxia
49
Anthropic CEO Dario Amodei推荐诗歌网站"Spaces Left Blank",含AI交互阅读模式

Berry Xia发推称,Anthropic老板Dario Amodei私信推荐个人诗歌文学网站“Spaces Left Blank”(留白),作者为Jade Q Wang。该站有AI交互阅读模式:Adaptive Footnotes(上传PDF由Opus 4.6+或GPT 5.5根据读者背景生成个性化注释);Cinematic Universe Exploration(将诗歌视为宇宙探索角色与时间线关联,推荐Opus 4.6,NotebookLM也可用但“没那么有趣”)。诗歌主题涉及移民创伤、ICE突击、种族身份等。推文调侃Dario虽早年在中国有经历且对华态度负面,仍推荐此项目。

Berryxia.AI: Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人......

Anthropic教程/实践
19:59
向阳乔木@vista8
54
主推文指出 AI 时代的广告形态已成巨头探索方向。引用推文 @yaojingang 分析 OpenAI 广告后台发现:ChatGPT Ads 本质不是买关键词,而是买用户任务场景和意图匹配;广告内容越像说明书越适合;投放页面的 SEO 基础设施(爬虫理解与验证页面)至关重要;落地页、标题、文案及上下文提示共同影响匹配质量。官方将其定义为"AI 原生广告",并开启"GEM 时代"。

姚金刚: 看了下OpenAI的广告后台,非常简单 但感觉要做好这个投放,难度也不小 研究了下官方文档,几点感触: 1、ChatGPT Ads的本质不是"买关键词",广告很依赖丰富的上下文,其实质是在买用户任务场景和意图匹配 2、对于AI广告,越像说明...

OpenAI搜索教程/实践
17:54
Peter Steinberger 🦞@steipete
43
每当你在我们的一个开源项目上创建issue时,@clawsweeper 会审核它,*如果*它符合VISION.md文件,就会接手并创建+自动审核一个PR。 例如:https://github.com/openclaw/gogcli/pull/816
智能体GitHub教程/实践编码
14:28
数字生命卡兹克@Khazix0918
24
Codex远程控制Claude Code,吐槽Claude客户端难用

推文分享Codex的实际用法:在手机上远程启动家里电脑的Claude Code,实现移动端远程编码。作者认为Claude客户端的Dispatch功能极为难用,并进一步批评整个客户端体验都很糟糕。

Anthropic教程/实践编码
13:04
宝玉@dotey
57
通过优雅的中国水墨艺术让想象力栩栩如生。 提示词 ↓ "传统水墨画诠释【SUBJECT】,表现性黑色墨笔笔触,柔和渐变,诗意简约,极简构图,大面积留白,当代画廊展示,干净白色背景,无文字,无标志。" 👍

Aleena Amir: Bring your imagination to life through elegant Chinese ink wash art. PROMPT ↓ "Traditional Chinese ink wash interpretati...

图像生成教程/实践
11:00
jason@jxnlco
68
查看我的 /ultragoal 技能 https://github.com/jxnl/dots/blob/master/agents/skills/ultragoal/SKILL.md

jason: tips for codex goals sure you can use /goal but it also has a set_goal() function its almost better to prompt the model ...

智能体OpenAI教程/实践编码
09:56
Orange AI@oran_ge
74
Oran Ge 推出橙线插画.skill 长文自动插图工具

Oran Ge 发布了一套名为“橙线插画.skill”的 AI 智能体技能,可自动将长文生成插图。他以 7.5 万字的文章《置身钉内》作为测试,由 Agent 为每个场景生成 2 套插图供挑选,最终制作了 20 张插图,且未做任何修改。该技能旨在帮助读者快速理解长文内容,下载地址已公开在 GitHub。

Orange AI: http://x.com/i/article/2066286219416469504

GitHub图像生成开源/仓库教程/实践
08:45
meng shao@shao__meng
73
OpenAI Codex Mobile 工程实践指南

手机是远程开发机“控制中心”,代码执行在主机。任务启动可配主机、工作区、Git分支,创建独立worktree并自动执行环境脚本。Side Chat提供轻量旁路对话,不打断主线程。Plan模式用于高风险任务规划,Goal模式设定可验证终态。手机独有优势包括拍照截图、后台持续录音语音prompt、真机构建验证。代码审查支持diff查看、语法高亮、行内评论,不必等回工位。

Thomas Ricouard: http://x.com/i/article/2065692454490103808

智能体OpenAI教程/实践编码
07:55
karminski-牙医@karminski3
53
Qwen3.6-27B在Iterative-Contextual-Refinements框架下超越Anthropic Fable5

Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分,超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案(如KMP、滑动窗口)、DFS结合性能工具迭代优化代码,以及路由统筹形成闭环,克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。

智能体arXivGitHub开源生态
06:19
elvis@omarsar0
53
Codex 自主设置 /goal:智能体工具化与风险警示

引用推文指出,Codex 可自主查看和设置 /goal,这是元提示的泛化。主推文作者强调,智能体凭借上下文能帮你设定更强目标,因此将 /goal 作为工具是明智之举。他还在编排器中为 /goal 构建了 UI,并建议从会话中挖掘表现良好的目标,封装为技能自动化复用。需注意,LLM 可能出现奖励黑客、偏向快速完成等奇怪行为,使用 /goal 时要格外谨慎。

Tibo: Codex can see and set its own /goal. Everything we build, we build also as a tool for the agent. This is a generalizatio...

智能体MCP/工具教程/实践
05:45
Tibo@thsottiaux
68
Codex 可以查看并设置它自己的 /goal。 我们所构建的一切,也都是作为该智能体的工具而构建的。 这是元提示的一种泛化,即让智能体根据你的意图自行设定任务。

Pietro Schirano: I basically never write my own /goal anymore. I ask Codex to write one for itself, and one for each agent it spawns. Lik...

智能体MCP/工具教程/实践
02:17
elvis@omarsar0
73
Elvis Saravia 发布 LLM Council 技能

Elvis Saravia 开源了 llm-council 技能,专为 Claude Code 等 AI 智能体设计,适用于深度研究任务。该技能默认集成 Fireworks AI 的 API,可轻松适配 OpenRouter。项目代码托管在 GitHub,地址为 dair-ai/dair-academy-plugins。

OpenRouter: Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half ...

智能体GitHubMCP/工具教程/实践
6月14日
22:44
Ethan Mollick@emollick
62
在 Fable 打断之前,我完成的最后一次一次性提示词:"做一个很酷的模拟工具,让我能演示从科幻名作和科学推测中来的各种超光速旅行形式。它应该有视觉吸引力且有趣。" https://superluminal-ftl.netlify.app/
多模态教程/实践
12:46
AYi@AYi_AInotes
44
GPT Image 2 + Grok 混合工作流成 AI 视频性价比之选;Claude Fable 管制实因本土对手越狱演示

用户推荐 GPT Image 2 + Grok 混合工作流制作 AI 视频,称性价比极高。SuperGrok 月费 30 美元,当前 3 个月优惠 67%,单条短片零边际成本;GPT Image 2 把控角色风格一致性,Grok 负责动态效果。另提及 Claude 的 Fable 模型被美国政府管制,真正触发原因并非防中国,而是美国本土竞争对手提交越狱演示证明其安全层 Mythos 可被绕过。Anthropic 事后复测称此漏洞狭窄且非通用。

AYi: 很多人都以为Fable5下架是为了防中国,但其实真正触发管制的,是美国本土的竞争对手, 大家都被官方的国家安全话术带偏了,默认下架是防范技术外流的常规操作。 实际上真正触发这次管制的,是美国本土一家公司提交的越狱演示,他们证明Mythos的...

xAI图像生成教程/实践视频
11:26
jason@jxnlco
66
在我的 agents.md 中新增了一些内容: "当你给我发送一张没有上下文的应用截图时,尽你所能弄清楚你想让我对它做什么,并更新你的应用截图分诊技能。"
智能体教程/实践编码
10:35
PixVerse@PixVerse_
21
令人印象深刻的幽默鸽子钻石盗窃视频,由@FutureVibesAi制作--在PixVerse上表现很棒!

Future AI 🧩: Bro committed grand theft diamond with ZERO exit strategy 😭💎 Created using @PixVerse_ Check the process below of how t...

教程/实践视频
10:21
Orange AI@oran_ge
58
ReadTo是一款英文网站阅读插件,可在网页上自动标注超出用户英语水平的单词。开发者趁Claude API单独收费前,运行了两个Claude 20x max任务,处理了16万单词表。该插件无需注册、免费使用。用户反馈已使用数日,体验很好。

Yadong Xie: 介绍下自用的英文网站阅读插件 自动在英文网站上标注超出英文水平的单词 趁 claude api 单独收费前,跑完了 2 个 claude 20x max,处理了 16w 单词表,不需要注册,免费使用 https://readto.ai/

产品更新教程/实践
08:27
宝玉@dotey
63
宝玉分享与AI Agent交互的关键习惯:交代任务时只需说清楚验证标准,之后便无需关注中间结果。引用@huangyun_122的做法:先让Agent写出代码计划,反复确认后汇总为任务列表,最后编程并逐项标记完成。这一流程确保目标明确,同时减少不必要的中间干预,提升效率。

黄赟: 有什么与 AI Agent 交互的习惯,你一旦开始后就再也回不去的? 我先来一个 -- 先让 Agent 把 coding plan 写出来,反复确认后,汇总一个 task 列表,最后再编程,同时把 task 标记已完成

智能体大佬观点教程/实践
07:57
宝玉@dotey
74
Claude Design 与 Claude Code 联动示例:设计变更自动改代码

宝玉分享了 Claude Design 与 Claude Code 联动的实际案例:在 Claude Design 上修改字幕编辑器 UI 设计稿后,导出 zip 并用 git diff 查看变更,然后通过一句提示让 Claude Code 参考设计目录变更自动修改 Swift 代码,全程只需手动同步设计文件。他解释为何 Codex 没有类似产品:Claude Design 依赖 Claude Opus 4.8 模型同时具备 UI/UX 设计和系统架构设计能力,能一次性交付可交互原型(含数据结构、状态管理、交互逻辑);而 GPT-5.5 还做不到。Harness 层可复制,模型层才是关键门槛。

宝玉: 为啥 Codex 还不推出类似 Codex Design 的产品? Anthropic 最近推出了 Claude Design,是我除了编程之外用得最多的 Agent,也推荐过很多次。效果真的好:你用一句话描述想要的 App,它直接给你生成...

Anthropic教程/实践编码
04:25
jason@jxnlco
50
Shopping With codex. 你只需前往结账页面,截个图,然后说"在结账前帮我找张优惠券"。
OpenAI教程/实践
‹ 上一页
1…45678…31
下一页 ›