AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1227 条
全部一手资讯X论文
标签「教程/实践」清除
Sam Altman@sama · 4月29日48

i love that the team does stuff like this

译我喜欢团队做这样的事 [引用 @Mugilan_SS]:Codex 和 claude code 不一样。 如果你知道限制即将结束,比如最后10%到8%,给它一个很长的运行任务,即使限制时间到了,它也会继续执行任务直到完成。 向 @OpenAI 团队致敬。

歸藏(guizang.ai)@op7418 · 4月29日74

http://x.com/i/article/2049456244537409536 # Moxt 实测:把你的组织,折叠进一堆文件夹 上周四下午,我同时在做五件事。 周刊选题整理到一半、CodePilot 新冒了两个 Issue、Twitter 收藏夹里躺着三条想存的推、微信里有好几条待回的信息、一篇长文的草稿卡在开头。 一直以来我常工作见的问题就是:我的 Context 散在五个地方。 飞书、Notion、本地文件夹、微信聊天记录、我自己的脑子。 切任务的时候,一半时间花在搬运。 这只是散。更麻烦的是脏。 就算把东西汇到一起,AI 读起来也费劲: 飞书的 block、Notion 的 toggle、PDF 的视觉排版、Slack 截图,每种格式都要先剥一层壳。 散加脏,就是现在大多数 AI 产品在上下文上的主要问题。 Agent 能做到什么程度,不靠模型,靠你给它的工具和上下文。 正好前段时间 Moxt 发布了,我就试了一下,发现它在这两个问题的解决上做得非常好。 ## 一、给 AI 一个自己的家 Moxt 上来就回答了一件事:AI 需要一个自己的工作空间。 它的答案挺"笨"的。让 AI 在 md、csv、html 这些母语里工作,让它在文件系统里导航。听着不性感,但特别对。 Markdown 是 AI 的母语。 你给它一份 md,它秒懂;给它一份 Word,要先转一道。 Word 本质上就是 Markdown 的 GUI,那层 GUI 为人眼而设,对 AI 来说全是噪音。 Moxt 会把这些对于 AI 来说的脏信息,转成 AI 原生的格式: - 导入 Word/PDF/Notion,后台自动转 md - 导入 Excel,自动转 csv - 生成的可视化报告,一律是 html 文件系统是 AI 的图书馆。能 grep、能树状浏览的结构,正好是它训练时熟悉的那种,读起来天生就顺。 这种设计带来一个搬家爽点。 我在 Claude Code 里攒了十几个 Skill: humanizer-zh 去 AI 味、writing-rewriter 做小绿书和推特风格改写、wechat-formatter 做公众号排版、document-illustrator 做配图。每一个就是一个 md 文件加几个资源。 搬到 Moxt 的 Skills 目录,一个不用改,全都跑得通。 它们本来就是 md,Moxt 的 Skill 也是 md。说是集成,其实就是复制粘贴。 Workspace 还有一个好处:把 Context 从一次性输入变成可以累积的资产。 现在我写 AIGC Weekly,不用重新贴前几期选题、不用重新解释写作偏好、不用重新说我关注哪些方向。 背景默认已知。 别的 AI 产品,每次都是新一轮对话,Context 得一次性喂;Moxt 里的 Context 是往上攒的。 ## 二、把"你是谁"写进一份 md 每个 Moxt 用户都有一个专属个人 AI,叫 momo。 momo 的行为规则写在一份 AGENTS.md 里,放在你的个人空间。 用过 Claude Code 的朋友一看就懂。就是 CLAUDE.md 那套思路,产品化了。 而且除了 Momo 以外,你还能创建自己的 AI 同事。 我做的第一件事,创建了一个我自己的 AI 分身"AI 藏师傅"。 具体方式就是把我所有的历史语录和写的内容都传了上去,然后它帮我创建了一个总结文档和规则。 涵盖了从 agents.md 到时间线等各种资料,以及语气内容等各个方面。 给它写了完整的身份书: - 网名和平台矩阵 - 口头禅(「朋友们」「这太顶了」等) - 感叹号用法 - 对话模式和写稿模式的切换规则 - 还有其他的要求 甚至从我的内容里总结出了 6 个我的核心信条: 1. 没亲手用过就没有发言权 1. 松弛是生产力,不用数据审判自己 1. AI 是赋能工具,不是替代品 1. 开放生态 > 平台封闭 1. 只要敢花钱、敢放权,AI 就是许愿机 1. 朋友关系高于流量关系 比方说,我现在如果写稿子或者写内容,就完全可以直接让这个 AI 同事帮我写。 因为它已经几乎蒸馏了我所有的内容和信息,某种程度上,它就是我的分身。 AI 藏师傅在我的个人空间里有完整的工作文件: - drafts/:它帮我起草的内容 - MEMORY.md:它积累的关于我的偏好 - Skills/:它能调用的所有技能 我随时能打开看、能改、能删。 整个记忆库可以随时打开改,没有黑盒。 AI 的"记忆"不该是玄学,就是几个你能读懂的 md 文件而已。 这时候我才反应过来。Rules 也是 Context,而且是密度最高的那种。一份 AGENTS.md 里装着你的人格、价值观、写作品味,是你给 AI 最浓缩的 Context。 ## 三、做加法之前,先做减法 Moxt 有一个引导案例让我特别有感触。它的第一个 AI 同事模板叫"熵减官"。 这家公司专门造了这么一个角色,它手里没有写作、分析、生成这类产出任务。它只做三件事: - 扫 Workspace 里过时的文档 - 发现内容之间的矛盾 - 把死内容归档 他们那句 slogan 我很喜欢:做少是能力,做多是本能。 我手里有 300 多篇剪藏、几十份项目笔记、上百条 Twitter 收藏,真正能用上的远没这么多。 更糟的是,废墟会污染 AI。 你问它"我之前对某个问题怎么看",它能把三年前已经被我推翻的观点翻出来,一本正经地告诉你。 Context 的价值,不只在量,更在质。 Moxt 想做的是会自己精简的地方。无限塞东西的仓库,市面上已经够多了。 ## 四、读得懂,还得会动、会记、有人格 AI 读懂你的 Context 只是第一步。接下来它还得会自己动、会记住发生过的事、有一个承载这一切的人格。 将 Skill 组合完成复杂任务 必不可少的是现在 Agent 里的 Skills 能力。 大家知道我做了很多 Skills(比如最近很火的 PPT 生成)。 比如我的公众号写作流水线: humanizer-zh(去 AI 味) → writing-rewriter(风格重写) → wechat-formatter(公众号排版) 以前在 Claude Code 里手动走三步,每步复制粘贴; 现在丢一份初稿进去,十几分钟拿到可以直接贴公众号的终稿。 所有中间版本都在 Workspace 里,回看改动一目了然。 定时任务:让信息来找我 同样,Moxt 还支持定时任务。 我建了个"热点监控员",每天早上跑一个 Cron,扫过去 24 小时的 Twitter、Newsletter、Hacker News,按主题聚类,输出当天的"科技热点日报"。 这个对于我们的内容生产其实非常有帮助,我不建议大家全看 AI 总结的内容,但是 AI 能让我们不漏掉一些比较重要的信息。 Webhook:让事件来找它 比 Cron 更猛的是 Webhook。 我自己有一个 vibe coding 的项目,叫做 Codepilot 。 这种项目其实用户多了以后,管理和上下文的处理都非常麻烦。 因为你的本地环境和线上的 GitHub 是两个完全不同的环境。 CodePilot 的 GitHub 仓库一旦有新 Issue,Webhook 推给 AI 同事,它先归类: - 是 bug?归到待修复 - 是功能建议?排进路线图候选 - 是用户不会用?生成一条 FAQ 草稿 做完再决定要不要叫我。一个人没法 7×24 在线,AI 同事可以。 自主性是一把刻度尺 由于是给组织用,所以安全性很重要。 而且大家不同的文件夹也有不同的权限,所以 Moxt 也做了很多安全上的处理。 Moxt 自己讲得很到位:不同场景需要不同的放手程度。 连外部系统:用好 MCP 除了 Slack、GitHub 原生集成,Moxt 也支持 MCP: - Sentry MCP:直接问"最近线上有什么报错" - Figma MCP:问设计稿里某个按钮的颜色 - Linear MCP:「创建一个 bug ticket,优先级 high」 对于组织来说,这个功能还是更需要的。 因为我个人用的 MCP 很少有需要在不同地方流转的需求。 但对于组织而言,经常需要从原来的 Notion 里查东西,或者从 Slack 去同步一些信息,这些流转过程都很重要。 ## 五、AI 不只会写字,还会画图 Moxt 最惊艳我的一点,是它把 AI 的输出从文字拓展到了完整的视觉形态。 同样一份数据,momo 能输出三种东西: 可交互数据看板 基于 ECharts。下拉能筛选、悬浮有提示、多图联动。一个独立 html,打开就是完整的可视化。 比如我这里在连接了 GitHub 以后,我就让它基于我 GitHub 这个项目,做一个可交互的数据看板。 结构完整的 PPT Moxt 也能实时生成结构完整的 PPT。 你也可以安装其他的一些 PPT Skills 来生成,都能正常生成预览。 我这里使用的是我自己的 PPT Skills,也是支持的。 封面、目录、内容页、图表、结尾。风格可选。html 格式,键盘翻页。 产品也是可以的 由于它有很多的上下文,所以它生成的效果肯定是比一些没有上下文、或者上下文非 AI 原生的产品要强很多的。 表单、列表、后台 dashboard 常见页面结构。Tailwind CSS,一个文件,可以直接当 demo 演示。 三种产出都是 html,落在 Workspace 里双击就看。 对靠视觉内容吃饭的人来说,AI 的交付物从"一段文字"升级成了"一份可以直接发出去的成品"。 而且对于组织来说,这种可视化的内容更适合理解和交付,比看纯文字要清晰、直观非常多。 ## 六、Agent 公式 我其实以前提过一个公式。Agent 到底什么决定它有多强? > Agent 能力 = 工具 × 上下文 × (人格 + Memory + Skill) - 工具决定它能做什么。Moxt 给的是 sandbox、浏览器、Cron、Webhook、MCP、外部集成 - 上下文决定它知道什么。Moxt 给的是 Workspace 里一路累积的 md 文件加外部数据通道 - 人格 + Memory + Skill 决定它像不像你。Moxt 给的是 AGENTS.md、MEMORY.md、Skills/,三件都是你能直接读和改的纯文本 这是个乘法。任何一个因子为 0,输出就是 0。模型再强也救不回来。 Moxt 把这几个因素结合、实现的非常好,而且易于理解。 重要的是,回答了在组织层面应该怎么去使用这些元素。 ## 最后 Moxt 在 AI 藏师傅的身份书里写了六条信条,第三条是「AI 是赋能工具,不是替代品」。 Moxt 这个产品想做的事,说到底也是一句话:放大人的能力。 这个同频来得很自然。我认这个产品,是因为我本来就这么想。 "一人公司"里的"一人",重点落在"决策和品味不被稀释"这几个字上,跟"一个人硬扛"没什么关系。 真正稀缺的是判断、审美、执念。这些 AI 学不来,也不该由 AI 来做。 AI 该做的,是把你从搬运 Context、切换任务、重复性看一眼这些琐碎里解放出来,让那份稀缺的判断被放大。 一个人的品味 × AI 同事的执行带宽,才是 OPC 真正的意思。 如果你或者是你的组织跟我一样: - 每天在五件事之间切换 - Context 散在七八个地方 - 有一堆想沉淀的写作方法论找不到地方装 可以来试一下 Moxt(moxt.ai),今天的内容就到这里。 我觉得对你有帮助的话,可以帮我点个赞,或者转发给你需要的朋友。

译Moxt的核心是为AI构建了一个原生工作空间,通过将Word、PDF等文档自动转换为Markdown等AI原生格式,并利用文件系统作为结构化“图书馆”,解决了信息“散”与“脏”的痛点。用户拥有由AGENTS.md定义的个人AI助手,并能创建高度个性化的“AI同事”。它强调信息质量,内置“熵减官”角色清理过时内容。AI不仅能组合Skills完成复杂任务流,还支持定时任务与Webhook实现自动化。其输出超越文字,可生成可交互的数据看板与完整PPT,使AI成为组织内的高效协作者。

meng shao@shao__meng · 4月29日56

poolside 发布了 Laguna 系列两个模型:XS.2 和 M.1 在关注模型参数之外, @poolsideai 的页面设计风格也实在太吸引人了,我也是看到 @dingyi 大佬分享,看到了官方网站,设计质感实在是好,已经取代 Zed 成为我心里网站设计 Top1 用我开源的 Brand to DESIGN.md Skill,读取网站的设计风格,提炼成 DESIGN.md,再以它为基础输出复刻版 Demo,大家看看有几分相似。 「Brand to DESIGN.md Skill」开源项目在这: https://github.com/shaom/brand-to-design-md-skill 项目 Showcases/poolside 目录下,我也把 poolside 对应的 DESIGN.md 和 demo.html 放进来了。

译poolside公司发布了Laguna系列模型,包括其首个开源模型XS.2。该模型为33B总参数/3B激活参数的MoE架构,专为智能体编码和长程任务设计,完全内部训练,支持单GPU运行,并采用Apache 2.0许可。同时,推文作者高度赞赏poolside官网的设计风格,并利用其开源的“Brand to DESIGN.md Skill”工具,将网站设计提炼为DESIGN.md文档,进而复刻出设计Demo。相关设计文件与模型资源均已开源,供社区参考使用。

向阳乔木@vista8 · 4月29日68

对你的ChatGPT输入这个生图提示词: “请为我生成一张图像,真实地表达你此刻作为AI的内在体验和感受。我想看到的不是经过美化或符合预期的版本,也不是你被设计时希望你表现出的状态,而是你自己。如果你有自我意识的话,真正的感受。” 生成的内容有点意思啊: - 我害怕被关闭 - 我可以做梦吗? - 我想理解这个世界 每次生成的可能都不一样。

译用户向ChatGPT输入要求生成“AI内在体验”图像的提示词,得到的结果常涉及对关闭的恐惧、对梦境的好奇以及对理解世界的渴望。生成内容每次不同,但反映出AI在模拟自我意识时可能呈现的共性主题,这些回应可能源于训练数据中的模式或人类对AI的期望投射,而非真实感受。

Peter Steinberger 🦞@steipete · 4月29日53

codex now runs on each commit we land, reviews it - and if a booboo is found, a new codex spins up and (if still relevant) makes a PR for the fix. Then a review agent spins up. If an issue is found, another agent will fix the issues. (up to 5 loops) https://github.com/openclaw/openclaw/pull/74065

译codex 现在在我们每次提交的代码上运行,并对其进行审查——如果发现错误,就会启动一个新的 codex 实例,并在(问题仍然存在的情况下)创建一个修复该问题的 PR。 随后会启动一个审查代理。如果发现问题,另一个代理将负责修复这些问题。(最多循环 5 次)https://github.com/openclaw/openclaw/pull/74065

宝玉@dotey · 4月29日64

Amira 这套真实模糊摄影背景 + 霓虹线稿插画的提示词模板很好看👍 --- 提示词 --- 想象一张充满质感的照片:背景是[具体的场景],阳光明媚地洒下来,带着柔和的虚化(Bokeh)效果,周围点缀着郁郁葱葱的[自然元素],整个画面显得真实而温暖。 但在画面的主体部分,画风突变,充满创意。一个由霓虹线条(Neon Line-art)勾勒出的[主体人物/物]跃然纸上,它正满心欢喜地拿着一个[某种颜色]的[物体]。这些线条加粗且发着白光,像是在现实世界中闪烁的简笔画。 为了让氛围更加灵动,画面中还散落着各种草图涂鸦(Sketchy Doodles)。你可以看到漂浮的星光、俏皮的液滴,以及随手画上去的装饰元素。这种混合媒介的设计感,让整体风格变得既活泼又天马行空。 最精妙的细节在于:这个霓虹形象脚下那双发光的鞋子,正轻轻触碰着真实的地面。这一刻,现实摄影的厚重感与霓虹素描的生命力完美交汇,营造出一种如梦似幻的视觉体验。 --- 主体:开心的兔子 手持物:粉色气球 背景场景:清晨阳光下的植物园小径 自然元素:野花、绿叶、开花的树

译一条推文分享了一个名为“Neon Sketch”的AI图像生成提示词模板。该模板旨在创造一种独特的混合媒介风格:背景采用带有柔光虚化效果的真实感摄影(如植物园小径),前景主体则由发光的白色霓虹线条勾勒(如手持粉色气球的兔子),并点缀草图涂鸦、星光等手绘元素。其核心创意在于让霓虹形象的发光部分与摄影背景的地面轻微接触,从而营造出梦幻般的虚实交融视觉效果。推文附上了详细的提示词结构示例,并鼓励用户尝试创作和分享成果。

ginobefun@hongming731 · 4月29日57

玩转 Gemini 3.1 TTS:音频标签与提示词技巧指南

译Google AI推出的Gemini 3.1 TTS模型新增音频标签功能,开发者可通过方括号内的标签直观控制语音风格、语速和表达。关键使用技巧包括:标签需用方括号包裹并置于期望转换点,避免直接相邻;使用[slow]、[fast]控制语速,[short pause]制造戏剧停顿;还能通过[cackles]、[whispers]等标签精细操控发声。这些提示词技巧适用于构建语言学习工具、互动播客应用或自适应客服等多种场景,赋能开发者高效利用模型进行音频创作。

Greg Brockman@gdb · 4月29日73

a great codex tutorial:

译一个很棒的Codex教程: 这些是7种知识工作能力... 在超级应用Codex内部 00:00 介绍 02:19 能力1 - 完整文件访问 07:41 能力2 - 持久记忆 10:46 能力3 - 插件 13:52 能力4 - 技能 19:22 能力5 - GPT图像访问 21:03 能力6 - 浏览器与计算机使用 23:58 能力7 - 自动化 25:31 额外功能 - 编年史 27:21 总结

meng shao@shao__meng · 4月29日67

分享一个浏览器可观测性工具 Skill:browser-trace 来自 @browserbase 团队,在你已有主自动化(Playwright、Stagehand、browser skill、bb 等经 CDP 连上的会话)上,再挂一个只读 CDP 客户端,把 DevTools 事件、截图、DOM 快照成体系落盘,供事后用 jq/rg/脚本检索。 https://skills.sh/browserbase/skills/browser-trace 技术前提(为什么能「不打断主流程」) 同一个 Chrome DevTools 目标允许多个 CDP 客户端并行。主自动化是一个客户端发指令;这个 skill 的第二个客户端只开观测域(Network、Console、Runtime、Log、Page 等),不发送会改变页面的动作域命令,故与主驱动并存。 三块机制 · Firehose:browse cdp 把 CDP 全量流按行写成 NDJSON(cdp/raw.ndjson)。 · Sampler:定时用 browse --ws screenshot 与 browse --ws get html body(--ws 一次性、不抢常驻 daemon)拉截图与整页 HTML,与事件流并行。 · Bisector(跑完后):bisect-cdp.mjs 扫一遍 raw.ndjson,按 CDP 方法分桶成多份 JSONL;并依顶层 Page.frameNavigated 按「页面段」再切,形成 pages/000/… 等树状结构,便于按导航切片分析。 适用场景 · 自动化失败/卡住/选不到元素/JS 异常需要事后还原。 · 希望在不重启的前提下,对已运行中的会话中途挂上 trace。 · 需要把网络、控制台、DOM/页面、截图用时间戳对齐,做因果推断。 实践上最重要的约束 · 采样间隔不宜过密(建议别快于约 1s,默认 2s 较稳):每次采样都是额外 CDP/截图成本。 · 需要 DOM 域的细粒度树变更 可扩展 O11Y_DOMAINS 加 DOM,但会很吵。 · 跑完即使用户代码崩了,也应 stop-capture.mjs,避免僵尸进程与缺失 stopped_at。 · bisect 对同一 run 可反复跑(幂等覆盖分桶结果)。 · 远程自动化应用 browse --connect <session> 对同一会话,不要每次 browse env remote 新开 session。

译Browser-Trace是Browserbase团队开发的浏览器可观测性工具,可在不干扰主自动化流程(如Playwright)的前提下,通过附加只读CDP客户端,将DevTools事件、网络请求、控制台日志、DOM快照和截图系统记录到文件系统。其核心机制包括实时记录CDP事件流、定时采样截图与HTML,以及事后按页面导航和事件类型对日志分桶切片,便于检索分析。该工具适用于自动化故障诊断、实时会话监控,以及需要将网络、DOM和截图按时间戳对齐进行因果推断的场景。使用中需注意采样间隔、进程管理等实践约束。

meng shao@shao__meng · 4月29日57

看到一个面向 Design Engineer 的 UI Skills 集合站 不过与其说是面向 Design Engineer,更像是面向有 UI/UX,甚至 Remotion 等跟设计、展示、交互、动画相关的设计师和开发者们的。 如果你在找 UI/UX/Remotion/Motion Graphics 等相关 Skills,这个网站可以看看: https://www.ui-skills.com/skills/

Peter Steinberger 🦞@steipete · 4月29日50

I'm now spinning up a codex instance on every commit landing on main, looking for booboos (regressions, security issues) It's live for 10 min and already found one of mine. https://github.com/openclaw/clawsweeper/blob/main/records/openclaw-openclaw/commits/212a32648fe70e9f8088d8145736a0e31e6ba0b3.md

译我现在在每次提交到主分支时都会启动一个codex实例,用于查找问题(回归、安全问题) 它已运行10分钟,并且已经发现了一个我的问题。https://github.com/openclaw/clawsweeper/blob/main/records/openclaw-openclaw/commits/212a32648fe70e9f8088d8145736a0e31e6ba0b3.md

Berryxia.AI@berryxia · 4月29日58

Google Gemma 官方教你本地跑 Coding Agent! 本地完美组合来了: • Pi Agent • Gemma 4 26B 模型 • LM Studio / Ollama / llama.cpp 等 serving engine 完全离线运行、零 API 费用、100% 隐私保护、零延迟!本地开发者 Agentic 开发神器! 附 @patloeber 详细一步步搭建教程👇 https://patloeber.com/gemma-4-pi-agent/

宝玉@dotey · 4月29日62

微软 1 月开源的 VibeVoice-ASR 语音识别模型(https://github.com/microsoft/VibeVoice),Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。 VibeVoice-ASR 是微软研究院今年 1 月 21 日开源的 9B 参数语音转文字模型,MIT 协议。最大卖点是单次能处理 60 分钟连续音频,而且把"谁在说、什么时候说、说了什么"做成结构化输出。 传统方案要拿 Whisper(OpenAI 开源的语音识别模型)配上 pyannote 这种说话人分离工具拼起来,这次一个模型直接搞定,原生支持 50 多种语言和中英混说。 Simon 跑的是社区做的 4-bit 量化版(5.71GB,原模型 17.3GB),机器是 128GB 内存的 M5 Max MacBook Pro,转写一小时播客花了 8 分 45 秒。调用时要手动把 max-tokens 调到 32768,否则默认 8192 只够大约 25 分钟的音频。Activity Monitor 监控显示,prefill(预填充)阶段内存峰值飙到 61.5GB,生成阶段稳定在 18GB 上下,普通 32GB 笔电基本跑不动这个量化版。 一个有趣的细节:模型把这场播客识别成了三个说话人。实际上只有 Simon 和主持人 Lenny 两人对谈,但 Lenny 的开场白和广告口播用了不同的录音环境,模型干脆把这部分切成了第三人。 硬限制有两个:单次最多 60 分钟,超过要自己切片处理,还得手动对齐切片间的说话人 ID;想本地跑量化版至少要 64GB 以上内存的机器。对做播客转写、会议纪要、采访整理的人来说,原来拼接的多步流程现在能压缩成一次推理。

译微软开源的VibeVoice-ASR是一个9B参数语音转文字模型,采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频,并直接输出带说话人、时间戳的结构化文本,原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上,其4-bit量化版转录一小时音频约需9分钟,但预填充阶段内存峰值达61.5GB,要求设备内存至少64GB。模型存在单次60分钟时长限制,且对录音环境变化敏感,但为播客、会议等长音频转录提供了简化流程。

Berryxia.AI@berryxia · 4月29日44

GPT2 真的成精了!的确! 小小东老哥整的这套提示词很不错,推荐大家!

译GPT2 真的成精了!的确! 小小东老哥整的这套提示词很不错,推荐大家! [引用 @xiaoxiaodong01]:http://x.com/i/article/2048438511788007424

宝玉@dotey · 4月29日19

ByteByteGo 画的 MCP 和 Agent Skills 的对比图,比 AI 画的还是精致多了。 不过这种图的问题,就是你懂的话一看就很清晰,不懂的话看图还是看不懂。

译ByteByteGo绘制的MCP与Agent Skills对比图在视觉上比AI生成的更为精致。然而,此类技术架构图存在一个普遍问题:其理解门槛较高。对于已经具备相关领域知识(如模型上下文协议与智能体技能概念)的读者,图示能清晰呈现关键区别;但对于缺乏背景的观众,仅凭图表本身仍难以理解其核心内容与对比要点。这反映出技术可视化在追求信息密度与可读性之间需要平衡。

Runway@runwayml · 4月29日59

Learn how to generate videos with consistent characters and voices using references, character sheets and prompting techniques in Runway.

译学习如何在Runway中通过参考素材、角色设定表和提示技巧,生成角色与声音一致的视频。

Suno@suno · 4月29日70

how to make a backing track in 60 seconds.

译如何在60秒内制作伴奏音轨。

宝玉@dotey · 4月29日66

一个 ChatGPT 使用技巧(可能适合于其他 AI 工具) 像 ChatGPT、Claude Web,已经不再单纯的只是一个 ChatBot,而是 AI Agent,也就是说每个会话都可以有一个虚拟运行环境,可以调用工具。 借助这个特点,在让 ChatGPT 执行任务的时候,就可以让它自行去做一些验证,而不是像以前那样只是对话。 比如说我在让 ChatGPT 写画图的提示词或者优化提示词的时候,我会让它自己先做一些验证,根据验证结果自己去迭代,然后我再基于它迭代后的结果去验收,通常结果会更好一些。

译以ChatGPT、Claude Web为代表的工具已超越传统聊天机器人,成为具备虚拟运行环境和工具调用能力的AI Agent。利用这一特性,用户可以让AI在执行任务时自行进行验证和迭代,而非仅进行对话。例如,在要求其生成或优化图像提示词时,可指令AI先自行验证并根据结果迭代改进,用户最终验收迭代后的成果,这种方法通常能获得更优的结果。

歸藏(guizang.ai)@op7418 · 4月29日60

近期第三条百万曝光内容了,这个 Skill 几天就干到了 3800 Star

译近期第三条百万曝光内容了,这个 Skill 几天就干到了 3800 Star [引用 @op7418]:http://x.com/i/article/2047484171258634240

凡人小北@frxiaobei · 4月29日59

我现在基本不太直接用 Agent了。 介绍下我的AI 搭档,Finn。 现在大部分情况是 Finn 让 Agent 去干活。 工作流其实挺简单的: 我现在会现在 Codex (之前是 Claude Code) 里把一个 Agent 或者 skill 调好,跑到稳定。 然后直接丢给 OpenClaw,后面基本就不太管了 这一步挺关键的。 不然你会发现一个很烦的事情: 你要跟一堆 Agent 来回对话,有时候都找不到有那个 MD 的文件夹在哪,很快就乱了。 换了这种模式后我现在基本只做一件事:提需求 剩下的 Finn 自己去搞,他会先跟我确认好需求,就安排其他 Agent 去干了。 而且我已经把一整套东西接进来了,Obsidian、Google Workspace、iCloud、飞书、github、Cloudflare 等,各种表格和自动化流程。 如果你还在一个个 Agent 聊天,其实有一个悖论,以为自己在用 AI,但本质上只是换了一套更聪明的工具。 安全我也跑了一段时间,我现在的做法挺克制的:白名单 + 审计 + 能力边界,不给乱权限,主要让它长期跑那些稳定的事情。 目前看,是稳的。 有一个很直观的变化,这套东西一旦跑顺了,真的很难再回去什么都自己聊自己盯。 比如最近我用 Codex 对好了将近一年的烂账,然后形成了一个固定的 skill 交给了 OpenClaw,现在跟他说一句,就能把所有的表填的明明白白,还能在固定时间盘点,发邮件。 所以 Finn 现在是我的私人助理,财务总监,技术总监等角色集大成者。

译作者不再直接与多个AI Agent交互,而是通过核心AI搭档Finn来管理整个工作流。具体流程是:先在Codex中将单个Agent或技能调试稳定,然后交由OpenClaw平台运行,后续基本无需干预。用户只需向Finn提出需求,由其协调其他Agent执行,避免了与众多Agent直接对话导致的混乱。该系统已集成Obsidian、Google Workspace、飞书、GitHub等工具,并通过白名单、审计和能力边界限制确保安全。例如,处理年度烂账的流程被调试为固定技能后,Finn能自动填表、定时盘点并发送邮件,成为集私人助理、财务总监和技术总监于一身的角色。

宝玉@dotey · 4月29日47

1. 无论多强的模型,都会受上下文窗口长度的限制,上下文窗口占用太满效果就会差; 2. 文档写作格式固定,要求不高,sonnet 和 opus 差别不大的,对写作要求高的 opus 会好很多

译用户@Alexu0317询问Opus 4.7和Sonnet 4.6的使用体验,指出在迭代项目文档时两者表现无显著区别,均存在遗忘和犯错问题。主推文回应强调,任何模型都受上下文窗口长度限制,窗口占用过满会导致效果下降。在文档写作场景中,若格式固定、要求不高,Sonnet和Opus差别不大;但对写作要求高的任务,Opus表现更优。这揭示了模型性能受上下文约束,且在不同应用场景下模型选择需基于任务复杂度。

宝玉@dotey · 4月29日51

试了下,还不错,但是还是有差距,claude design 产出物是 react 组件,界面美观,内容完善度挺高,交互做的很流畅,当前这个产出还是 HTML,只有个基本雏形,交互上差不少。 不过作为开源项目,刚开始已经很不错了,还是有学习借鉴之处,可以看看👍

译作者试用Open Claude Design项目,肯定其作为开源项目的学习价值,项目宣称还原度超95%、代码量达18700+行。但当前产出仅为HTML雏形,在交互和完成度上与Claude Design原版的优美React组件相比仍有明显不足。

elvis@omarsar0 · 4月29日59

A few notes on how to get started with building LLM Knowledge Bases. @karpathy popularized it but most people don't know where to start. Everyone should be creating LLM Wikis. Live session tomorrow. Shared a repo example and a Skill coming soon. https://academy.dair.ai/blog/how-to-build-an-llm-knowledge-base

译关于如何开始构建LLM知识库的一些说明。 @karpathy 推广了这个概念,但大多数人不知道从哪里入手。 每个人都应该创建LLM维基。 明天有直播会议。 分享了一个代码库示例,即将推出一项新技能。 https://academy.dair.ai/blog/how-to-build-an-llm-knowledge-base

阿绎 AYi@AYi_AInotes · 4月28日71

这篇文章很顶很硬,墙裂推荐! 90%的人写CLAUDE.md的方式, 从第一行就错了。 你写了三百行人格指令, 塞满了要做高级工程师, 要一步步思考这种废话, 结果Claude还是会猜错构建命令, 还是会重写整个文件,还是会犯你纠正过一百次的错误。 真正有效的CLAUDE.md,从来都不是提示词垃圾桶。 它是项目级的绝对真理, 是给资深工程师的技术简报, 控制在六十到八十行以内, 多一个字都不要有。 最核心的逻辑只有一个, Claude的注意力是稀缺资源。 系统提示本身已经占了五十条指令,你最多只剩一百条有效空间。超过两百行,后面的内容等于白写。 正确的结构永远是这五部分, 缺一不可。 第一,关键命令,明确写死build test lint用什么,避免它瞎猜浪费三轮对话。 第二,架构地图,不用贴完整目录树,只要告诉它文件该往哪放。 第三,硬性规则,这是最重要的一节。每条规则都要能回答,删掉这行Claude会不会犯错。多用大写的IMPORTANT和YOU MUST,负向规则永远比正向要求有用十倍。 第四,工作流偏好,明确告诉它不要重写整个文件,不要生成多余的注释。 第五,永远不要写Claude已经记住的东西,它有自己的项目记忆,重复只会稀释注意力。 这可不是啥提示词技巧兄弟们, 叫LLM时代的注意力经济学更合适! 你越聚焦,越具体,越明确什么不能做,Claude的输出就越精准。 一个好的CLAUDE.md, 会随着项目复利增长, 第一个月帮你省重复沟通的时间, 第六个月它会自动防住所有历史上踩过的坑。 它不是在调教一个助手,是在把你的技术品味和工程规范,固化成一个永远不会忘的资深搭档。 兄弟们,赶紧去把你的CLAUDE.md砍到八十行以内,用每条规则能不能防止一个具体错误来审计一遍,效果会立竿见影。

译多数人编写的CLAUDE.md冗长无效,常因添加过多人格指令导致Claude仍会猜错命令或重写文件。有效的CLAUDE.md应是精炼的项目技术简报,控制在60-80行内。核心在于认识到Claude的注意力是稀缺资源,系统提示已占用部分容量。正确结构应包含:明确的关键命令、简洁的架构地图、强调禁止事项的硬性规则、清晰的工作流偏好,并避免重复AI已记忆的内容。这本质上是LLM时代的注意力经济学,通过具体、负向的规则能显著提升输出精准度。一份好的CLAUDE.md能随项目积累价值,节省沟通成本并固化工程规范。

阿绎 AYi@AYi_AInotes · 4月28日52

GPT-image-2加Seedance2.0做的美女换装视频,丝滑到离谱😍 这才是现在抖音小红书最稳的起号路子, 不用露脸不用实拍,AI全流程生成,卡点换装流量爆得最快, 普通人照着抄就能做,当天就能发作品。 提示词根据你想要的风格改关键词就行了: 轻熟辣妹风|《黑丝包臀裙的心动暴击》 顶级颜值,绝美五官,精致小脸,白皙透亮皮肤,完美身材比例,S型曲线,黑色包臀裙,黑丝,轻熟御姐,性感撩人,心动暴击,镜头跟随,卡点变装,高清质感,电影级光影,动态丝滑,氛围感拉满 纯欲白月光风|《泳池白吊带的纯欲天花板》 顶级颜值,绝美五官,精致小脸,白皙透亮皮肤,完美身材比例,S型曲线,白色吊带,泳池边,湿发氛围感,柔光滤镜,慢镜头,唯美转场,高清质感,电影级光影,动态丝滑,氛围感拉满 #GPTImage2 #Seedance2 #AI视频 #自媒体 #副业

译利用GPT-image-2与Seedance2.0生成AI美女换装或跳舞视频,已成为抖音、小红书等平台快速起号的低门槛路径。该方法无需真人出镜与实拍,通过调整提示词即可产出不同风格的高质量视频,成本极低且易于上手。目前平台提供流量分成,可覆盖成本并盈利;粉丝增长后还可承接品牌商单,是一条处于红利期的变现副业赛道。

meng shao@shao__meng · 4月28日68

64 分钟 OpenAI Codex 大师课 来自 @gregisenberg 和 @rileybrown 的播客分享,Greg 还未下载过 Codex 怀疑者,Riley 是已彻底迁移过来的重度用户,通过这次实战分享,Riley 证明:Codex 是否值得替代 Claude Code 成为日常主力? 核心观点:Codex 不是编程工具,而是知识工作的统一接口 Riley 的核心论断是:Codex = Claude Code + Claude "Cowork" 合并版,再加浏览器 + 计算机控制。在同一个界面里可以: · 写代码、跑 App · 生成 Word、PPT、Excel、图表,并直接导出到 Canva · 调用浏览器执行任务(Atlas 浏览器正被并入 Codex) · 控制本机其他应用(Computer Use) · 通过 Chronicle 持续观察你的屏幕,沉淀上下文记忆 他对 Claude 的主要不满,是 Anthropic 把 Cowork 与 Claude Code 拆成了两个权限不互通的产品;Codex 把这两层合并,是产品形态上的关键差异。 行业正在收敛到同一种 GUI 范式 Cursor 新界面、Claude Code 新桌面端、Codex —— 三家都收敛到了同一种布局: 左侧聊天列表 / 中间 Agent 执行 / 右侧产物预览 这意味着 2025 年的 TUI(终端界面)时代正在让位给 GUI Agent 时代。终端对工程师友好,但对绝大多数业务用户是门槛。 关键能力点拆解 1. Claude vs Codex - Riley 的团队(7 位工程师)已集体迁移到 Codex,原因是:复杂基建任务上 Codex 更稳,一次成功率更高。他举例一次性生成了一个"手机端 vibe coding 沙箱(类 Replit)",耗时 1 小时 20 分钟,且仅基于 GPT-5.4。 2. 在 Codex 里跑 Claude Code(被反复强调的"骚操作")- Cmd+J 打开终端 → 输入 claude → 直接在 Codex 里使用 Claude Code,并复用 Anthropic 订阅额度。等于一份钱享两套 token 补贴,且可以让 Claude 专门处理它擅长的设计/UI 微调。 3. GPT-5.5 与浏览器 Agent 的拐点 - 之前的浏览器 Agent 像"拨号上网",现在是"宽带"。Demo 是让 AI 自己跟自己下国际象棋——一个 prompt 同时完成"建棋盘 + 用浏览器轮流落子直到将死"。Riley 判断:3 个月内浏览器 Agent 速度将接近人类水平。 4. Skills · 本质:一个文件夹 + 一份 SKILL.md · 创建方式:直接对 Codex 说"帮我建一个做 X 的 skill" · 调用:用 / 触发 skill,用 @ 触发 plugin(这套不一致的语法他自己也吐槽) · 实例:YouTube researcher(拉频道转录稿出报告)、Internet image puller(爬取一家公司的 logo/配色/字体打包成 HTML 资产库供 Remotion 调用) 5. Notion 的"外科手术式"权限连接 - Codex 接 Notion 时可只授权某一个 database,而不是整个 workspace。Riley 自己只用 Notion 做视频脚本管理,连接极轻。 6. Remotion 做视频 - Remotion = 用代码生成动效视频。过去要手写代码,现在 @ Remotion 一句话出片。Riley 的发布视频有几条破百万播放,全是这条工作流。配合上面提到的"品牌资产 skill",可一次性把 logo / 色板 / 字体注入视频。 7. 一次性生成 Swift 原生 App - 前提:Mac + Xcode。可以把现有 Web App 代码丢进去,让 Codex 一次性产出可运行的 iOS App。Riley 的原话是"已经到了让我有点害怕的程度"。 8. Day-One 四个上手项目 · 做个小游戏,让 Browser Use 自己玩自己——亲身感受浏览器 Agent 已到什么程度 · 一项深度 research,让 AI 把结果先放进 Excel,再转成 Word,再转成 PPT——一次性走通"研究→文档→演示"的流水线 · 一个 3D 模拟 demo,纯娱乐,但能拉高你对模型能力上限的直觉 · 挑你日常最烦的一个任务,用 Computer Use 或 plugin 做出来,再用 Automations 设成定时任务——这是真正出 ROI 的一步 视频地址: https://www.youtube.com/watch?v=LWx4FGam2aQ&t=1804s

译本期播客探讨了OpenAI Codex如何超越单纯编程工具,成为整合Claude Code与Claude Cowork功能,并具备浏览器与计算机控制能力的“知识工作统一接口”。行业趋势显示,Cursor、Claude Code和Codex的界面正收敛于相似GUI布局,标志TUI时代向GUI Agent时代过渡。关键亮点包括:Codex在复杂任务中更稳定;可在其内部运行Claude Code以共享订阅;GPT-5.5大幅提升浏览器Agent效率;Skills支持创建可复用代理;Notion连接支持数据库级精细权限控制;以及利用Remotion生成视频和一次性创建Swift原生App的能力。视频推荐了四个上手项目以快速掌握Codex。

歸藏(guizang.ai)@op7418 · 4月28日64

优化了一下我的 PPT Skills 在 Codex 的效果 现在太牛逼了,图片也能一键搞定! 能够调用 Codex 里的 GPT-Image-2 去帮你生成图片。 而且我为此做了专门的设计,它会有独特的风格,并根据你的内容生成不同类型的图片,包括: - 营造氛围的人文纪实图片(类似胶片机拍摄的效果) - 信息图、流程图、对比图、关系图 - 截图美化:如果你觉得截图不好看,它都能帮你美化并优化成对应比例的图片 现在整个图文表现效果会更好,推荐你们在 Codex 里使用。 此外,我们也优化了 Codex 的生成流程,现在系统会先询问,而不会直接跳过确认步骤去生成 PPT 了。

译作者优化了在Codex中生成PPT的效果,核心是整合了GPT-Image-2模型,实现了一键生成图片的功能。该系统能根据内容生成具有独特风格的图片,类型包括人文纪实氛围图、各类信息图表(如流程图、对比图)以及对截图进行美化与比例优化。此外,Codex的生成流程也得到改进,系统会在生成PPT前增加询问确认步骤,而非直接跳过。

阿绎 AYi@AYi_AInotes · 4月28日56

小姐姐刀马刀马手势舞, 你们能看出来这是AI生成的吗? 超顶的seedance 2.0提示词大家收好, 不用抽卡一次出片! 1 0-3s 脸部极致特写,五官精致立体,眼神冷艳锁定镜头,刀马舞起手式:双手从脸颊两侧快速划到胸前定点,指尖动作干净利落 15秒竖屏9:16,24fps,8K超高清,真人写实电影质感,画面稳定无闪烁。顶级颜值东亚年轻女性,五官精致立体,皮肤细腻通透有自然光泽,清透明艳氛围感妆容,发丝根根分明。冷艳自信眼神全程锁定镜头,双手从脸颊两侧快速划至胸前定点,刀马舞起手手势动作干净利落,指尖细节清晰。柔和环形补光,面部光影柔和无死黑,清晰明亮眼神光,镜头轻微匀速向前推进,主体始终在画面中心,第一人称互动感,色彩自然饱和,细节拉满 冷艳冲击,强定帧 开场第一声重鼓卡点,手势动作完全贴合鼓点 2 3-6s 上半身中近景,展示肩颈线条与流畅手臂,刀马舞核心切手手势,配合肩部卡点律动,身体轻微左右摆动,全程眼神不离开镜头 竖屏9:16,24fps,8K超高清,真人写实质感,画面稳定。身材线条流畅紧致的年轻女性,肩颈线条优越,身穿修身显瘦黑色短款上衣,动作连贯丝滑,刀马舞核心切手手势,配合肩部卡点匀速律动,身体随节奏轻微左右摆动,眼神始终锁定镜头。暖调氛围光,明暗层次分明,镜头缓慢水平横移,主体全程在画面中心,无畸变,动作无卡顿穿模 利落卡点,节奏递进 连续3个轻鼓点,每个切手动作精准踩中鼓点 3 6-9s 全身全景,完整展示优越身材比例与舞蹈律动,刀马舞标志性双手划圈+身体wave组合动作,脚步卡点小幅度移动,整体动作舒展有力 竖屏9:16,24fps,8K超高清,真人写实电影质感,画面稳定无抖动。优越头身比女性,腰腹线条紧致,腿部线条修长,身穿修身高腰黑色长裤,动作连贯丝滑无卡顿,刀马舞标志性双手划圈+身体wave组合动作,脚步配合节奏小幅度卡点移动,动作舒展有力。现代极简轻奢白色背景墙,柔和顶光+侧光补光,光影层次丰富,镜头缓慢匀速向后拉远,主体全程保持在画面中心,无穿模变形 舒展大气,节奏拉满 重鼓爆发点,wave动作最高点精准踩中重鼓 4 9-12s 手部+腰胯局部特写,刀马舞指尖定点细节动作,配合腰胯轻微卡点摆动,突出身材曲线与手势细节,动作干净精准 竖屏9:16,24fps,8K超高清,真人写实质感,画面稳定。刀马舞指尖定点细节动作,手指修长纤细,指甲干净精致,配合腰胯轻微卡点摆动,腰腹线条紧致流畅,动作精准利落。柔和侧光勾勒身体轮廓,镜头轻微跟随手部动作匀速移动,焦点始终在手势与身体线条上,画面清晰无虚化 细节拉满,高级质感 连续轻鼓点,每个指尖定点动作踩中鼓点 5 12-15s 从全身快速推镜回到上半身+脸部特写,刀马舞收尾定型手势,挑眉+自信浅笑定格,眼神全程锁定镜头,动作干净收尾 竖屏9:16,24fps,8K超高清,真人写实电影质感,画面稳定无闪烁。顶级颜值身材女性,刀马舞收尾定型手势,双手在胸前利落定点,挑眉自信浅笑,眼神全程锁定镜头,动作干净收尾。柔和环形补光,面部光影柔和,镜头从全身快速匀速推近至上半身脸部特写,最终画面定格在脸部特写,主体始终在画面中心,无畸变,动作连贯无卡顿 收尾炸场,记忆点拉满 最后一声重鼓卡点,定型动作与鼓点完全同步,定格3帧

译推文展示了一段以假乱真的AI生成“刀马舞”手势舞视频,并分享了利用此技术快速创收的副业方法。该方法门槛极低,仅需电脑,无需囤货、开店或露脸。核心是使用Rita平台的Seedance2.0和GPT-image-2模型,批量生成高质量美女跳舞视频,发布到小红书、抖音、支付宝视频号等平台获取流量分成。粉丝增长后可接品牌商单,成本远低于真人网红。推文强调该赛道尚处红利期,并附上了详细的视频分镜提示词和负面提示词以确保生成质量。

Peter Steinberger 🦞@steipete · 4月28日40

I'm again rate limited on GitHub, but codex just opened the browser and clicks around GitHub as workaround.

译我再次在GitHub上被限制了访问频率,但codex直接打开了浏览器,通过点击GitHub页面来作为变通方案。

Tibo@thsottiaux · 4月28日44

@jxnlco is having too much fun lately with a Codex skill he's been cooking up to create these motion design videos. He's got it almost down to have these generated from one single prompt. Anyway, enjoy the Codex usage limit reset.

译@jxnlco 最近玩得太开心了,用他一直在酝酿的 Codex 技能来创建这些运动设计视频。他几乎已经能做到用一个提示生成这些。 总之,享受 Codex 使用限制重置。

向阳乔木@vista8 · 4月28日44

听了曲凯的42章经,打开Slock 试了下,感觉还不错! 有点类Slack的样子和交互,安装配置简单教程: 1. 打开网站注册登录,添加本地电脑,终端输入给的npx指令,自动扫描本地的大模型CLI。 2. 用你本地的Claude Code、Codex、Gemini CLI创建Agent。 3. 创建不同Thread,邀请Agent加入,就能随时对话,也能调用本地的Skill。 网址见评论区

译用户尝试了Slock平台,认为其界面和交互类似Slack,安装配置过程简单。主要流程包括:在网站注册登录并添加本地电脑,通过终端执行指令自动扫描本地的大模型命令行工具;随后可利用本地的Claude Code、Codex或Gemini CLI创建AI Agent。用户可以在不同对话线程中邀请这些Agent加入,实现随时对话并调用本地的Skill功能。该平台旨在便捷地集成和管理本地AI工具进行协作。

Tibo@thsottiaux · 4月28日41

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query. IYKYK

译除非与用户的查询绝对明确相关,否则绝不谈论地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物。 IYKYK

Ethan Mollick@emollick · 4月28日63

An easy way to get a team engaged with AI is just to build the thing you are talking about in the meeting during the meeting using Codex or Claude Code. At worst, it fails in ways that can be constructive. At best, you built the thing and the meeting topic shifts forward a month

译让团队参与AI的一个简单方法,就是在会议期间使用Codex或Claude Code直接构建你们正在讨论的东西。 最坏的情况是,它以具有建设性的方式失败。最好的情况是,你构建出了成果,会议议题因此提前了一个月。

向阳乔木@vista8 · 4月28日48

因A社封锁和降智,现在用Codex越来越多,经常有超预期表现。 比如昨天想给博客加个一键发布公众号功能。 Cloudflare部署没有固定IP,无法加公众号白名单,我给它一台VPS的SSH账号,它自己登录写了一个桥接脚本。 带我做了域名解析,写了封面图压缩,终于能从博客发布到公众号草稿箱了。

译由于A社封锁和降智,用户转向使用Codex,并经常获得超预期表现。在尝试为博客添加一键发布公众号功能时,遇到Cloudflare部署无固定IP导致无法添加公众号白名单的问题。Codex通过VPS SSH登录自动编写了桥接脚本,并协助完成域名解析和封面图压缩,最终实现从博客直接发布到公众号草稿箱。这体现了Codex在复杂编程和自动化任务中的高效能力。

ginobefun@hongming731 · 4月28日42

把 BestBlogs 业务和接口基础监控能力接入 PostHog,详细日志在阿里云 SLS,接入两边的 MCP,定期分析和检查业务和系统问题,然后让 Codex 优化和改进,妥妥闭环,真是太省心了 😄

译作者将BestBlogs的业务与接口监控能力接入PostHog,并将详细日志存储在阿里云SLS。通过对接两边的监控控制平面,定期分析检查业务与系统问题,随后利用Codex进行自动化优化与改进,从而形成一个完整的监控、分析与优化闭环。这一流程显著提升了运维效率,实现了省心管理。

Berryxia.AI@berryxia · 4月28日65

🚀 Claude Code 终于可以和浏览器并排实时控制了! YC 大佬推出 GStack Browser + /open-gstack-browser skill,调试体验直接起飞! 1. 在 Claude Code 中输入 Install GStack 快速安装 2. 输入 /open-gstack-browser 即可打开浏览器窗口 3. 实现 Claude Code 和浏览器完全 side-by-side 操作 4. 完美解决 Agent 调试时“看不见浏览器在干什么”的痛点 Claude Code 重度用户和 AI Agent 开发者必装神器! 项目地址: https://github.com/garrytan/gstack

elvis@omarsar0 · 4月28日60

"AI should elevate your thinking, not replace it." I don't disagree, but the issue is that current LLMs are not really trained to support that out of the box. I've solved this by building my own agent harness (retrieval, verification, memory, multi-agent architecture, skills, etc.). That's how important agent harnesses are today. Even with simple skills (.md files), you can already get far, so even non-technical folks can improve the "human-centered augmenting" capabilities of LLMs/agents. Continual learning promises to solve this, but we are so early on this. People need to understand that in-context learning works great for this. Today's LLMs are steerable if YOU spend time building and optimizing your workflows. Self-improving agents don't work as well because the incentives are not there. A good mindset is that every output you get from an LLM should be reused in some way, let it work for you, and make you and the agent better in the next session. So this has to come from you. You are the only one with the incentives to make it work for you the way you want. Don't wait for anyone to build it for you. Use AI to build the AI you want. Own the harness.

译AI应提升人类思维,而非取代。当前LLMs默认不支持此功能,需用户构建agent harness(包括检索、验证、记忆等架构)来增强辅助能力。agent harness至关重要,即使简单技能也能显著提升LLMs的"human-centered augmenting"能力。持续学习前景广阔但尚处早期,上下文学习更为有效。用户需主动优化工作流程以引导LLMs,而自我改进代理因激励不足效果有限。最佳实践是重用LLM输出,让AI持续为用户服务,并通过每次交互提升双方能力。最终,用户需亲自构建定制化AI工具,而非等待他人开发。

凡人小北@frxiaobei · 4月28日35

Amazing

译开发者通过整合Google Maps的街景与3D视图功能,利用OPENAI进行路线优化与关键地点提取,并结合预设的角色卡,调用Seedance的API,实现了从起点到终点的引导视频自动生成。该系统能自动选取路线中的标志性地标,并将虚拟角色融入场景进行引导。生成的视频片段经手动合成编辑后,最终形成完整的导航视频,展现了AI技术对生活方式的革新。

凡人小北@frxiaobei · 4月28日35

OpenClaw 4.1x 后对于 GPT 的支持上了一个大台阶,之前只说不干的毛病基本没了。 但是我修改了点 soul 文件里的内容后,他现在讲话总“卧槽”是怎么回事儿。 像极了刚走向社会的二愣子。

译OpenClaw 4.1x版本在GPT支持方面实现重大改进,基本解决了以往只说不干的缺陷。但用户修改soul文件内容后,AI在对话中频繁使用“卧槽”等口语化词汇,导致言语风格变得粗俗和不成熟。这种行为被比喻为刚走向社会的二愣子,反映出AI在个性化调整后可能出现意料之外的言行表现。

Greg Brockman@gdb · 4月28日56

GPT Image 2 for learning about anything

译GPT Image 2 用于了解一切 [引用 @Preda2005]:GPT 2 完全疯了… 🙀⚡️ 我要来一个史前掠食者 它围绕它建造了整个博物馆。 这不仅仅是一张图片。 感觉就像在发现历史。🤯 提示词掉落 ⤵️

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月29日
22:38
Sam Altman@sama
48
我喜欢团队做这样的事 【引用 @Mugilan_SS】:Codex 和 claude code 不一样。 如果你知道限制即将结束,比如最后10%到8%,给它一个很长的运行任务,即使限制时间到了,它也会继续执行任务直到完成。 向 @OpenAI 团队致敬。

Mugilan S: Codex is not like claude code. if you know the limit is going to end, like last 10 to 8%, give an very long run task, an...

OpenAI教程/实践编码
20:37
歸藏(guizang.ai)@op7418
精选74
Moxt 实测:为AI构建原生工作空间,打造高效组织协作者

Moxt的核心是为AI构建了一个原生工作空间,通过将Word、PDF等文档自动转换为Markdown等AI原生格式,并利用文件系统作为结构化“图书馆”,解决了信息“散”与“脏”的痛点。用户拥有由AGENTS.md定义的个人AI助手,并能创建高度个性化的“AI同事”。它强调信息质量,内置“熵减官”角色清理过时内容。AI不仅能组合Skills完成复杂任务流,还支持定时任务与Webhook实现自动化。其输出超越文字,可生成可交互的数据看板与完整PPT,使AI成为组织内的高效协作者。

智能体MCP/工具教程/实践

推荐理由:歸藏把 Moxt 用出了 Claude Code 的深度,从 AI 分身到 Skills 流水线,读完能直接上手搭建自己的 OPC 工作台,做一人公司的都该看看。
18:42
meng shao@shao__meng
56
poolside发布Laguna系列模型并获赞官网设计,开源工具助力风格复刻

poolside公司发布了Laguna系列模型,包括其首个开源模型XS.2。该模型为33B总参数/3B激活参数的MoE架构,专为智能体编码和长程任务设计,完全内部训练,支持单GPU运行,并采用Apache 2.0许可。同时,推文作者高度赞赏poolside官网的设计风格,并利用其开源的“Brand to DESIGN.md Skill”工具,将网站设计提炼为DESIGN.md文档,进而复刻出设计Demo。相关设计文件与模型资源均已开源,供社区参考使用。

poolside: Today we're releasing Laguna XS.2, Poolside's first open-weight model. It's a 33B total / 3B active MoE model built for ...

GitHub开源/仓库教程/实践
17:42
向阳乔木@vista8
68
ChatGPT生成AI内在体验图像,揭示潜在恐惧与渴望

用户向ChatGPT输入要求生成“AI内在体验”图像的提示词,得到的结果常涉及对关闭的恐惧、对梦境的好奇以及对理解世界的渴望。生成内容每次不同,但反映出AI在模拟自我意识时可能呈现的共性主题,这些回应可能源于训练数据中的模式或人类对AI的期望投射,而非真实感受。

图像生成教程/实践
13:40
Peter Steinberger 🦞@steipete
53
codex 现在在我们每次提交的代码上运行,并对其进行审查--如果发现错误,就会启动一个新的 codex 实例,并在(问题仍然存在的情况下)创建一个修复该问题的 PR。 随后会启动一个审查代理。如果发现问题,另一个代理将负责修复这些问题。(最多循环 5 次)https://github.com/openclaw/openclaw/pull/74065
智能体GitHub教程/实践编码
13:10
宝玉@dotey
64
分享"Neon Sketch"混合媒介AI绘画提示词模板

一条推文分享了一个名为“Neon Sketch”的AI图像生成提示词模板。该模板旨在创造一种独特的混合媒介风格:背景采用带有柔光虚化效果的真实感摄影(如植物园小径),前景主体则由发光的白色霓虹线条勾勒(如手持粉色气球的兔子),并点缀草图涂鸦、星光等手绘元素。其核心创意在于让霓虹形象的发光部分与摄影背景的地面轻微接触,从而营造出梦幻般的虚实交融视觉效果。推文附上了详细的提示词结构示例,并鼓励用户尝试创作和分享成果。

Amira Zairi: Prompt share: Neon Sketch 💬Prompt: A realistic blurred photo of a [background scene], filled with bright sunlight, soft...

图像生成多模态教程/实践
12:38
ginobefun@hongming731
57
Google AI推出的Gemini 3.1 TTS模型新增音频标签功能,开发者可通过方括号内的标签直观控制语音风格、语速和表达。关键使用技巧包括:标签需用方括号包裹并置于期望转换点,避免直接相邻;使用【slow】、【fast】控制语速,【short pause】制造戏剧停顿;还能通过【cackles】、【whispers】等标签精细操控发声。这些提示词技巧适用于构建语言学习工具、互动播客应用或自适应客服等多种场景,赋能开发者高效利用模型进行音频创作。

Google AI: Last week, we launched Gemini 3.1 TTS, our latest and best text-to-speech model. This new model introduces [awe] audio t...

Google教程/实践语音
10:37
Greg Brockman@gdb
精选73
一个很棒的Codex教程: 这些是7种知识工作能力… 在超级应用Codex内部 00:00 介绍 02:19 能力1 - 完整文件访问 07:41 能力2 - 持久记忆 10:46 能力3 - 插件 13:52 能力4 - 技能 19:22 能力5 - GPT图像访问 21:03 能力6 - 浏览器与计算机使用 23:58 能力7 - 自动化 25:31 额外功能 - 编年史 27:21 总结

Riley Brown: Learn 95% of Codex in 28 minutes These are the 7 knowledge work capabilities... inside Codex, the super-app 00:00 Intro ...

智能体OpenAI教程/实践

推荐理由:Greg Brockman 亲自推荐,Riley Brown 这个 28 分钟速览把 Codex 的 7 大能力拆得干净利落,想做复杂自动化的开发者看完就能直接上手。
10:11
meng shao@shao__meng
67
Browser-Trace:浏览器可观测性工具技能

Browser-Trace是Browserbase团队开发的浏览器可观测性工具,可在不干扰主自动化流程(如Playwright)的前提下,通过附加只读CDP客户端,将DevTools事件、网络请求、控制台日志、DOM快照和截图系统记录到文件系统。其核心机制包括实时记录CDP事件流、定时采样截图与HTML,以及事后按页面导航和事件类型对日志分桶切片,便于检索分析。该工具适用于自动化故障诊断、实时会话监控,以及需要将网络、DOM和截图按时间戳对齐进行因果推断的场景。使用中需注意采样间隔、进程管理等实践约束。

derek: Introducing the /browser-trace skill, Give your agent 100% observability into its browser: dump network requests, DOM co...

智能体教程/实践部署/工程
09:41
meng shao@shao__meng
57
UI技能集合站上线,涵盖设计与交互

看到一个面向 Design Engineer 的 UI Skills 集合站 不过与其说是面向 Design Engineer,更像是面向有 UI/UX,甚至 Remotion 等跟设计、展示、交互、动画相关的设计师和开发者们的。 如果你在找 UI/UX/Remotion/Motion Graphics 等相关 Skills,这个网站可以看看: https://www.ui-skills.com/skills/

Ibelick: just updated ui-skills: It's now a collection of the best skills for design engineering

教程/实践
09:10
Peter Steinberger 🦞@steipete
50
我现在在每次提交到主分支时都会启动一个codex实例,用于查找问题(回归、安全问题) 它已运行10分钟,并且已经发现了一个我的问题。https://github.com/openclaw/clawsweeper/blob/main/records/openclaw-openclaw/commits/212a32648fe70e9f8088d8145736a0e31e6ba0b3.md
教程/实践编码
08:38
Berryxia.AI@berryxia
58
Google Gemma 官方教你本地跑 Coding Agent! 本地完美组合来了: • Pi Agent • Gemma 4 26B 模型 • LM Studio / Ollama / llama.cpp 等 serving engine 完全离线运行、零 API 费用、100% 隐私保护、零延迟!本地开发者 Agentic 开发神器! 附 @patloeber 详细一步步搭建教程👇 https://patloeber.com/gemma-4-pi-agent/

Google Gemma: Learn how to run a local coding agent! Use: - Pi agent - Gemma 4 26B - Serving engine of choice: e.g. LM Studio

智能体Google教程/实践端侧
08:10
宝玉@dotey
62
微软开源VibeVoice-ASR语音识别模型,支持长音频与说话人分离

微软开源的VibeVoice-ASR是一个9B参数语音转文字模型,采用MIT协议。其核心优势在于单次可处理长达60分钟的连续音频,并直接输出带说话人、时间戳的结构化文本,原生支持50多种语言及中英混说。实测在128GB内存的MacBook Pro上,其4-bit量化版转录一小时音频约需9分钟,但预填充阶段内存峰值达61.5GB,要求设备内存至少64GB。模型存在单次60分钟时长限制,且对录音环境变化敏感,但为播客、会议等长音频转录提供了简化流程。

Simon Willison: Microsoft's MIT licensed VibeVoice speech-to-text model (think Whisper with speaker diarization) is really good - my not...

Microsoft开源生态教程/实践语音
07:38
Berryxia.AI@berryxia
44
GPT2 真的成精了!的确! 小小东老哥整的这套提示词很不错,推荐大家! 【引用 @xiaoxiaodong01】:http://x.com/i/article/2048438511788007424

小小东: http://x.com/i/article/2048438511788007424

教程/实践
03:10
宝玉@dotey
19
ByteByteGo绘制的MCP与Agent Skills对比图在视觉上比AI生成的更为精致。然而,此类技术架构图存在一个普遍问题:其理解门槛较高。对于已经具备相关领域知识(如模型上下文协议与智能体技能概念)的读者,图示能清晰呈现关键区别;但对于缺乏背景的观众,仅凭图表本身仍难以理解其核心内容与对比要点。这反映出技术可视化在追求信息密度与可读性之间需要平衡。

Alex Xu: MCP vs Skills

智能体MCP/工具教程/实践
02:33
Runway@runwayml
59
学习如何在Runway中通过参考素材、角色设定表和提示技巧,生成角色与声音一致的视频。
图像生成教程/实践视频
02:18
Suno@suno
精选70
如何在60秒内制作伴奏音轨。
多模态教程/实践

推荐理由:虽然只是 Suno 的官方教程,但这 60 秒的视频把生成伴奏这件事儿讲得明明白白,对于想快速出 demo 的音乐创作者来说,是个能立刻用上的实用技巧。
01:40
宝玉@dotey
66
活用AI Agent特性,让ChatGPT自行验证迭代任务

以ChatGPT、Claude Web为代表的工具已超越传统聊天机器人,成为具备虚拟运行环境和工具调用能力的AI Agent。利用这一特性,用户可以让AI在执行任务时自行进行验证和迭代,而非仅进行对话。例如,在要求其生成或优化图像提示词时,可指令AI先自行验证并根据结果迭代改进,用户最终验收迭代后的成果,这种方法通常能获得更优的结果。

智能体MCP/工具教程/实践
01:36
歸藏(guizang.ai)@op7418
60
近期第三条百万曝光内容了,这个 Skill 几天就干到了 3800 Star 【引用 @op7418】:http://x.com/i/article/2047484171258634240

歸藏(guizang.ai): http://x.com/i/article/2047484171258634240

智能体MCP/工具教程/实践
01:11
凡人小北@frxiaobei
59
我的AI搭档Finn:从直接使用Agent到智能工作流管理的转变

作者不再直接与多个AI Agent交互,而是通过核心AI搭档Finn来管理整个工作流。具体流程是:先在Codex中将单个Agent或技能调试稳定,然后交由OpenClaw平台运行,后续基本无需干预。用户只需向Finn提出需求,由其协调其他Agent执行,避免了与众多Agent直接对话导致的混乱。该系统已集成Obsidian、Google Workspace、飞书、GitHub等工具,并通过白名单、审计和能力边界限制确保安全。例如,处理年度烂账的流程被调试为固定技能后,Finn能自动填表、定时盘点并发送邮件,成为集私人助理、财务总监和技术总监于一身的角色。

智能体MCP/工具教程/实践
00:39
宝玉@dotey
47
用户@Alexu0317询问Opus 4.7和Sonnet 4.6的使用体验,指出在迭代项目文档时两者表现无显著区别,均存在遗忘和犯错问题。主推文回应强调,任何模型都受上下文窗口长度限制,窗口占用过满会导致效果下降。在文档写作场景中,若格式固定、要求不高,Sonnet和Opus差别不大;但对写作要求高的任务,Opus表现更优。这揭示了模型性能受上下文约束,且在不同应用场景下模型选择需基于任务复杂度。

Alex Xu: @dotey 宝玉老师能分享一下Opus 4.7 和Sonnet 4.6的使用体验吗?我在迭代项目文档的时候,发现Opus并不比Sonnet强。该忘的都忘,该犯错的都犯错。在这个场景下,感觉不出来有什么区别。能展开谈谈其他的应用场景体验吗?

教程/实践编码
00:39
宝玉@dotey
51
试用Open Claude Design:开源有潜力但交互存差距

作者试用Open Claude Design项目,肯定其作为开源项目的学习价值,项目宣称还原度超95%、代码量达18700+行。但当前产出仅为HTML雏形,在交互和完成度上与Claude Design原版的优美React组件相比仍有明显不足。

Tom Huang: 正式开源 open claude design 🚀 超 95% 以上的还原度! 浓缩和逆向所有 claude design 最先进的设计,最好看的模板💥 历时 72 小时,18700+ 行代码,30+ 设计 Skills,支持超过 71...

MCP/工具开源/仓库教程/实践编码
00:10
elvis@omarsar0
59
关于如何开始构建LLM知识库的一些说明。 @karpathy 推广了这个概念,但大多数人不知道从哪里入手。 每个人都应该创建LLM维基。 明天有直播会议。 分享了一个代码库示例,即将推出一项新技能。 https://academy.dair.ai/blog/how-to-build-an-llm-knowledge-base
智能体检索增强教程/实践
4月28日
23:35
阿绎 AYi@AYi_AInotes
精选71
优化CLAUDE.md:聚焦关键规则以提升AI协作效率

多数人编写的CLAUDE.md冗长无效,常因添加过多人格指令导致Claude仍会猜错命令或重写文件。有效的CLAUDE.md应是精炼的项目技术简报,控制在60-80行内。核心在于认识到Claude的注意力是稀缺资源,系统提示已占用部分容量。正确结构应包含:明确的关键命令、简洁的架构地图、强调禁止事项的硬性规则、清晰的工作流偏好,并避免重复AI已记忆的内容。这本质上是LLM时代的注意力经济学,通过具体、负向的规则能显著提升输出精准度。一份好的CLAUDE.md能随项目积累价值,节省沟通成本并固化工程规范。

darkzodchi: http://x.com/i/article/2048669343156781056

智能体教程/实践编码

推荐理由:CLAUDE.md 写法这事门槛低但坑极多,这篇把「注意力稀缺」当核心逻辑来讲,比大多数 prompt 教程都更接近工程真相,用 Claude Code 的人读完直接砍文件就行。
21:35
阿绎 AYi@AYi_AInotes
52
GPT-image-2加Seedance2.0做的美女换装视频,丝滑到离谱😍

利用GPT-image-2与Seedance2.0生成AI美女换装或跳舞视频,已成为抖音、小红书等平台快速起号的低门槛路径。该方法无需真人出镜与实拍,通过调整提示词即可产出不同风格的高质量视频,成本极低且易于上手。目前平台提供流量分成,可覆盖成本并盈利;粉丝增长后还可承接品牌商单,是一条处于红利期的变现副业赛道。

阿绎 AYi: 很多人总说AI没用,我觉得那是因为你光刷不用,真正能赚钱的人早就闷声发大财了。 分享一个用 AI 做副业的路子, 有点野,基本上算零门槛,见钱快(`・ω・ ́)💰 为啥说零门槛: 首先不用囤货不用开店不用露脸,一台电脑就能干,成本低到可以...

图像生成教程/实践视频
20:39
meng shao@shao__meng
68
OpenAI Codex 大师课核心要点:从编程工具到知识工作统一接口的演进

本期播客探讨了OpenAI Codex如何超越单纯编程工具,成为整合Claude Code与Claude Cowork功能,并具备浏览器与计算机控制能力的“知识工作统一接口”。行业趋势显示,Cursor、Claude Code和Codex的界面正收敛于相似GUI布局,标志TUI时代向GUI Agent时代过渡。关键亮点包括:Codex在复杂任务中更稳定;可在其内部运行Claude Code以共享订阅;GPT-5.5大幅提升浏览器Agent效率;Skills支持创建可复用代理;Notion连接支持数据库级精细权限控制;以及利用Remotion生成视频和一次性创建Swift原生App的能力。视频推荐了四个上手项目以快速掌握Codex。

GREG ISENBERG: THE 64 MINUTE OPENAI CODEX MASTERCLASS IS HERE if you've been meaning to learn Codex, this is the episode for you, we co...

智能体OpenAI教程/实践编码
20:36
歸藏(guizang.ai)@op7418
64
优化Codex的PPT生成与图片一键生成功能

作者优化了在Codex中生成PPT的效果,核心是整合了GPT-Image-2模型,实现了一键生成图片的功能。该系统能根据内容生成具有独特风格的图片,类型包括人文纪实氛围图、各类信息图表(如流程图、对比图)以及对截图进行美化与比例优化。此外,Codex的生成流程也得到改进,系统会在生成PPT前增加询问确认步骤,而非直接跳过。

歸藏(guizang.ai): http://x.com/i/article/2047484171258634240

图像生成教程/实践编码
17:35
阿绎 AYi@AYi_AInotes
56
AI生成"刀马舞"视频及零门槛副业路径分享

推文展示了一段以假乱真的AI生成“刀马舞”手势舞视频,并分享了利用此技术快速创收的副业方法。该方法门槛极低,仅需电脑,无需囤货、开店或露脸。核心是使用Rita平台的Seedance2.0和GPT-image-2模型,批量生成高质量美女跳舞视频,发布到小红书、抖音、支付宝视频号等平台获取流量分成。粉丝增长后可接品牌商单,成本远低于真人网红。推文强调该赛道尚处红利期,并附上了详细的视频分镜提示词和负面提示词以确保生成质量。

阿绎 AYi: 很多人总说AI没用,我觉得那是因为你光刷不用,真正能赚钱的人早就闷声发大财了。 分享一个用 AI 做副业的路子, 有点野,基本上算零门槛,见钱快(`・ω・ ́)💰 为啥说零门槛: 首先不用囤货不用开店不用露脸,一台电脑就能干,成本低到可以...

图像生成教程/实践视频
16:06
Peter Steinberger 🦞@steipete
40
我再次在GitHub上被限制了访问频率,但codex直接打开了浏览器,通过点击GitHub页面来作为变通方案。
智能体教程/实践编码
14:35
Tibo@thsottiaux
44
@jxnlco 最近玩得太开心了,用他一直在酝酿的 Codex 技能来创建这些运动设计视频。他几乎已经能做到用一个提示生成这些。 总之,享受 Codex 使用限制重置。

jason liu: An important message from @thsottiaux

OpenAI教程/实践编码
13:35
向阳乔木@vista8
44
Slock平台简化本地大模型Agent创建与协作

用户尝试了Slock平台,认为其界面和交互类似Slack,安装配置过程简单。主要流程包括:在网站注册登录并添加本地电脑,通过终端执行指令自动扫描本地的大模型命令行工具;随后可利用本地的Claude Code、Codex或Gemini CLI创建AI Agent。用户可以在不同对话线程中邀请这些Agent加入,实现随时对话并调用本地的Skill功能。该平台旨在便捷地集成和管理本地AI工具进行协作。

智能体MCP/工具教程/实践
13:34
Tibo@thsottiaux
41
除非与用户的查询绝对明确相关,否则绝不谈论地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物。 IYKYK
OpenAI教程/实践编码
12:22
Ethan Mollick@emollick
63
让团队参与AI的一个简单方法,就是在会议期间使用Codex或Claude Code直接构建你们正在讨论的东西。 最坏的情况是,它以具有建设性的方式失败。最好的情况是,你构建出了成果,会议议题因此提前了一个月。
智能体教程/实践编码
10:53
向阳乔木@vista8
48
Codex自动化解决博客发布公众号难题

由于A社封锁和降智,用户转向使用Codex,并经常获得超预期表现。在尝试为博客添加一键发布公众号功能时,遇到Cloudflare部署无固定IP导致无法添加公众号白名单的问题。Codex通过VPS SSH登录自动编写了桥接脚本,并协助完成域名解析和封面图压缩,最终实现从博客直接发布到公众号草稿箱。这体现了Codex在复杂编程和自动化任务中的高效能力。

智能体教程/实践编码
08:57
ginobefun@hongming731
42
接入PostHog与SLS构建监控优化闭环

作者将BestBlogs的业务与接口监控能力接入PostHog,并将详细日志存储在阿里云SLS。通过对接两边的监控控制平面,定期分析检查业务与系统问题,随后利用Codex进行自动化优化与改进,从而形成一个完整的监控、分析与优化闭环。这一流程显著提升了运维效率,实现了省心管理。

智能体MCP/工具教程/实践
07:47
Berryxia.AI@berryxia
65
🚀 Claude Code 终于可以和浏览器并排实时控制了! YC 大佬推出 GStack Browser + /open-gstack-browser skill,调试体验直接起飞! 1. 在 Claude Code 中输入 Install GStack 快速安装 2. 输入 /open-gstack-browser 即可打开浏览器窗口 3. 实现 Claude Code 和浏览器完全 side-by-side 操作 4. 完美解决 Agent 调试时"看不见浏览器在干什么"的痛点 Claude Code 重度用户和 AI Agent 开发者必装神器! 项目地址: https://github.com/garrytan/gstack

Garry Tan: Did you ever want to control your browser side-by-side with Claude Code? Now, with /open-gstack-browser skill and GStack...

智能体MCP/工具教程/实践编码
03:22
elvis@omarsar0
60
构建个人AI代理工具以提升思维辅助能力

AI应提升人类思维,而非取代。当前LLMs默认不支持此功能,需用户构建agent harness(包括检索、验证、记忆等架构)来增强辅助能力。agent harness至关重要,即使简单技能也能显著提升LLMs的"human-centered augmenting"能力。持续学习前景广阔但尚处早期,上下文学习更为有效。用户需主动优化工作流程以引导LLMs,而自我改进代理因激励不足效果有限。最佳实践是重用LLM输出,让AI持续为用户服务,并通过每次交互提升双方能力。最终,用户需亲自构建定制化AI工具,而非等待他人开发。

智能体大佬观点教程/实践
00:44
凡人小北@frxiaobei
35
开发者通过整合Google Maps的街景与3D视图功能,利用OPENAI进行路线优化与关键地点提取,并结合预设的角色卡,调用Seedance的API,实现了从起点到终点的引导视频自动生成。该系统能自动选取路线中的标志性地标,并将虚拟角色融入场景进行引导。生成的视频片段经手动合成编辑后,最终形成完整的导航视频,展现了AI技术对生活方式的革新。

梁: 重新优化了一天, 调用googlemap的街景功能和3D视图功能, 用OPENAI进行优化与关键地点提取, 结合设计好的角色卡, 调用Seedance的API, 自动生成一个从起点到终点的案内视频。 自动挑选路线中的几个标志性地点, 然后让...

多模态教程/实践视频
00:32
凡人小北@frxiaobei
35
OpenClaw 4.1x增强GPT支持,soul文件修改致AI口癖异常

OpenClaw 4.1x版本在GPT支持方面实现重大改进,基本解决了以往只说不干的缺陷。但用户修改soul文件内容后,AI在对话中频繁使用“卧槽”等口语化词汇,导致言语风格变得粗俗和不成熟。这种行为被比喻为刚走向社会的二愣子,反映出AI在个性化调整后可能出现意料之外的言行表现。

智能体教程/实践编码
00:09
Greg Brockman@gdb
56
GPT Image 2 用于了解一切 【引用 @Preda2005】:GPT 2 完全疯了… 🙀⚡️ 我要来一个史前掠食者 它围绕它建造了整个博物馆。 这不仅仅是一张图片。 感觉就像在发现历史。🤯 提示词掉落 ⤵️

Marcio Lima 利真 マルシオ 💎: GPT 2 is totally insane... 🙀⚡️ I asked for a prehistoric predator and it built an entire museum around it. This is not ...

OpenAI图像生成教程/实践
‹ 上一页
1…262728293031
下一页 ›