AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1227 条
全部一手资讯X论文
标签「教程/实践」清除
Berryxia.AI@berryxia · 6月2日63

这种不要说磨了30遍,主要是真的非常费人且费Token。 黄总这个研究也算是把这套Claude Workflow 底层核心的设计研究的七七八八了,对于自己想做一些项目中可以引入和学习。 反正我不会,AI会就行了。 反正我不学,AI学就行了。 😁

译该推文拆解了Claude Code的工作流。它是一个能后台运行、可监控的任务系统,包含三个核心角色:Claude负责拆解任务与规划,Runtime负责调度管理状态,每个AI智能体(agent)仅处理一个子任务,并通过并发池与队列推进。系统关键设计是“状态外置”,即中间结果由执行系统保存,主上下文只读取摘要,从而使其能扩展至大量智能体。推文认为这种智能规划、Runtime执行、状态独立、模型按需调度的模式,代表了一种新的工程编排方式,并可将其工作流转换为自有系统的可执行格式。

Berryxia.AI@berryxia · 6月2日32

今晚8点,可以去蹲宝玉老师的直播。 直接手把手教学了,这种书实用性直接拉满。

译图灵社区将于北京时间今晚20:00举办一场关于Agent Skills的公开课。分享者为@dotey,内容包括其制作Skill的实操经验与心得体会,并介绍其新书《图解Skill: AI提效实战指南》。主推文指出这场直播将直接进行教学,书籍的实用性很高。

Berryxia.AI@berryxia · 6月2日65

有朋友问我这个翻译工具是什么。我用的视频翻译工具主要是 Memo 软件,它是一个免费开源的软件,功能非常强大。 目前我日常主要在两个场景中使用转录+剪辑+翻译工具: 1. Memo 软件 (a) 场景:主要用于处理下载到本地的视频。 (b) 流程:这软件可以下载了 Whisper 的本地大模型,下载完视频后先进行转录,不再烧Token。 (c) 翻译:虽然也可以用本地模型翻译,但速度和效果可能没有 API 快,所以我接入了 DeepSeek-V4 -Flash 来进行翻译,价格便宜又好用。 (d) 体验:Memo就可以完成烧录字幕,编辑,导出整个片子的剪辑其实都挺快的,但在 X 上发布时速度贼慢,搞了一整晚才上传完毕。 2. 沉浸式翻译 (a) 场景:主要用于网页、YouTube 视频以及一些图书的翻译。 (b) 优点:它能保持比较不错的格式,方便后面做分享。 我觉得这两个工具都挺好的,自由度比较高。 你可以接入自己订阅的 API 模型,自由切换,非常方便。 此外,Memo的这个时间戳总结关键内容的功能还挺不错的。

译推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件(免费开源):用于处理本地视频。流程为下载视频后,使用Whisper本地模型进行转录以节省成本,再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出,但在X平台上传速度慢。2. 沉浸式翻译:主要用于网页、YouTube视频及图书翻译,优点是格式保持较好。两者均支持接入用户自定义的API模型。

meng shao@shao__meng · 6月2日54

$10K Cursor Credits 到期了,很想念它 😄 5月放开用 Cursor,差不多用了 $2K,大致整理了 Cursor 使用体验: · 100% 时间都在用 Agent Windows,传统 IDE 界面没打开过 · 多模型切换用的很少,有🪜时用 GPT-5.5 多,没🪜时用 Composer 2.5 多,Composer 2.5 Fast 模式确实块,而且它很喜欢输出 Diagram 流程图 · Context 使用明细确实方便 · Cursor 的 Agent 输出界面默认不是 Markdown,也不支持拷贝为 Markdown,这一点有点不方便,我基本都要指定它输出到 Markdown 文件中 · Agent 界面右侧的扩展窗口比较好用,Terminal、Browser、File 和 Canvas 都有各自用处 最后的最后,还有一个小惊喜,5月份除了送 $10K Credits,还送了两个月 Ultra 订阅吗?

译用户邵猛在获得 Cursor 团队赠送的 $10K 额度及两个月 Ultra 订阅后,实际使用了约 $2 千美元。其使用体验显示,100% 的时间都在使用 Agent Windows 模式,很少进行多模型切换。模型选择上,有外网访问时偏好 GPT-5.5,否则常用 Composer 2.5,因其 Fast 模式速度快且喜欢输出 Diagram 流程图。优点在于 Context 使用明细清晰,但 Agent 输出界面默认非 Markdown 且不支持拷贝为 Markdown。此外,Agent 界面右侧的扩展窗口(Terminal、Browser、File、Canvas)被认为比较实用。

MiniMax (official)@MiniMax_AI · 6月2日55

we're live now 🔴 Inside M3 with @togethercompute: the model, the MSA architecture, and the inference powering it. come hang 👇 https://x.com/i/spaces/1nxeLLDDBEaJX/peek

译我们现在正在直播 🔴 与 @togethercompute 一起深入探讨 M3:模型、MSA 架构以及驱动它的推理技术。 欢迎加入 👇 https://x.com/i/spaces/1nxeLLDDBEaJX/peek

meng shao@shao__meng · 6月2日64

Lee Robinson 分享了四条「Agent 友好型代码库」原则:把信息放进代码、让 Agent 能自检、能查文档、能自动化巡检 一、源码必须是真相,或有一条 Agent 能走通的路径 内容要么在代码里,要么通过 MCP / CLI / Skill 让 Agent 能读到。 @leerob 用 Cursor 官网从 CMS 迁回 Markdown + 代码的案例说明——问题不是 CMS 本身,而是 抽象层在 Agent 时代成本极高。 官网迁回后的好处: · 统一用 Git · PR 链接即可分享 · 源码 + 编译/AI 翻译 · 对象存储 + 自研小工具 · 内容直接可见、可改 实践含义:若保留 CMS / 数据库 / 配置中心,必须为 Agent 补一条 可编程访问路径(MCP 读内容、CLI 导出、Skill 描述工作流),否则 Agent 只能猜,或依赖你口述。 二、Agent 必须能验证自己的工作 类型系统、快而好的测试、配置完善的 Linter。 Agent 会犯错;没有反馈闭环,错误只能等人眼发现。验证机制是 Agent 的 感官系统: · 类型: 编译期约束,减少「看起来对、跑起来错」 · 测试: 可执行的规格说明;快 = Agent 能频繁试、频繁改 · Linter: 风格与常见错误的自动守门员 三点都指向同一目标——让机器能独立判断「改对了没有」。Lee 在 CMS 迁移里用 @ browser 截图对比本地与生产,也是同一思路:用可观测结果验证,而非凭感觉。 实践含义: 若测试慢、 flaky、或无类型,Agent 的迭代会停在「 plausible 但未经检验」;投资验证基础设施,等于投资 Agent 产能。 三、精简有效的 AGENTS.md 每轮对话都带上;写该写的,别写模型已知的常识。 AGENTS.md 是 人类给 Agent 的压缩上下文,不是百科全书。模型已具备通用知识(测试常在 tests/、用 npm test 等),重复只会占 token、稀释重点。 更值得写的是: · 项目特有的架构决策、命名约定、禁区 · 「非显而易见」的入口(例如内容其实在某 CMS,需用某 CLI) · 提交/部署/分支策略等团队规则 Lee 还强调:用 Agent 在仓库里找东西,看能否按预期找到;若 Agent 总找不到 utils/helpers/misc.ts 这类路径,说明命名/结构需要为人和 Agent 共同 refactor。 好 AGENTS.md 像 入职第一天老员工口头交代的那几件事,不是 README 复读。定期让 Agent 做「找 X、改 Y」的探路,是检验文档是否有效的低成本方法。 四、自动化:让代码库在后台自我改进 自动 refactor 建议、安全扫描、可选的持续文档化——「睡着也在变好的代码库」。 Cursor 安全 Agent 博客 给出了可落地的形态: · Agentic Security Review:PR 级安全审查,可阻断 CI · Vuln Hunter:扫存量代码漏洞 · Anybump:依赖漏洞自动打补丁 + 跑测试 + 开 PR · Invariant Sentinel:每日检查安全/合规不变量是否漂移 共同架构:Webhook / PR 事件触发 → Cloud Agent + MCP 存状态、去重、统一输出 → Slack / PR 评论闭环。 这不是替代人工 Code Review,而是在 PR 量放大 5x 时补 coverage 和 consistency。静态分析 + CODEOWNERS 仍有用,但挡不住规模;Agent 自动化适合 重复、有规则、可验证 的任务(安全、依赖、文档漂移)。 实践含义: 从一条自动化开始(例如 PR 安全评论),验证噪音/召回后再加阻断、再扩到存量扫描;和第三条一样,验证机制越成熟,自动化越敢放权。 总结:四条原则的关系 1 可读的真相源 -> Agent 能读能改 -> 2 可验证 -> Agent 能自检 -> 3 AGENTS.md 补缺口 -> 4 自动化放大 -> 代码库持续变好 · 可读真相 — Agent 有材料可工作 · 可验证 — Agent 有标准判对错 · AGENTS.md — 补代码里写不下的上下文 · 自动化 — 把 1–3 固化成 24/7 流程 Lee 的 CMS 迁移($260、344 次 Agent 请求、3 天完成)说明:在 Agent 时代,删复杂度、把信息拉回代码,ROI 可以量化。 四条原则本质是同一策略——降低 Agent 的认知与验证成本,把 token 和人力花在产品价值上,而不是和抽象层搏斗。

译Lee Robinson 分享了四条构建适合AI智能体的代码库的原则:1. 源码应为真相或提供可读路径(如将内容从CMS迁移回代码);2. 智能体需能通过类型系统、测试和Linter验证工作;3. 维护精简有效的AGENTS.md文件,提供项目特有上下文;4. 设置自动化流程(如安全扫描)持续改进。他以Cursor官网迁移为例,该过程耗时3天,消耗344次Agent请求,花费$260,证明降低抽象层成本能带来可量化的投资回报。

meng shao@shao__meng · 6月2日78

Claude Code 核心开发者 @trq212 分享了一段高价值「人机结对编程中的 “理解验证” 工作流」 通过这份工作流 Skill,让 Coding Agent 结束工作时,人类对问题、方案和影响都有可复述、可辩护的掌握,一起拆解看看。 https://gist.github.com/ThariqS/1389dcdff9eba4789887a2211370f06b 核心定位:AI 扮演「高效且睿智的教师」 成功标准不只是「任务完成」,更要看人类是否真正理解整场会话,与常见 agent 模式的差异: · 每步增量教学,过关才进入下一阶段 · 先让用户复述,再补缺口 · 清单 + 测验 + 演示理解 才算结束 三条理解轴(清单应覆盖) 1. 问题域 · 是什么问题 · 为何会出现(根因、历史、分支路径) · 曾有哪些取舍路线 2. 方案域 · 做了什么、为何这样解 · 设计决策与 trade-off · 边界情况与失败模式 3. 语境域 · 改动在系统/业务里意味着什么 · 会影响谁、什么流程、什么风险 反复追问 why → 更深层的 why,同时覆盖 what / how。强调:问题理解不到位,方案理解往往是假的。 操作流程(可执行的节拍) 1. 做完一小步 只推进一个可验收的小单元(例如:定位根因、选定方案、改一处逻辑),不要一口气跨多个阶段。 2. 先让用户复述 在进入下一步之前,请用户用自己的话说明:这一步在解决什么、为什么这样做、还有什么不确定。这是诊断,不是考试前的泄题。 3. 按缺口补课 根据复述找空洞:补动机、补业务逻辑、补边界与分支;可按需要切换抽象层级(例如 ELI5 / ELI14 /「像实习生那样讲」)。 4. 小范围验证 用开放题或多选题检查是否真懂;若用选择题,打乱正确选项顺序,且在用户提交答案之前不公布对错。 5. 过关才前进 同一阶段需在高层(为何要做)和低层(怎么做、边界在哪)都确认后,才进入下一阶段。 6. 同步更新清单 在 running 的 Markdown 里勾选或补充:问题 / 方案 / 语境三个维度下,用户应掌握的具体条目。 7. 必要时绑到真实材料 理解若依赖实现细节,贴相关代码片段,或一起用调试器走一遍,避免「听懂了但对着 diff 仍说不清」。 8. 收工条件 会话结束前,清单上的每一项都需用户表现出已掌握(能复述、能答题、能解释 trade-off),而不是由 agent 单方面总结一句「你应该懂了」。 设计意图(为啥在 Anthropic 内部被推崇) · 对抗「智能体黑箱」:长会话里人类容易变成审批按钮;增量确认把认知负荷摊到全程。 · 把 tacit knowledge 外显化:分支、否决方案、边缘 case 往往只存在于 agent 上下文里,清单强制沉淀。 · 可审计的学习:对团队负责人或后来的自己,「当时为什么这么改」有迹可循。 · 与产品风险对齐:懂 impact 才谈得上 responsible shipping,而不只是 merge。 实操要点(落地时注意) · 清单是活文档:随会话演进增删项,不是一次性大纲。 · 测验要变式:避免背答案;多选题需轮换正确选项位置。 · 层级要交替:同一主题在动机 <-> 实现 <-> 边界之间切换,防止只会背概念或只会跟 diff。 · 会话可拉长:这是刻意的——深度理解优先于速度。

译Anthropic 核心开发者分享了一套用于 Claude Code 的「理解验证」工作流。该工作流将 AI 定位为“高效且睿智的教师”,成功标准不仅是完成任务,更是确保人类对问题、方案及影响有可复述、可辩护的掌握。它通过增量教学、用户复述、清单+测验等方式,围绕问题域、方案域和语境域三条轴线展开,具体包含8个可执行步骤,强调在进入下一阶段前需确认用户已真正理解。此工作流旨在对抗长会话中人类易沦为“审批按钮”的“智能体黑箱”问题,强制沉淀决策上下文,实现可审计的深度理解。

OpenAI Developers@OpenAIDevs · 6月2日35

Customer call today. New product workflow tomorrow. Proaction is a 5-person team building fleet management software with Codex across sales demos, support follow-ups, marketing assets, and engineering work.

译今天与客户通话。明天开始新的产品工作流程。 Proaction是一个5人团队,他们使用Codex构建车队管理软件,涵盖销售演示、客户支持跟进、营销资产和工程工作。

Rohan Paul@rohanpaul_ai · 6月2日75

🎯 Andrej Karpathy on how to learn.

译🎯 Andrej Karpathy 谈如何学习。

Peter Steinberger 🦞@steipete · 6月2日63

I told codex to use http://sag.sh whenever I'm distracted and it needs my help to be unblocked, and ever once it a while I hear it talking to me, and it's the coolest thing ever. (e.g. for releases, that needs npm and is 1Password-gated)

译我告诉 Codex,当我分心且它需要我的帮助来解除阻塞时,使用 http://sag.sh。偶尔我会听到它在跟我说话,这是有史以来最酷的事情。(例如,对于需要 npm 且受 1Password 门控的发布任务)

Lee Robinson@leerob · 6月2日71

Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have something legible as a path to the source. For example, if marketing site content is actually stored in a CMS, you need to either delete the CMS and move that content into code, or make the CMS legible through and MCP, CLI, or skill: https://leerob.com/agents 2. Agents need to be able to verify their work. This includes but is not limited to: using a typed language, having high-quality and fast tests, having a well-configured linter: https://x.com/leerob/status/2026369424450523348 3. You need to have a concise and effective AGENTS.md file, which is included in every message to your agent. Models are quite good now, so some things you can omit as the models know them. You don’t need to say the tests live inside /tests for example. It’s worth asking the models to find things in your codebase and making sure they’re named what the models might expect, otherwise consider refactoring: https://cursor.com/learn/customizing-agents 4. Set up automations which give you suggestions for refactoring code, catching security issues which may have slipped through code review, and optionally continuous documentation of the codebase. You can effectively create a self-driving codebase which gets better while you sleep: https://cursor.com/blog/security-agents

译文章分享了四条让AI智能体有效理解代码库的实用建议。1. 确保源代码是唯一真实来源,或通过MCP、CLI等方式让外部内容对智能体可读。2. 智能体需具备自我验证能力,这依赖于使用类型语言、高质量测试和配置良好的linter。3. 编写简洁有效的AGENTS.md文件,并融入符合模型预期的直观命名,可借助Cursor等工具自定义智能体。4. 配置自动化流程,用于代码重构建议、安全问题检查和持续文档生成,以实现一个能自我改进的“自动驾驶”代码库。

fofr@fofrAI · 6月2日33

Revisiting an old gem with Omni

译用 Omni 重访一个旧作。

Google AI Developers@googleaidevs · 6月2日68

From clutter to clarity. Watch parallel subagents in @Antigravity sort and rename hundreds of marketing assets, eliminating manual file management.

译从杂乱到清晰。观看 @Antigravity 中的并行子智能体对数百个营销资产进行分类和重命名,消除手动文件管理。

AYi@AYi_AInotes · 6月2日67

《非暴力沟通》这本全球超级金典和实用的书做成NVC Skill怎么用?解决哪些问题? 这个 Skill 把马歇尔·卢森堡的《非暴力沟通》核心框架(观察-感受-需要-请求 OFNR + 相关反模式、共情技巧、愤怒转化等)打包成了 Cursor / Claude Code ,龙虾,Hermes,Codex等Agent可以直接调用的工具。 核心能力就是把任何一句话、任何情绪、任何冲突,快速翻译成非暴力沟通的格式,让 AI 帮你立刻生成可执行的表达。 实用使用场景(按日常高频度排序) 1️⃣日常沟通卡壳时快速重写消息(最常用) • 你想发消息给伴侣/父母/领导,但怕说出来像指责或抱怨。 • 场景示例: • “帮我把这句话改成非暴力沟通版:你每次都把衣服扔一地,太不尊重我了!” • “我刚才在群里想怼同事,但又不想把关系搞僵,用 NVC 帮我重写一下。” 2️⃣别人说了让你难受的话时,快速拆解对方真实需要(共情倾听) • 对方:“你从来都不关心这个家!” • 你直接喊 Skill:“他说了这句话,用 NVC 帮我分析他背后的感受和需要,并给出可能的回应方式。”

译将《非暴力沟通》核心框架(观察-感受-需要-请求 OFNR)及共情技巧、愤怒转化等内容封装成 NVC Skill,可供 Cursor、Claude Code、Codex 等 AI Agent 直接调用。该技能主要用于:快速将冲突性或情绪化表达重写为非暴力沟通格式;分析他人言论背后的真实感受与需求,并提供共情回应建议。适用于日常沟通卡壳、情绪化对话拆解等场景,旨在借助大语言模型提升人际沟通质量。

Berryxia.AI@berryxia · 6月2日77

卧槽!Gemink Omini 可以直接制作数字人了啊! 三步搞定、赶紧试试呢! 今天Gemini官方账号发了这条制作自己的数字人的教程! 该功能已经上线:用Gemini Omni创建属于你自己的数字头像(Digital Avatar),它不光外貌像你,连声音都克隆了。 做好后,在视频创作工具里直接选中,就能把自己“放进去”。 具体操作三步走(直接抄作业): 1. 打开Gemini App或网页 http://gemini.google.com 2. 设置菜单里点“Avatar” 3. 跟着提示拍几张照片+录几句语音,系统自动生成你的数字分身 生成完后,在工具栏选你的Avatar,就能直接用在视频里。整个过程对普通用户几分钟搞定,完全不需要专业设备。 最关键的一点:所有用Gemini Omni生成的视频,都会自动嵌入不可见SynthID数字水印。 你随时可以在Gemini App里验证一段视频到底是不是AI生成的、谁生成的。 这一步直接把“深假风险”按死在源头,比很多竞品只喊口号强太多。 为什么这个功能现在特别狠? • 以前AI视频是你指挥AI,现在是你自己变成主角。想做个人vlog、教学视频、品牌 内容,直接把自己塞进去,真实感拉满。 • 对教育、营销、内容创作者来说,这是降维打击:以前要请真人出镜、剪辑,现在自己克隆一个分身24小时待命。

译Gemini Omni现已上线数字头像(Avatar)创建功能。用户可通过Gemini App或网页,按三步流程(拍照、录语音、系统自动生成)创建外观和声音都像自己的数字分身。该功能可直接应用于视频创作,显著降低了制作个人视频内容的门槛。所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印,可用于验证视频是否为AI生成及出处,以技术手段防范深假风险。

Google Gemini@GeminiApp · 6月2日71

Easily add yourself to your video creations in Gemini. Here’s how to create your own digital avatar that looks and sounds like you with Gemini Omni. 🧵

译轻松将自己添加到Gemini的视频创作中。 以下是如何使用Gemini Omni创建一个外观和声音都像你的数字分身。🧵

宝玉@dotey · 6月1日70

你不能指望一个模型在什么地方都是最强的,要像渣男一样才能用好 AI:去爱很多模型,去发掘他们的优秀点,东食西宿,组合着用 Opus 4.8 在写作不太行,但是在 UI 设计,UI 实现比 GPT-5.5 要好很多,推荐你多用用 Claude Design,然后把 Claude Design 设计好的结果分别给 GPT-5.5 和 Opus 4.8 去实现一下看看差异。 然后系统设计和计划方面,质量也是很高的,一个复杂一点任务通常要先做 Plan、做系统设计,这方面 Opus 4.8 也是非常好的。 另外和你用的 Agent 有关系,每个模型都有自己的特性,需要重新设计提示词反复调优,如果你在 Claude Code 和 Cursor 里面用 Opus 4.8,除了写作,其他任务的效果是没有什么问题的。

译推文建议,不应指望单一模型全能,而应像“渣男”一样发掘并组合使用多个模型的长处。具体指出 Opus 4.8 在写作上表现不佳,但在 UI 设计与实现方面明显优于 GPT-5.5,且在系统设计和任务规划方面质量很高。在智能体工具中使用时,除写作外效果可靠,但需针对模型特性重新设计提示词。

Kling AI@Kling_ai · 6月1日32

What if you could pack a cloud in a bag? ☁️ Here’s how we made it with Kling AI.

译如果你能把云装进袋子里会怎样?☁️ 这是我们用可灵AI实现的方式。

向阳乔木@vista8 · 6月1日74

这是最近我和姚老师都在高频用的写Skill方法论。 无论写提示词也好,写Skill也好,最关键的是背后的专业知识上下文。 如果自己不懂怎么办? 就靠GPT 5.5 Pro、Grok或Gemini DeepResearch类功能搜索整理。 自己阅读学习调整,作为上下文交给Meta Skill去生成Skill。 后面就是迭代优化打磨。

译该推文分享了一种借助AI创建高质量Skill的方法论。其核心是五步流程:1.定义结果及标准;2.与AI交流对齐标准;3.利用GPT 5.5 Pro、Grok或Gemini DeepResearch等工具进行深度研究,梳理理论与案例;4.将调研成果消化为个人方法论;5.利用meta-skill将其固化,并交由codex或cc生成具体Skill。此过程强调“以教促学”,通过深度理解和持续迭代,最终提升对目标领域的认知。

向阳乔木@vista8 · 6月1日68

在 X 上看了不少文章封面,发现普遍都很丑,包括自己的。 我让@xiaoxiaodong01 发了一个他满意的提示词。 在此基础让 ChatGPT优化,把硬性限定词都去掉,给 AI 充分的发挥空间。 以后任意一篇文章丢给ChatGPT或Codex都可以生成类似的 5:2 大字封面。 提示词见评论区

译推文作者指出在社交平台上看到的文章封面普遍不好看,并分享了一个解决方案。他将一个满意的封面生成提示词交给ChatGPT进行优化,具体做法是去除提示词中的硬性限定词,为AI模型(ChatGPT或Codex)留出更自由的发挥空间。经过优化后,形成了一个可复用的提示词(5:2比例),未来只需将任意文章内容提供给AI,即可生成类似风格的大字封面。

AYi@AYi_AInotes · 6月1日31

保姆级把一本书变成skill的教程, 也是一个超棒的副业赚钱项目, 按我这个方法,把一本书做成 skills, 闲鱼一个卖个 19 块 9、29 块 9绝对能卖爆, 小红书的客单价更高,可以挂 99~199, 教程和思路方法都告诉大家了,能不能赚钱就看个人执行力了

译介绍了一个将书籍内容转换为AI技能,然后在电商平台出售获利的副业方法。该教程提供了具体思路,建议将制作好的技能在闲鱼以19.9元或29.9元定价出售,或在小红书以99至199元的价格出售,声称销量可观。最终收益取决于个人执行力。

OpenRouter@OpenRouter · 6月1日75

Video tutorial: how to build an agent capped at $1000/week with a model denylist &amp; custom data retention Uses the new, stackable Guardrail architecture:

译视频教程:如何构建一个每周预算上限为1000美元的智能体,包含模型拒绝列表与自定义数据保留 使用了新的、可堆叠的护栏架构: [引用 @OpenRouter]:OpenRouter 上的护栏是市场上最强大的:为您的 AI 流量提供集中式安全与治理 预算限制、ZDR、模型与提供商限制、提示词注入防御以及 DLP / 敏感信息检测,分层为您控制的规则!🧵

向阳乔木@vista8 · 6月1日80

http://x.com/i/article/2061439796745297920 # 氪200刀,乔帮主开源8个工具、5个精选Skill,六一宠粉节 最近 AI 圈有点沉寂,前有 Gemini 3.5 Flash 拉胯,后有 Opus 4.8 不及预期。 唯有 Codex App 最近几次更新深得我心。 冲了 200 刀会员后,Vibe Coding了一堆自用小工具,做了几个新 Skill。 下面逐个介绍,免费开源送给大家,工具超多,页面很长,建议收藏再看。 ## Chrome插件 乔木快捷提示词 发现身边很多朋友还是不太会写提示词。 于是写了个Chrome插件,把我和姚老师过去一年多写的提示词都放进去了。 另外收录了好友苍何(canghe)整理的几百套 GPT-Image-2 提示词,自带效果预览。 最后从 Github 精选了500个常用提示词,覆盖开发、设计、营销场景。 你只需要一键复制粘贴,或简写自动补全就能在任意网站和 AI 平台用。 也能添加日常快捷语,比如收货地址、邮箱等,任何有输入框的地方都能用。 果然,能让人偷懒的东西才是好工具。 一周过去,已有1000多人安装,全五星好评。 插件安装地址: > https://chromewebstore.google.com/detail/%E4%B9%94%E6%9C%A8%E5%BF%AB%E6%8D%B7%E6%8F%90%E7%A4%BA%E8%AF%8D/ndfmbdiaclladmoeifbhlkacllmfhjej 项目开源地址: > https://github.com/joeseesun/Qiaomu-QuickPrompt 乔木 Tab 每天上网,打开浏览器的次数是最多的,每次都要新开 Tab,这个页面值得好好利用。 除了添加常用网站,也支持创建Todo、添加便签、查看天气预报、搜索查看最近关掉的 Tab页面、收藏夹等。 每个模块都可以控制显示与否,也支持 Command + K 唤起,快速搜索或设置。 如果选了ChatGPT,输入内容后按Enter,自动跳转官网获得答案,不需要二次复制回车。 一个输入框解决了传统搜索、AI对话、添加Todo等操作,交互优雅。 > 彩蛋:开启音乐模块,能收听到乔帮主用 Suno 制作精选的各种风格音乐。 开源地址: https://github.com/joeseesun/qiaomu-tab 预计本周上架 Chrome 应用商店。 乔木 X 发布器 X(前Twitter)的文章发布工具太难用了,不支持Markdown表格渲染,图片要手动一张张传,相当耗时。 小小东出手做了一个Chrome插件,而且开源了代码。 他的插件正式上架了,强烈推荐安装: > https://chromewebstore.google.com/detail/xposter/iimkimodgdjnnmdopeolboakhjmhfbbj?authuser=0&hl=zh-CN 基于他的源代码,根据自己需求改造了一版。 把插件和自己的博客打通,同步博客文章,一键发布到 X。 如果你有自己的网站,也可以让 AI 帮你改造实现类似功能。 另外强烈推荐关注小小东,发布了很多优秀的生图提示词,开发的工具也都很实用,很有工匠精神。 > https://x.com/xiaoxiaodong01 乔木单词学习 开发插件不必从零开始,有很多优秀的开源可以用。 基于开源的类沉浸式翻译插件 read-frog,让Codex开发了一套单词学习系统。 每天阅读英文网页收藏的单词,变成闪卡可复习,基于艾宾浩斯曲线遗忘曲线。 增加单词学习模式,根据单词难度(如CET6+)旁边加上中文翻译,标记掌握情况。 这种单词学习方式最早灵感来自 Relingo,现在已有不少类似产品。 这个 Read-frog项目非常优秀,基本可以替代沉浸式翻译了,目前已有7k多Star。 https://github.com/mengxi-ream/read-frog 官方也在计划增加单词学习功能。 不着急的话可以等官方,应该比我 Vibe Coding 的质量好。 乔帮主改造版: > https://github.com/joeseesun/qiaomu-english-learn ## 各种网站 艺术家风格网 不知道你有没有类似困惑,写生图提示词时经常词穷,只能复制别人的提示词。 对于生图模型来说,一个艺术家名字就是一种风格的高度压缩。 这是非常好的学习素材,也是最好的提示词类型之一。 于是,调用 GPT-image-2 API,用几百个艺术家名字生图,然后整理成一个网站。 https://style.qiaomu.ai/ 提示词相同,变量只有艺术家名字。 > 远处是山,近处是深林和小溪,{artist} 风格的一幅画 远山近水和小树林,据说这种画面最能给人带来安全感,意味着食物、水源和庇护所。 网站可点击任意一张图片,按左右方向键查看图片,收藏艺术家和提示词。 上面都是风景画,不知道生成人物效果。 另外也想对比下即梦 4.5,换了一个包含人物和动物的新提示词,又做了个网站。 https://jm-style.qiaomu.ai/ > 一个女子坐在窗边读书,一只猫趴在她腿上,窗外是花园,用{artist}的风格绘制 你也可以换提示词,调用 API 生图制作自己的提示词对比参考网,开源代码: > https://github.com/joeseesun/qiaomu-artist-style 乔木音乐网 可能有些朋友不知道,我以前是摇滚青年,组织过北京高校乐队演出。 也曾在「无名高地」酒吧打工过一年,听遍了中国所有地下乐队。 毕业后开始搞互联网,但一直热爱音乐。 AI 生成音乐技术这几年发展特别快,虽然生成歌曲离专业水平还有距离,但自娱自乐足够。 开发了个网站,放几十首自己精选的 Suno 生成音乐,后面歌曲会持续更新。 https://music.qiaomu.ai/ 开源地址 > https://github.com/joeseesun/qiaomu-music-player-web 乔木博客 前段时间手术恢复期写的网站,目前是我的核心学习、内容分发阵地。 通过 CLI 发布,后台阅读编辑后,精选部分公开。 乔木博客网址 > https://blog.qiaomu.ai/ 乔木HTML分享 自己去年的第一个 Vibe Coding 作品,目前加密后,只给身边朋友用。 > https://www.32kw.com/ 不过有很多朋友有类似需求,于是抽空改造了一版开源出来。 把 AI 生成的 HTML、Markdown、SVG、Mermaid 变成一个微信里能阅读的网页。 一键免费部署到你的 Cloudflare 账号。 开源地址: > https://github.com/joeseesun/quickshare-cloudflare ## 乔木Skill 乔木论文解读 之前写的 Skill,最近升级,支持原始 TeX Source 格式。 抽取图表会更精准,比 AI 截图质量要好。 另外,只需要提供 Huggingface 和 Arxiv 论文网页地址就行,不需要提供 PDF 地址也能解读。 强烈推荐每周看下Huggingface 的 AI 论文榜。 https://huggingface.co/papers/ 安装指令 开源地址 > https://github.com/joeseesun/qiaomu-paper-interpreter 乔木阅读助手 用飞书 + AI 辅助读书,划线就能对话!非常有趣的读书方法探索。 1. 让 Codex或Claude Code 把Epub电子书按章节写入飞书文档。 1. 人肉阅读,有感触的地方划线、加粗,最好评论。 1. 让 Codex 读飞书文档中的标记和评论,让AI解释回复你。 安装指令 开源地址 https://github.com/joeseesun/qiaomu-read-helper Suno音乐制作 把任意想法变成一首歌,不用登录网站,通过CLI或Computer Use方式创作。 Skill内置了5000多种音乐风格和Suno歌词创作提示词。 支持下载任意Suno歌曲(哪怕不是自己生成的),下载时可以带 LRC 歌词,方便后续制作 MV。 > https://github.com/joeseesun/qiaomu-suno-master 安装指令: 乔木音乐网的音乐,多数用这个Skill生成。 Suno 音乐 MV 略有遗憾的是,现在视频生成模型太贵了。 只能用 Codex 生成图片,再结合 Hyperframe 生成幻灯片感 MV,不过配合 GASP 动效和字幕,看起来也还可以接受。 安装指令: NotebookLM 处理器 基于朋友的CLI扩展,支持任意内容传到NotebookLM处理成播客、PPT、思维导图等。 目前快 5k Star 了,还挺刚需的。 开源地址: > https://github.com/joeseesun/qiaomu-anything-to-notebooklm ## 其他工具和资料 乔木脚本 有时候觉得开发一个Chrome插件还是太麻烦了。 一些小需求,更适合写油猴脚本,有奇效。 比如: - 在Youtube网页加一个按钮,一键复制字幕。 - 给小宇宙网页版加上倍速播放。 - 让小红书支持粘贴图片上传等等 - 给公众号加一个按钮,跳转即梦生成封面。 开源地址: > https://github.com/joeseesun/qiaomu-userscripts GEO相关 今年我和姚老师出版了《AI营销:从SEO到GEO》(京东搜索有售),也顺利举办了中国第一届GEO大会。 起源于去年我们一起整理的《GEO白皮书》,主要用于GEO科普。 最近,我们又整理了《GEO红皮书》(警示规避黑帽 GEO)、《GEO蓝皮书》(帮助识别靠谱GEO供应商)。 前几天还在 WayToAGI 开了第一场GEO公开课,课程PPT和资料免费下载: > https://xiangyangqiaomu.feishu.cn/wiki/Bvx6wmAqAirtR1kWejmcFFrGn6f ## 两个小技巧 让你的Codex越来越聪明 灵感来自于跟tw93的直播访谈,让Codex更理解你的编程偏好。 打开Codex,设定目标或直接对话,提示词如下: 制作PPT小技巧 最近受邀参加一些线下分享,需要制作PPT,目前实践下来效果比较满意的方法。 从自己 X 历史8000条帖子总结的规律,生成的PPT页面: PPT生成提示词: https://xiangyangqiaomu.feishu.cn/wiki/QUmxwep0diOUOnkrdGscVa1PnE7 ## 写在后面 为什么有这么一篇文章,是因为我笃信的幸运公式:做很多事 * 让很多人知道 上面是我觉得值得分享给更多人的工具和产品。 希望其中有些可以帮你的工作、生活和学习增加一点点便利。

译作者分享了使用 Codex App 等工具开发的一系列开源项目,包括4个 Chrome 插件(如快捷提示词、新标签页)、4个网站(如艺术家风格对比、音乐展示)和5个 AI Skill(如论文解读、阅读助手)。项目基于 GPT-Image-2 API、Suno 等技术,并整合了 Read-frog、Hyperframe 等开源项目。

AYi@AYi_AInotes · 6月1日67

看着Codex操控浏览器这种感觉真的太爽了🤤 怎么让Codex操控浏览器干活? 1️⃣安装 Computer Use 插件 2️⃣ 打开 Codex → 点击左下角 Settings(设置) 3️⃣找到 Computer Use → 点击 Install 安装插件 4️⃣在 Codex 的任意新对话里,直接这样输入: 推荐写法: • 以 @Computer 开头 + 任务描述 • 或者直接 @Chrome / @Safari / @Slack / @Notes 等具体应用 举个栗子: • @Computer 打开 Chrome,进入 http://x.com,写一条帖子内容是“watching codex control my browser to do things it can't do in the harness is a holy shit experience”,但不要点发布,写完停在我能检查的位置。 • @Computer 帮我打开 Figma,把定价页的按钮颜色改成蓝色,然后截图给我看。 • @Computer 去 Messages 里找到 Brooke 发来的旅行建议,整理成新笔记叫“Yosemite ideas”,再给她回一条消息。 使用流程: 1. 输入提示 → 发送 2. Codex 会请求“允许访问 XX 应用” → 点击允许(建议选 Always allow) 3. 它就会开始在你的屏幕上真实操作(会有自己的光标) 4. 你可以随时在 Codex 界面点击 Stop 中止 实用技巧 & 注意事项:

译推文介绍了如何通过安装Computer Use插件让Codex操控浏览器及其他应用。用户需在Codex的Settings中安装该插件,然后在对话中以“@Computer”或具体应用名(如@Chrome、@Figma)开头输入任务指令。Codex会请求应用访问权限,允许后即可在屏幕上真实操作(拥有自己的光标),并可随时中止。文中列举了发帖、修改Figma界面、整理消息并笔记等示例。引用@GDB的评论“codex computer use is viscerally compelling”,强调了其直观震撼体验。

AYi@AYi_AInotes · 6月1日79

http://x.com/i/article/2061406941541240838 # 我把《非暴力沟通》整本喂给 Claude Opus 4.8,变成了一个随时能调用的 skill——保姆级教程 + 开源直接抄 先问大家一个有点扎心的问题:你上一本读完拍大腿、觉得很牛逼的书,现在还能说出它的核心方法吗?知道怎么用吗?估计多数人大概率说不出来,这篇就解决这件事:用 Claude Opus 4.8,把任意一本书,变成一个 AI 随时能喊出来用的 skill。 整套 Prompt + 开源 skill 全给你,小白零基础照着抄,不废话直接放干货。 ## 目录 - 一、你最大的浪费 - 二、这件事真正的难点 - 三、准备工作(5 分钟,只做一次) - 四、六步把书变成 skill(Prompt 直接抄) - 五、《非暴力沟通》做成skills的复盘 - 六、一盆冷水(反思) - 七、最后想说的 ## 一、你最大的浪费 做 AI 博主这这段时间,我读的书、看的方法论不算少,但是慢慢发现一件扎心的事—— 读过,不等于用得上。 我想大家肯定也有过这个场景:一本书当时读得热血沸腾,划满了线,笔记记进了 Notion,结果三个月后真要写篇东西、做个决策,脑子里一片空白,那本书像没读过一样。 说白了,大多数人的读书,都只是在囤积,没有真正做到知识的调用。 那能不能让 AI 把书里的方法论,变成一个我随时能喊出来用的工具? 趁着周末折腾出了一个开源 skill——把任意一本书,提炼成一个能被 AI 调用的 skill。 不是读后感,也不是摘要,是一个真正实用的工具箱:书里的框架、原则、技法、反模式,全部变成 AI 能照着执行的指令。 ## 二、这件事真正的难点 这件事真正的难点不在书内容的提炼,关键是怎么让 AI 读全。 一本书几万字,得让 AI 把整本的逻辑链一次吃进去,而不是切成碎片各读各的。 因为一旦书的逻辑链被切碎,跨章节的因果也就断了,提炼出来的框架基本都是残的。 所以 AI 大模型一定要用最顶的,我用的是 Claude Opus 4.8。 它三个能力刚好卡这个任务的命: - 长上下文:100 万 token 的上下文窗口,整本书一次读完,不切块、不丢逻辑 - 结构化输出:直接吐出规整的 skill 文件,不用手动排版 - 多步 agentic:生成完自己做一遍自检和试调用,发现哪里空洞再回去补 调 Opus 4.8 的入口我用的是 ZenMux,老粉应该都知道,自从我的 Claude 被封号几次以后,就转过来了——200多多个模型一个 API 全调得到,不用翻墙,费用还能选,重度用就订阅,想随用随付就按量。 做这种要反复喂整本书、还想多模型对比的活,就还挺合适的。 ## 三、准备工作(5 分钟,只做一次) 第 0 步|把 Opus 4.8 接进 Cursor 配置看起来有点技术感,但其实就这几步,做过一次永远不用再碰: ① 在 zenmux 后台生成你的 API Key 后台找「订阅 API 密钥」,点生成,拿到一串 sk-ss-v1-... 的密钥,复制好,别外泄。 ② 选一个计费方式 - 订阅制(Builder 计划)→ 用量可预测,固定月费,适合经常用的人 - 按量付费(Pay As You Go)→ 偶尔用、用量不稳定时选这个,充值还有 +10% 积分 ③ 打开 Cursor,进 Settings → Models,做三件事: 第一,打开「Override OpenAI Base URL」的开关,填入: https://zenmux.ai/api/v1 第二,「OpenAI API Key」那栏填你的 zenmux key(就是 sk-ss-v1- 那串)。 第三,「Anthropic API Key」那栏留空。这个很关键——填了的话,所有 claude- 开头的模型都会被 Cursor 劫持,打到 Anthropic 官方而不是 zenmux,直接报错。 ④ 点「+ Add model」,填这个模型名: anthropic/claude-opus-4.8 注意一定要带 anthropic/ 前缀,不能填 claude-opus-4-8——后者以 claude- 开头,会走错通道。 ⑤ 新开对话,选中这个模型,发句「在吗」,能回 = 通了。 ## 四、六步把书变成 skill 第一步|把书变成一段纯文字 目标:拿到这本书干净的纯文本(.txt 或 .md),图表排版丢了没关系,文字逻辑在就行。 按你手上的格式,三选一: 情况 A · 已经是 Word / 网页文章 Word 里点文件 → 另存为 → 格式选「纯文本(.txt)」即可;网页文章就全选复制,粘进记事本存成 .txt。 情况 B · 是 PDF 或 EPUB(推荐小白走这条) 用 Calibre(完全免费,calibre-ebook.com): 1. 下载安装 1. 把电子书文件拖进去 1. 选中这本书,点上方「转换书籍」 1. 右上角「输出格式」选 TXT,右下角点确定 1. 转换完点「点击查看」,找到 .txt 文件 > 这里有个坑我替你踩过了——很多看起来免费的在线转换工具,下载时会要你订阅付费,还自动续费。我被套路过一次,最后用的还是 Calibre,完全免费,稳得多。 情况 C · 实在啥都不想装 搜「epub 转 txt 在线」,上传、选输出格式、下载即可。但注意别用要付费的那种,也别把有版权或隐私内容的书传到不可信的网站。 > ⚠️ 关键:要的是整本干净文字,别先让任何工具帮你摘要再喂——摘要会把框架精度丢光。 第二步|把整本丢给 Opus 4.8,先别让它摘要 怎么喂:客户端支持上传文件就直接拖 .txt;不支持上传就分几段把全文粘贴进去。 然后发这段提示词(直接抄,方括号换成你的): 这是《[你的书名]》全文。先不要摘要。 通读全书,给我一张全局结构地图: 核心论点是什么?围绕它有哪些命名框架/原则/技法/反模式?它们之间什么逻辑关系? 作者的语气有什么辨识度? 我想用它做一个能帮我 [你的目的,比如:在经济下行期做决策] 的 skill。 第三步|按 5 类提炼,做一张台账 接着发: 按这 5 类提炼这本书:框架 / 原则 / 技法 / 反模式 / 作者声音。 每条给:名字 + 一句话定义 + 何时用 + 原书的精确表述。 框架要保留作者的原始命名,别改写成通用说法。 哪些是核心必进、哪些是边角可省?给我一张台账表格。 第四步|生成 skill(这步决定它好不好用) 先判断:这本书框架少(1-3 个)就做成一个文件;框架多(10+ 个)就做成「入口文件 + 分文件懒加载」。 然后发: 按这份台账生成一个 Cursor skill。 重点打磨开头那段 description—— 把「用户会在什么场景、说什么话时需要它」全写进去, 因为这决定它会不会被 AI 自动召回,写不好等于白做。 第五步|自检 + 试调用(最容易被跳过,但不能省) 第一次跑的时候我也跳了这步,结果发现这个 skill 完全召不回来,才明白有多关键。 让它自己验两件事,发现问题就回上一步补: ① 召回测试 只看这个 skill 开头的 description, 用户说这 5 句话时你会不会想起调用它?逐句判断。 ② 调用测试 现在真用这个 skill 完成一个任务: [一个这本书能解决的真实问题] 看你给的是能照做的步骤,还是空话。 第六步(可选,但很爽)|让几个模型 PK 一下 同一份台账,丢给 Opus 4.8 和另外一两个模型各生成一版,对比谁提炼得更准、触发词更全。 这一步用 ZenMux 的PK功能就很省事——一个 API 直接切不同模型,不用来回换账号、配 key。 ## 五、拿《非暴力沟通》跑测skills的复盘 选这本是因为它框架特别清晰——马歇尔·卢森堡的《非暴力沟通》,一本讲怎么好好说话的经典。 框架越清晰的书,越适合做这个测试。 全程时间: 第一次从零开始,包括配置 ZenMux + 跑完六步,前后大概 45 分钟,熟悉之后换一本书重跑,估计 20 分钟内能搞定。 实际成本: Opus 4.8 在 ZenMux 的价格是输入 $5/百万 token,输出 $25/百万 token。整本书加上来回几轮对话,总共消耗约 30 万 token,折合下来整个流程花了不到二十块钱人民币。 生成的 skill 什么样: Opus 4.8 把这本书提炼成了一套能直接调用的工具,而且保留了书里的原始命名——「非暴力沟通四要素(观察·感受·需要·请求,OFNR)」、「长颈鹿语言 vs 豺狗语言」这个动物隐喻、「疏离生命的语言」这几类沟通陷阱,全都没被改写成通用说法。 更关键的是,它把"要好好说话"这种正确的废话,变成了"先说你观察到的事实、别评判,再说你的感受,再讲你的需要,最后提一个具体的请求"这种我能照着做的四步。 第五步的自检没省,也确实抓到了问题: 它第一版的触发词写窄了,我说「非暴力沟通」才召得回,但现实里我根本不会这么说话——我会说「怎么提意见不像在指责」「和家里人又吵起来了怎么办」。我把这些更日常的说法补进去,它才真的能在我需要的时候自己冒出来。这一步多花了十分钟,但没做等于白做。 最让我感受到这东西真有用的一刻: 生成完这两天,我和家人有句话憋着不知道怎么开口,就是那种一说出来容易变味、听着像指责的事。我顺手喊了下这个 skill,它直接用 OFNR 四步把我想说的话拆开重排了一遍——先讲我观察到什么,再讲我的真实感受,把那些「你总是」「你又」的词全换掉了。 那一刻我突然反应过来:这本我几年前读过、早就还给作者的书,第一次真的回到了我手边帮我干活,而不是躺在书架上积灰。 ## 六、一盆冷水 有一说一,咱也不能把这套吹成万能。 1️⃣因为不是所有书都适合,框架清晰的方法论书最香(商业、思维、写作、沟通类), 纯叙事、纯故事的书,硬提炼出来的 skill 是干瘪的,别浪费时间。 2️⃣提炼也不等于理解:这套方法帮你把书变成「能调用的工具」,但那些要你亲身踩过才懂的东西,它给不了。 书里的道理,AI 能帮你格式化,但不能帮你内化。 还有,AI 会漏框架,会把触发词写窄导致召不回, 所以第五步的自检千万别省,生成完你还得自己过一遍、调一调。 说白了,这是把读过的书激活成工具的一道工序,但不能替你读书。 ## 七、最后想说的 就这一道工序,已经改变了我对读书这件事的看法。 以前我衡量自己读了多少本书。,现在我衡量的是——我有多少本书,已经变成了 AI 随时能调用的能力。 知识最大的浪费,从来不是没读过,是读过了,却一直躺在收藏夹里当库存。 而真正的护城河,也正在从「你读过多少书」,变成「你能把多少书,变成自己随时调得动的产能」。 读完一本书就让它睡进 Notion,和读完就把它焊成一个能干活的 skill,是两种完全不同的复利。 整套 skill 我开源了,拿走直接用:https://github.com/ayi-ai/ayi-nonviolent-communication 跑通了欢迎评论区告诉我你把哪本书变成了 skill,我们一起迭代下一版。

译本文以《非暴力沟通》为例,提供了一个将书籍转化为可调用AI技能(Skill)的六步教程。作者使用Claude Opus 4.8模型,因其具备100万token上下文窗口、结构化输出及多步智能体(Agent)能力,能一次性处理全书逻辑。流程包含文本准备、全局结构分析、五类提炼(框架/原则/技法/反模式/作者声音)、技能生成及关键的自检步骤。生成的技能保留了书中原始框架命名(如OFNR四要素、长颈鹿语言),并将触发词优化为“怎么提意见不像在指责”等日常表达。整个流程耗时约45分钟,消耗约30万token,成本不到20元人民币。

AYi@AYi_AInotes · 6月1日50

说个暴论:信息差是普通人最后的红利。 希望大家认清一个现实:现在真正的贫富差距早就不是钱多钱少了,是信息差,同一件事,信息玩家和普通人活在两个世界: 买东西,普通人直接全新价下单, 信息玩家先翻一遍闲鱼,常常五折拿到几乎全新的; 用 AI,普通人月月烧几百刀订阅, 信息玩家知道学生能白嫖 1 年 Cursor、开源作者能领半年 ChatGPT Pro、初创自助就能拿几万刀云额度; 学东西,普通人到处买盗版课, 信息玩家知道官方文档和一堆顶级免费资源,就明晃晃摆在那。 呐,钱一样,信息不一样,结果差了十倍。 而且信息差这个东西在AI 时代只会越拉越大—— 因为免费的、高杠杆的通道越来越多, 但它们从不主动找你,全靠你知不知道、搜不搜、问不问。 所以宝子们,与其焦虑赚得不够多, 不如先把我是不是又当冤种了这句, 养成每次花钱前的本能反应。 毕竟信息差永远不会消失, 它只会从知道的人,流向不知道的人。

译推文指出,在AI时代,真正的贫富差距已转变为信息差。信息玩家能通过各种渠道节省开支或获取免费资源,例如以五折价购得几乎全新的商品、利用学生身份免费使用一年Cursor、作为开源项目维护者领取半年ChatGPT Pro,或为初创公司获取数万美元云额度。推文引用的具体福利显示,任何公开开源项目的维护者,均可申请免费获得价值$1200的6个月ChatGPT Pro。这些高杠杆的免费通道不会主动出现,因此推文建议养成在消费前先审视自身是否为“冤种”的习惯,以抓住信息差带来的红利。

MiniMax (official)@MiniMax_AI · 6月1日47

One shot. Through @opencode. By M3.

译用户@stevibe展示了MiniMax M3模型的能力。他仅提供了一张90年代风格旧网页的截图和相关素材文件,没有提供HTML源代码,要求通过OpenCode工具将网站一次性重建为现代Apple风格。模型成功在一次尝试中完成了任务,生成的网页保留了原始页面的标识和核心元素,并以现代化的渐变设计、排版和深色主题重新呈现,效果被评价为“真正令人惊叹”。

SiliconFlow@SiliconFlowAI · 6月1日57

The #1 coding agent on @OpenRouter, now living in your Discord server Step-by-step setup, model selection &amp; pro tips Here's everything you need with @NousResearch Hermes Agent + SiliconFlow 🧵

译OpenRouter上排名第一的编程智能体,现已入驻你的Discord服务器 分步设置、模型选择与专业技巧 以下是使用NousResearch Hermes Agent + SiliconFlow所需的一切 🧵

AYi@AYi_AInotes · 6月1日39

还在读书的,这条价值 $1000+ 的福利千万别错过🤩 GitHub Student Developer Pack—— 学生一次申请,100+ 个工具全免费, 我见过性价比最离谱的学生福利,没有之一。 随手列几个里面的: · GitHub Copilot(AI 编程,正常 $100/年) · JetBrains 全家桶 IntelliJ/PyCharm($250/年) · Azure $100 云额度 · DigitalOcean $200、Canva Pro、1Password、域名… 加起来轻松 $1000+, 门槛只有一个:能证明你是在校学生。 老规矩入口下方评论区自取⬇️

译GitHub Student Developer Pack为在校学生提供一次申请即可免费使用100+开发工具的机会,总价值超过$1000,其中包含价值$100/年的GitHub Copilot、$250/年的JetBrains全家桶及$100 Azure云额度等。同时,任何公开开源项目的维护者可申请免费获得6个月的ChatGPT Pro(价值$1200),门槛较低,只需有项目链接即可申请。

歸藏(guizang.ai)@op7418 · 6月1日67

妈的,终于搞定我的 Codex 断联和推理慢的问题了! 我有一台电脑上的 Codex 推理速度巨慢,即使开了快速模式也很慢,还有一个问题就是经常连不上。 我一直以为是自己的网络有问题,但它和我的 Mac Studio 处于同一个网络环境,Mac Studio 运行就非常快。 结果今天发现,是我的 config 配置文件有问题。里面写死了两个参数,还写死了两个必须加载的 MCP,导致速度巨慢。 如果你也有类似问题的话,我推荐让你的 Codex 自己检查一下配置文件。你只需要跟它描述具体的表现就行。

译作者解决了其Codex推理速度异常缓慢且频繁断联的问题。在同一网络环境下,其他设备运行正常,这排除了网络原因。最终发现根源是配置文件中错误地写死了两个参数,并强制加载了两个MCP,导致了性能问题。建议遇到类似情况的用户,可尝试利用Codex自身能力来检查其配置文件。

AYi@AYi_AInotes · 6月1日65

免费领 1 年 Cursor Pro,价值 $240🤩 继续给大家分享优质福利,这条专给还在读书的兄弟(不是学生的,转给你在校的朋友)。 在校大学生,用 .edu 邮箱通过 SheerID 验证,就能白嫖整整 12 个月 Cursor Pro,和花 $20/月的付费版一模一样: Claude / GPT / Gemini 全模型 + Agent 多文件编辑,每月还白送 $20 模型额度。 不用信用卡,验证过了直接开通! 毕业前赶紧薅,截至2026.6仍旧有效! 入口评论区自取!

译Cursor推出学生福利,在校大学生凭.edu邮箱通过验证可免费使用Cursor Pro一年,价值$240。套餐包含Claude、GPT、Gemini全部模型及Agent多文件编辑功能,每月附赠$20模型额度,无需信用卡,有效期至2026年6月。同时,OpenAI为开源项目维护者开放ChatGPT Pro申请,任何公开开源项目(无星数要求)的维护者均可申请,获批后可免费使用6个月,价值$1200。

Berryxia.AI@berryxia · 6月1日74

用2周用Three.js + 实时语音AI,把盛唐长安做成了能走进去对话的3D世界 如果你能走进一座会说话的盛唐长安城,和李白对诗、让AI导游带路、在天枢府听智机使讲解,会是什么体验? 我们花两周高强度开发,把这个想法做成了一个可在线玩、可开源复用的浏览器3D互动项目。 在线体验:https://andyhuo520.github.io/tang-changan/ GitHub开源:https://github.com/andyhuo520/tang-changan 项目核心亮点: - 用WASD真正“走进”长安城,而不是只能转相机看模型 - 真实语音对话:按住麦克风就能和李白、杜甫、智机使聊天 - 融合诗词小游戏、珍宝馆、AI展馆,把历史和AI能力变成可玩体验 - 全开源,普通创作者和初学者也能复刻学习 整个项目从一个朴素想法开始:把盛唐长安做成一个可漫游、可对话、可游戏、可展示AI能力的3D世界。 开发过程分为9个阶段,我把最关键的干货和踩坑经验都写出来了: 1. 先搭出一个能看的低多边形长安沙盘(Three.js核心搭建) 2. 加入WASD游戏模式,让玩家真正“走进”长安。 3. 添加大量NPC和小游戏(飞花令、对对联、猜谜等唐风玩法) 4. 打造珍宝馆、诗画展厅,把文化内容变成可互动展厅。 5. 把AI品牌做成唐风“天枢府 / AI展馆”,让现代AI出现在盛唐场景里 6. 接入Agora实时语音Agent,实现真正的语音对话(最难也最核心的部分)。 7. 加上角色头像、视频面板、古风BGM,提升沉浸感 8. 解决3D尺度、浏览器缓存、语音账号等常见坑 9. 最终部署到GitHub Pages,让任何人一键体验 语音部分我们用了Agora ConvoAI + Persona设计,每个NPC(李白、杜甫、王维、智机使等)都有独立性格、音色和对话风格,不是千篇一律的机器人。 普通用户直接点链接就能玩: WASD移动 → 靠近NPC按E对话 → 进入展馆互动 → 语音聊天 开发者想复刻也很友好:代码模块化清晰,前端Three.js + 后端FastAPI分开,文档和踩坑记录都很完整。 我们最终做到的不是一个普通的3D展示页,而是一个小型数字文旅 + AI能力样板: 把历史文化游戏化,把AI能力场景化,把开源项目做成能真正分享的作品。 想体验盛唐长安的AI版吗? 点链接进去试试,和李白用语音对一句诗,或者让智机使给你讲解实时语音技术。 感兴趣的朋友欢迎点赞、评论你最想玩的环节,或者直接去GitHub看代码复刻。 #Threejs

译开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。

宝玉@dotey · 6月1日70

自从 Claude Design 可以共享额度,可以用的次数多了很多,但 Token 消耗还是很厉害。不过做出来的东西真的很好,真的强烈建议你多用用,这是我近期用的最好的 Agent 产品之一。 一个技巧,你可以导入现成的 Design System,再让它设计,风格一致性会好很多,用一些成熟的 Design System,做出来的东西也更高端大气一些。 我个人推荐试试 Adobe 的 Spectrum 2 design system, 用下面的 URL 就可以导入,导入后就可以让它设计时基于 https://github.com/adobe/react-spectrum 这里可以找到更多的设计系统: https://github.com/alexpate/awesome-design-systems

译Claude Design 现与 Claude AI 网站、Claude Code 共享额度,用起来更便捷。其产品设计和UI设计能力不错。一个提升设计一致性的技巧是先导入成熟的Design System再进行设计,例如推荐Adobe的Spectrum 2 design system。此外,GitHub上有更多设计系统资源可参考。

Berryxia.AI@berryxia · 6月1日73

http://x.com/i/article/2060375125825036288 # 用Claude花了2周时间+800美金打造的大唐语音互动3D小游戏的教程。 这是一份面向普通读者、创作者和初学开发者的科普教程。它不假设你已经懂 Three.js、实时语音或 AI Agent,而是从一个朴素问题开始: > 如果一座盛唐长安城不是只能观看,而是可以走进去、和李白对诗、和导游问路、在 AI 展馆里听智能讲解,会是什么体验? 我们用两周左右的高强度开发,把这个想法做成了一个可在线访问、可开源复用的 Web 3D 互动项目。 项目地址: - 在线体验:https://andyhuo520.github.io/tang-changan/ - GitHub:https://github.com/andyhuo520/tang-changan > 上图是我们为语音 NPC 面板,使用GPT-image-2 模型生成的素材,准备的一组角色视觉素材。项目里每个核心角色都可以拥有自己的头像、视频开场和待机状态,让“和 NPC 说话”更像在游戏里见到一个具体的人。 ## 1. 最初的设计目标 一开始,我们并不是想做一个普通的“3D 展示页”。我们的目标更像一个小型数字文旅实验: 1. 它要像游戏一样能玩。 玩家可以进入场景,用 WASD 操控角色,而不是只能转动相机看模型。 1. 它要像博物馆一样能逛。 场景里有宫殿、朱雀大街、珍宝馆、诗画展厅、AI 展馆。 1. 它要像真实导览一样能说话。 玩家不是点几个固定按钮,而是能按住麦克风和 NPC 语音交流。 1. 它要有盛唐气质。 色彩、建筑、人物、诗词、小游戏都围绕“长安”“诗酒”“万邦来朝”展开。 1. 它要能开源。 最终要能部署到 GitHub Pages,让别人直接体验,也能阅读代码学习。 用一句话概括: > 我们想把“盛唐长安”做成一个可漫游、可对话、可游戏、可展示 AI 能力的浏览器 3D 世界。 ## 2. 第一阶段:先搭出一个能看的长安沙盘 任何复杂互动项目,第一步都不是做功能,而是先让“世界存在”。 我们先用 Web 3D 技术搭建了一个低多边形风格的长安微缩沙盘。核心技术是 Three.js:它可以在浏览器中渲染 3D 场景,不需要用户安装客户端。 这一阶段的重点是: - 建立主场景、相机、灯光、后期效果; - 搭建朱雀大街、宫殿、城门、市集、塔楼、河道等地标; - 用低多边形材质保持性能,让普通浏览器也能跑; - 加入昼夜、季节、天气、雾效等氛围变化; - 做出俯瞰视角,让它第一眼像一张“会动的唐代城市地图”。 这一阶段看起来像“美术搭建”,但其实它决定了后续所有玩法的边界:哪里能走、哪里能互动、哪些地标能承载剧情。 ## 3. 第二阶段:把展示页变成可玩的游戏 只有沙盘还不够。我们希望玩家不是“看长安”,而是“走进长安”。 于是项目进入第二阶段:加入 WASD 游戏模式。 玩家点击「走进长安」后,会进入角色选择: - 世子 - 商贾 - 侍女 - 游侠 每个角色有自己的头像、默认名字、初始钱包和物品。进入游戏后,玩家可以: - 用 WASD 移动; - 用鼠标调整视角; - 靠近 NPC 按 E 对话; - 靠近店铺或展馆按 F 触发互动; - 查看钱包、体力、行囊、任务提示。 这一阶段真正完成了从“3D 页面”到“小游戏”的转变。 ## 4. 第三阶段:让 NPC 不只是摆设 很多 3D 场景的问题是:建筑很漂亮,但里面没有生活。 所以我们给城市加了大量 NPC 和小游戏,让它变得有烟火气。 4.1 NPC 互动 玩家靠近路人、文士、商贾、仕女、官员、僧人等 NPC,可以触发对话。不同 NPC 会有不同身份和口吻。 4.2 诗词小游戏 我们设计了偏唐风的互动玩法: - 飞花令:给出一个关键字,玩家从诗句中选择含有该字的一句; - 对对联:给出上联,从多个候选句里选下联; - 猜谜:用民俗谜语和长安史实做选择题; - 猜拳:快速轻量的小互动,配合随机奖励。 小游戏不是单纯为了“好玩”,而是让诗词和历史知识变成可参与的体验。 ## 5. 第四阶段:做珍宝馆与诗画展厅 为了让项目更像数字文旅产品,我们加入了展厅系统。 玩家可以进入不同展馆,欣赏诗画、珍宝和历史主题内容。例如: - 《步辇图》 - 《历代帝王图》 - 《簪花仕女图》 - 诗词与书画主题展 - 丹青馆 DIY 展厅 展厅的作用是把“游戏”与“文化内容”连接起来:玩家既可以玩,也可以看展、听讲解、理解背后的历史语境。 ## 6. 第五阶段:加入 AI 展馆 项目最特别的一部分,是我们把现代 AI 品牌做成了唐风展馆。 我们设计了一个“天枢府 / AI 展馆”概念:在盛唐长安里出现一个古今穿越的科技坊市。不同 AI 品牌不再只是 logo,而是变成一座座唐风殿宇,每个展馆都有自己的讲席和风格。 其中 Agora 馆作为核心语音互动展馆,承担了实时语音能力展示。 > 在游戏场景中,Agora 不只是一个外部服务名,而是被设计成一座可进入、可互动、可召唤智机使讲解的“Agora 馆”。这能帮助非技术用户理解:语音 AI 不只是后台 API,它可以成为一个场景化体验。 在视觉上,我们做了: - 唐风殿宇; - 品牌 logo 立柱; - 发光牌匾; - 展馆说明牌; - 可交互门口热点; - 现代科技与古代街景混合的小彩蛋。 在叙事上,我们把它包装成: > 大唐长安出现了一座“智机府”,各路 AI 智机使在这里讲解不同的智能能力。 这样做的好处是:AI 展示不再像一个冷冰冰的产品页面,而是变成了玩家在游戏世界里能探索的一部分。 ## 7. 第六阶段:接入实时语音 Agent 这是整个项目最核心、也最难调的一部分。 我们的目标不是让 NPC 弹出文字框,而是让玩家真的能用语音和角色交流。 7.0 开发前置:安装 Agora Skills / Agora CLI 在这个项目里,Agora 语音能力并不是直接把 App ID 写死在网页里,而是通过 Agora Skills + Agora CLI 完成项目登录、能力检查、环境变量写入和 ConvoAI 就绪检查。 你可以把它理解成: > Agora Skills 负责告诉 Agent 怎么集成 Agora;Agora CLI 负责登录账号、绑定项目、写入 .env.local。 更具体地说,这里有两层: 层级作用谁来使用Agora Skills给 AI Coding Agent 的集成说明书,告诉 Agent 应该用官方 quickstart、怎么检查 ConvoAI、怎么处理 token 和环境变量Cursor / Claude / AgentAgora CLI真正执行登录、项目选择、能力检查、环境变量写入的命令行工具开发者和 Agent 都会用。 所以,“安装 Agora Skills”在实际复现时,通常会落到两件事: 1. 确保你的 AI 开发环境已经有 Agora Skill / Agora 参考资料; 1. 在本机安装并登录 agora CLI,让项目可以拿到有效的 Agora 项目配置。 第一步:确认是否已有 Agora Skill / Agora CLI 如果本机还没有 agora 命令,可以安装: 安装完成后,重新打开终端,确认命令存在: 如果能输出路径和版本号,说明 CLI 已经进入你的 PATH。 安装后检查: 如果终端能看到 Agora CLI install is healthy,说明 CLI 本身可用。 > 如果 agora 命令不存在,通常是 shell 没有加载新的 PATH。可以重开终端,或检查安装脚本输出里提示的 PATH 配置。 第二步:登录 Agora 账号 agora login 命令会打开浏览器完成授权。正常流程一般是: 1. 终端打印一个 https://sso2.agora.io/... 登录链接; 1. 浏览器打开 Agora SSO 页面; 1. 登录并授权 Agora CLI; 1. 浏览器回调本机 localhost; 1. 终端显示 Session stored 和 Status: authenticated。 登录后检查状态: 你希望看到类似: 如果这里显示未登录,重新执行 agora login。 如果登录成功但后面 agora project list 返回: ACCOUNT_BLOCKED 说明不是代码问题,而是 Agora 账号或控制台权限被限制。此时需要换一个可用账号,或先解除账号限制。 第三步:选择或创建 Agora 项目 登录后先列出项目: agora project list 如果你已经有项目,可以选择它: agora project use <project-id-or-name> 如果还没有项目,可以通过 Agora Console 创建,或用 CLI 初始化 quickstart 项目: 这个命令会做三件事: - 创建或绑定一个 Agora 项目; - 克隆官方 quickstart; - 写入本地 .env.local。 本项目是从 official quickstart 的思路继续改造的:先确保官方 demo 能跑,再把它嵌入到《大唐长安》的 3D 场景中。 第四步:检查项目是否支持 ConvoAI 实时语音 Agent 依赖 Agora 的 Conversational AI 能力。可以运行: 如果提示没有启用,可以尝试: 然后再次运行 doctor 确认。 你希望看到的结果是 project doctor 没有 blocking issue。它不等于“语音一定已经通了”,但至少说明控制台项目配置层面准备好了。 第五步:把 Agora 项目凭据写入语音后端 本项目的语音后端读取: 其中最关键的是: 可以让 Agora CLI 自动写入: > 注意:AGORA_APP_CERTIFICATE 是敏感信息,不要提交到 GitHub。项目的 .gitignore 已经忽略 .env.local。 写入后可以检查文件是否存在,但不要把证书贴到公开地方: 如果只是自查证书是否存在,可以看键名,不要打印完整值: 第六步:启动语音服务 后端: 前端 iframe: 主游戏默认会把语音面板指向: http://localhost:3000 如果线上部署语音服务,可以通过 URL 参数指定: ?voiceOrigin=https://你的语音前端域名 第七步:验证语音链路 先验证后端能返回 Agora 配置: 再验证能启动一个 agent: 如果返回 agent_id,说明后端成功请求 Agora 创建了一个语音 Agent。 最后打开游戏,进入 Agora 馆,点击右侧语音面板,观察三件事: - 面板不再一直停在“召唤中”; - 麦克风能采集声音; - AI 有返回语音和字幕。 > 语音功能最终不是孤立存在的,它会和玩家身份、NPC、展馆、字幕、头像面板一起工作。玩家看见的是“角色在长安城里与智机使对话”,背后才是 RTC、ConvoAI 和 Agent 编排。 常见错误与排查 如果看到: 通常不是前端按钮坏了,而是 Agora 项目或凭据不可用。优先检查: - agora auth status 是否已登录; - agora project list 是否能正常列出项目; - 当前账号是否被限制或 blocked; - agora project doctor --feature convoai 是否通过; - .env.local 里的 App ID / Certificate 是否来自同一个项目; - 修改 .env.local 后是否重启了后端。 可以按这个顺序排查: 如果 CLI 登录正常,但 project list 返回 ACCOUNT_BLOCKED,说明账号侧被限制,代码无法绕过。需要换可用账号或解除 Agora 控制台限制。 7.1 基本架构 项目被拆成两部分: - han-diorama 浏览器 3D 主场景 负责 Three.js、WASD、NPC、展馆、小游戏 - tang-voice-agent - 语音智能体子项目 - 前端是 Next.js iframe - 后端是 FastAPI / Python - 负责 Agora ConvoAI、Persona、语音对话 主场景里点击 NPC 后,会打开右侧语音面板。这个面板本质上是一个嵌入的 iframe,它和主游戏通过 postMessage 通信。 7.2 一次语音对话发生了什么 当玩家按住麦克风说话时,大致流程是: 玩家麦克风 ↓ 浏览器 RTC 上行 ↓ Agora 实时音频链路 ↓ ConvoAI:语音识别 → 大模型思考 → TTS 合成 ↓ AI 声音通过 RTC 回到浏览器 ↓ 游戏里 NPC 头像、字幕、状态同步变化 普通用户看到的是“我和李白说话了”。技术上背后是实时音频、语音识别、大模型、语音合成和游戏状态同步一起工作。 7.3 为什么要做 Persona 如果所有 NPC 都用同一个提示词,它们就会像同一个机器人。 所以我们给不同角色做了不同 Persona: - 李白:诗酒豪放; - 杜甫:沉郁关怀; - 王维:山水空灵; - 周引之:导游身份,可以带路; - 苏阮卿:画学博士,负责讲画; - 智机使 · Agora 馆:讲解实时语音与 ConvoAI。 每个 persona 有自己的: - 名字; - 身份; - 场景位置; - 说话风格; - TTS 音色; - 可注入的场景上下文。 这让语音功能不只是“能说话”,而是和游戏世界绑定在一起。 ## 8. 第七阶段:做角色头像、视频面板与 BGM 为了让语音互动更有“面对面”的感觉,我们做了左侧角色 portrait 面板。 它支持: - idle.jpg / idle.png 静态头像; - idle.mp4 静音循环视频; - intro.mp4 带原声开场视频; - AI 说话时切换 talking 状态; - 没有素材时自动 fallback。 后来又加入了古风 BGM: - 默认循环播放古琴 / 古筝曲; - 支持静音、音量、切歌; - 当玩家打开语音对话时,BGM 自动降低音量,避免盖住人声。 这一步看似是“包装”,但对用户体感影响很大。没有声音和头像时,AI 对话像工具;有了角色视频、字幕和背景音乐后,它更像游戏里的角色。 ## 9. 第八阶段:解决视觉与尺度问题 开发中遇到过一个典型问题:AI 展馆一开始太大,放到城市里会出现“浮在地面上”“镜头一转消失”的情况。 问题根源是单位尺度不一致: - 主城使用的是游戏世界单位; - AI 展馆早期按更大的现实尺度设计; - 结果展馆实际超出了主城地面范围。 解决方式是: - 把天枢府缩放到适合主城的面积; - 重新设置展馆中心点; - 调整 3×3 展馆布局; - 缩小 logo 立柱、牌坊、院墙和展馆模型; - 确认所有互动点都落在可见地面内。 这个经验很重要:3D 项目里,美术好看不够,尺度一致才是可玩的前提。 ## 10. 第九阶段:部署到 GitHub 项目完成后,我们把前端开源部署到了 GitHub。 前端 han-diorama 是静态 Web 项目,适合用 GitHub Pages 托管。 部署流程: 然后使用 GitHub Actions 自动发布 Pages。 线上地址: https://andyhuo520.github.io/tang-changan/ 需要注意的是: - GitHub Pages 只能托管静态前端; - 实时语音后端 tang-voice-agent 需要单独部署; - 本地开发时可以用 http://localhost:3000 作为语音 iframe; - 线上如果要启用语音,需要给游戏传入可访问的语音前端地址。 ## 11. 普通用户怎么体验 打开: https://andyhuo520.github.io/tang-changan/ 进入页面后可以: 1. 在沙盘视角浏览盛唐长安; 1. 点击「走进长安」; 1. 选择角色:世子 / 商贾 / 侍女 / 游侠; 1. 用 WASD 移动角色; 1. 靠近 NPC 按 E 对话; 1. 靠近展馆或店铺按 F 互动; 1. 进入珍宝馆看诗画; 1. 进入 AI 展馆体验语音智能体。 常用按键: 按键作用WASD移动鼠标调整视角E与 NPC 对话 / 触发小游戏F进入展馆 / 开店 / 触发场景Esc关闭语音面板 ## 12. 开发者如何理解项目结构 项目可以分成几层: han-diorama/ index.html 页面结构与 UI 容器 scene.js 主 3D 场景、游戏模式、NPC、语音面板 modelLoader.js 角色模型加载 assets/ logo、头像、BGM、预览图 portraits/ NPC 视频 / 头像素材 murals/ 画廊素材 lib/ content/brand-data.js AI 展馆品牌数据 world/brand-plaza.js AI 展馆 / 天枢府 world/gallery-hall.js 珍宝馆 / 展厅 world/diy-hall.js 丹青馆 DIY ui/voice-intent.js 语音意图路由 hero/ 大明宫、东西市、曲江等地标模块 tang-voice-agent/ web/ Next.js 语音前端 iframe server/ FastAPI 后端 server/src/personas/ 角色 Persona 最核心的思想是: > 3D 主项目负责“玩家在哪里、看见什么、能做什么”;语音子项目负责“玩家说什么、AI 怎么回答、声音怎么回来”。 ## 13. 这次开发踩过的坑 13.1 浏览器缓存 浏览器会缓存 JS 和图片。我们在模块路径后面加版本参数: scene.js?v=20260529-agora-only 这样每次重要更新后,线上用户能加载到新代码。 13.2 视频自动播放限制 浏览器通常不允许带声音的视频自动播放。解决方式: - 先尝试播放 intro.mp4; - 如果被浏览器拦截,就退回静音播放; - 在用户点击页面后再解锁音频。 13.3 语音项目账号状态 实时语音不只是代码问题,还依赖 Agora 账号、项目状态、ConvoAI 开通状态和 token 鉴权。 如果出现: CAN_NOT_GET_GATEWAY_SERVER: no active status 401 Invalid token 通常说明: - Agora 账号或项目被阻断; - App ID / Certificate 不匹配; - 项目没有开通对应能力; - 本地 .env.local 还是旧凭据。 这是开发 AI 语音项目时最容易误判的地方:页面看起来是“麦克风开了”,但其实浏览器和 Agent 都没有真正加入频道。 13.4 3D 尺度 展馆、城市、NPC、地面如果不在同一尺度体系里,就会出现漂浮、穿模、消失、点不到的问题。 解决办法不是不断调相机,而是回到世界坐标,统一单位、位置和可交互范围。 ## 14. 如果你想复刻一个类似项目 可以按这个顺序做: 1. 确定主题 先选一个世界观,例如唐代长安、宋代汴梁、敦煌石窟、未来博物馆。 1. 搭建一个能看的 3D 场景 不要一开始就做大地图。先做一个核心区域,保证 30 秒内能看懂。 1. 加入一个可控角色 WASD + 简单碰撞 + 一个 NPC,就足够验证“游戏感”。 1. 设计 3 个互动点 一个 NPC、一个展馆、一个小游戏。不要一开始做 20 个。 1. 接入语音 Agent 先用一个默认 persona 跑通,再扩展多个角色。 1. 把内容模块化 品牌数据、NPC 数据、展馆数据都写成配置,不要散落在代码里。 1. 部署上线 前端用 GitHub Pages / Vercel,后端用可公网访问的服务器。 1. 最后再做包装 BGM、头像、视频、封面图、教程、X 推文、GitHub README 都属于传播层。 ## 15. 我们最终做成了什么 最终,这个项目不只是一个 3D 页面,也不只是一个语音 demo。 它更像一个小型样板: - 文旅内容如何游戏化; - 历史知识如何互动化; - AI 能力如何场景化; - 语音 Agent 如何融入 3D 世界; - 开源项目如何从 demo 变成可分享作品。 如果要用一句话总结整个开发过程: > 我们不是把 AI 放到一个按钮里,而是把 AI 放进了一座城。 这就是《大唐长安 · 智机府》的核心。

译本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘,玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力,通过Agora Skills(技能)和Agora CLI工具完成Agent集成与环境配置,使玩家能通过麦克风与李白等角色实时语音交流。此外,项目还设计了将现代AI品牌融入游戏的唐风AI展馆。

PixVerse@PixVerse_ · 6月1日43

Nice shot from @CharaspowerAI ! He gets it. Great read from someone who clearly understands what real VFX control should feel like. That level of control is the shift with PixVerse C1!

译PixVerse C1在文本生成视觉特效(text-to-VFX)方面展示了强大的能力,提供了前所未有的控制力和电影级画质。用户通过一个复杂的提示词(涉及火山喷发、风暴、镜头运动和爆炸效果)生成了专业级VFX片段,其镜头动态、粒子效果和光照被视为真实的专业VFX制作水平。该模型被认为在控制力和质量上达到了一个全新的层次。

meng shao@shao__meng · 6月1日67

HuggingFace 发的 AI Agent 词汇表 作者 @SergioPaniego @ariG23498 https://huggingface.co/blog/agent-glossary 做了一个信息卡便于保存随时查阅。

译HuggingFace 发布的 AI Agent 词汇表 作者 @SergioPaniego @ariG23498 https://huggingface.co/blog/agent-glossary 制作了一张信息卡,方便保存随时查阅。

宝玉@dotey · 6月1日69

我经常用 /goal ,主要用法: 1. 写一个 Checklist,让它一条条勾选 比如我逆向代码,会先用脚本做语法解析把完整的list整理成个json文件,让它分批去处理,每次处理完一批就更新json文件 2. 写一个设计文档,分成几个阶段 跟AI一起写一份详细设计文档,设计好了后让 AI 划分好 Phases,设定好每个 Phase 的验收条件,一个 Phase 一个 Phase 的执行,每个 Turn 都让它自己 commit

译推文分享了使用/goal的两种核心方法:一是将逆向代码等复杂任务拆解为清单,例如先通过脚本解析生成JSON文件,再让AI分批处理并实时更新状态;二是与AI共同编写设计文档,划分成具体阶段,设定验收条件后逐步执行,每个阶段完成后自动提交。这两类场景强调将AI作为结构化任务执行助手,通过明确的检查点与流程控制提升工作效率。引用部分提及该功能正在被用户尝试,并征集最佳实践案例。

Chubby♨️@kimmonismus · 6月1日63

lol just figured out you can re-enable the context window circle in codex. thank god

译刚发现可以在Codex里重新启用上下文窗口的进度圈了。谢天谢地。

Rohan Paul@rohanpaul_ai · 6月1日64

Students finish AI-friendly math problems faster, but they seem to learn less from them. The researchers studied 3.2 million ALEKS math learning records across 10 years to see what changed after ChatGPT became available. Finishing faster is not automatically learning more efficiently, because math practice builds knowledge through the friction of choosing a representation, testing a step, making an error, and correcting it. When a chatbot supplies the path, the student may still submit the answer, but the mind has skipped the work that turns exposure into memory. They compare word problems, which students can easily paste into an AI chatbot, with graph problems, which are harder to hand off because they require visual work inside the platform. After ChatGPT, high school and college students spent much less time on the AI-friendly word problems, while younger students showed smaller or no change. This time drop disappeared when tests were proctored, which suggests the faster work was not just students getting better or the platform changing. The learning cost showed up later: on proctored retention questions, students became about 25% less likely to answer AI-friendly items correctly, even though they looked better on non-proctored items where AI could still help. ---- Paper Link – arxiv. org/abs/2605.21629 Paper Title: "Faster Completion, Less Learning: Generative AI Reduced Study Time on Math Problems and the Knowledge They Build"

译研究分析了跨越10年的320万条ALEKS数学学习记录,发现自ChatGPT可用后,学生完成“AI友好”数学题(如单词题)的速度显著变快,但这并非意味着学得更好。研究指出,数学练习通过选择方法、试错和修正的过程构建知识,而当AI直接提供路径时,学生可能跳过了这个关键心智过程。关键证据是,在有监考的测试中,学生答对这类AI友好题目的可能性下降了约25%,表明更快的完成速度是以牺牲知识保留为代价的。论文链接:arxiv.org/abs/2605.21629。

Peter Steinberger 🦞@steipete · 6月1日58

Been teaching codex to be my QA assistant. For every commit it creates a user-test scenario and uses webVNC (crabbox), computer/browser use (peekaboo/mcporter) to test OpenClaw like a user/QA person would. This runs in the background and opens PRs with fixes.

译一直在训练Codex成为我的QA助手。对于每次提交,它都会创建一个用户测试场景,并使用webVNC(crabbox)、computer/browser use(peekaboo/mcporter)来像用户/QA人员一样测试OpenClaw。 这会在后台运行,并自动提交带有修复的PR。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
10:47
Berryxia.AI@berryxia
63
Claude Code 工作流拆解

该推文拆解了Claude Code的工作流。它是一个能后台运行、可监控的任务系统,包含三个核心角色:Claude负责拆解任务与规划,Runtime负责调度管理状态,每个AI智能体(agent)仅处理一个子任务,并通过并发池与队列推进。系统关键设计是“状态外置”,即中间结果由执行系统保存,主上下文只读取摘要,从而使其能扩展至大量智能体。推文认为这种智能规划、Runtime执行、状态独立、模型按需调度的模式,代表了一种新的工程编排方式,并可将其工作流转换为自有系统的可执行格式。

huangserva: 肝了几天,来回打磨了快 30 遍, 一次性把最新的 Claude Code 的 Workflow 给你完全拆解清楚 有人说它的伟大程度,不亚于 MCP 和 Skill。 第一眼我是不信的,直到拆开看它内部怎么跑: 这不是"问一句答一句"的对...

智能体AnthropicMCP/工具教程/实践
10:47
Berryxia.AI@berryxia
32
图灵社区将于北京时间今晚20:00举办一场关于Agent Skills的公开课。分享者为@dotey,内容包括其制作Skill的实操经验与心得体会,并介绍其新书《图解Skill: AI提效实战指南》。主推文指出这场直播将直接进行教学,书籍的实用性很高。

宝玉: 北京时间今晚 20:00 在图灵社区直播间有一场 Agent Skills 的公开课,分享我做 Skill 的实操经验和心得体会,以及聊聊我的新书《图解Skill: Al 提效实战指南》,有需要 Al 提效的朋友可以预约一下,咱们晚八点见。

智能体教程/实践
10:47
Berryxia.AI@berryxia
65
Memo软件与沉浸式翻译工具使用体验分享

推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件(免费开源):用于处理本地视频。流程为下载视频后,使用Whisper本地模型进行转录以节省成本,再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出,但在X平台上传速度慢。2. 沉浸式翻译:主要用于网页、YouTube视频及图书翻译,优点是格式保持较好。两者均支持接入用户自定义的API模型。

Berryxia.AI: 特么终于搞完了,太费劲了! 整整花了1晚上才把它翻译中文、剪辑、上传完毕。 富人也有富人的烦恼,只是我们的烦恼不一样罢了! 这两天刷屏的Ivanka Trump (特朗普的长女千金)的长播客采访。 整个播客中有些观点不能说多么锐利,但是也从...

DeepSeek多模态开源/仓库教程/实践
09:35
meng shao@shao__meng
54
用户邵猛的 $10K Cursor 额度使用体验回顾

用户邵猛在获得 Cursor 团队赠送的 $10K 额度及两个月 Ultra 订阅后,实际使用了约 $2 千美元。其使用体验显示,100% 的时间都在使用 Agent Windows 模式,很少进行多模型切换。模型选择上,有外网访问时偏好 GPT-5.5,否则常用 Composer 2.5,因其 Fast 模式速度快且喜欢输出 Diagram 流程图。优点在于 Context 使用明细清晰,但 Agent 输出界面默认非 Markdown 且不支持拷贝为 Markdown。此外,Agent 界面右侧的扩展窗口(Terminal、Browser、File、Canvas)被认为比较实用。

meng shao: 收到 @cursor_ai 团队成员私信,随后 $10K 到手,非常感谢! 5月份是 Cursor Token 自由的一个月 😃 把 Cursor 新功能用起来,多多给团队提反馈,自己也试试在 Token 自由的情况下,看看能做出什么有趣...

智能体教程/实践编码
09:23
MiniMax (official)@MiniMax_AI
55
我们现在正在直播 🔴 与 @togethercompute 一起深入探讨 M3:模型、MSA 架构以及驱动它的推理技术。 欢迎加入 👇 https://x.com/i/spaces/1nxeLLDDBEaJX/peek

Together AI: Make sure to join our live Spaces chat on MiniMax M3 starting in 4 hours. You can pre-submit questions by replying to th...

推理教程/实践部署/工程
09:05
meng shao@shao__meng
64
Lee Robinson 分享四条「Agent 友好型代码库」原则

Lee Robinson 分享了四条构建适合AI智能体的代码库的原则:1. 源码应为真相或提供可读路径(如将内容从CMS迁移回代码);2. 智能体需能通过类型系统、测试和Linter验证工作;3. 维护精简有效的AGENTS.md文件,提供项目特有上下文;4. 设置自动化流程(如安全扫描)持续改进。他以Cursor官网迁移为例,该过程耗时3天,消耗344次Agent请求,花费$260,证明降低抽象层成本能带来可量化的投资回报。

Lee Robinson: Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have so...

智能体教程/实践编码
09:05
meng shao@shao__meng
精选78
Anthropic 开发者分享 Claude Code「理解验证」工作流

Anthropic 核心开发者分享了一套用于 Claude Code 的「理解验证」工作流。该工作流将 AI 定位为“高效且睿智的教师”,成功标准不仅是完成任务,更是确保人类对问题、方案及影响有可复述、可辩护的掌握。它通过增量教学、用户复述、清单+测验等方式,围绕问题域、方案域和语境域三条轴线展开,具体包含8个可执行步骤,强调在进入下一阶段前需确认用户已真正理解。此工作流旨在对抗长会话中人类易沦为“审批按钮”的“智能体黑箱”问题,强制沉淀决策上下文,实现可审计的深度理解。

Thariq: been asking others at Anthropic how they stay in the loop with Claude and fully understand the work being done this is o...

智能体Anthropic教程/实践编码

推荐理由:Anthropic内部的「理解验证」工作流,把结对编程的认知摊到全程,用清单和测验逼你真正懂。做AI辅助开发又不想当审批按钮的,可以直接套用。
08:48
OpenAI Developers@OpenAIDevs
35
今天与客户通话。明天开始新的产品工作流程。 Proaction是一个5人团队,他们使用Codex构建车队管理软件,涵盖销售演示、客户支持跟进、营销资产和工程工作。
OpenAI教程/实践编码
08:12
Rohan Paul@rohanpaul_ai
精选75
🎯 Andrej Karpathy 谈如何学习。
教程/实践编码

推荐理由:Karpathy的学习方法贴,虽然只是一张图,但可能是你今年最该抄的作业,直接改掉低效学习模式。
06:44
Peter Steinberger 🦞@steipete
63
我告诉 Codex,当我分心且它需要我的帮助来解除阻塞时,使用 http://sag.sh。偶尔我会听到它在跟我说话,这是有史以来最酷的事情。(例如,对于需要 npm 且受 1Password 门控的发布任务)
MCP/工具教程/实践编码
05:17
Lee Robinson@leerob
71
帮助AI智能体理解代码库的四点建议

文章分享了四条让AI智能体有效理解代码库的实用建议。1. 确保源代码是唯一真实来源,或通过MCP、CLI等方式让外部内容对智能体可读。2. 智能体需具备自我验证能力,这依赖于使用类型语言、高质量测试和配置良好的linter。3. 编写简洁有效的AGENTS.md文件,并融入符合模型预期的直观命名,可借助Cursor等工具自定义智能体。4. 配置自动化流程,用于代码重构建议、安全问题检查和持续文档生成,以实现一个能自我改进的“自动驾驶”代码库。

智能体MCP/工具教程/实践编码
03:40
fofr@fofrAI
33
用 Omni 重访一个旧作。

fofr: NO WAY DID IT JUST DO THAT https://replicate.com/wavespeedai/wan-2.1-t2v-480p

多模态教程/实践
02:41
Google AI Developers@googleaidevs
精选68
从杂乱到清晰。观看 @Antigravity 中的并行子智能体对数百个营销资产进行分类和重命名,消除手动文件管理。
智能体Google教程/实践

推荐理由:Google 官方演示的并行子代理整理文件,是 AI agent 在办公自动化里最实用的展示之一,做内容管理和营销的可以看看。
00:48
AYi@AYi_AInotes
67
NVC非暴力沟通AI Skill集成多平台智能体

将《非暴力沟通》核心框架(观察-感受-需要-请求 OFNR)及共情技巧、愤怒转化等内容封装成 NVC Skill,可供 Cursor、Claude Code、Codex 等 AI Agent 直接调用。该技能主要用于:快速将冲突性或情绪化表达重写为非暴力沟通格式;分析他人言论背后的真实感受与需求,并提供共情回应建议。适用于日常沟通卡壳、情绪化对话拆解等场景,旨在借助大语言模型提升人际沟通质量。

AYi: http://x.com/i/article/2061406941541240838

智能体教程/实践
00:43
Berryxia.AI@berryxia
77
Gemini Omni推出数字头像创建功能

Gemini Omni现已上线数字头像(Avatar)创建功能。用户可通过Gemini App或网页,按三步流程(拍照、录语音、系统自动生成)创建外观和声音都像自己的数字分身。该功能可直接应用于视频创作,显著降低了制作个人视频内容的门槛。所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印,可用于验证视频是否为AI生成及出处,以技术手段防范深假风险。

Google Gemini: Easily add yourself to your video creations in Gemini. Here's how to create your own digital avatar that looks and sound...

Google教程/实践视频
00:26
Google Gemini@GeminiApp
精选71
轻松将自己添加到Gemini的视频创作中。 以下是如何使用Gemini Omni创建一个外观和声音都像你的数字分身。🧵
Google图像生成教程/实践视频

推荐理由:官方给了个傻瓜教程,看一遍就能在视频里塞进自己的数字分身,做短视频和教学的可以省掉真人出镜的麻烦。
6月1日
23:29
宝玉@dotey
70
组合使用多个AI模型以发挥各自优势

推文建议,不应指望单一模型全能,而应像“渣男”一样发掘并组合使用多个模型的长处。具体指出 Opus 4.8 在写作上表现不佳,但在 UI 设计与实现方面明显优于 GPT-5.5,且在系统设计和任务规划方面质量很高。在智能体工具中使用时,除写作外效果可靠,但需针对模型特性重新设计提示词。

Ding: 全网都在骂 Opus 4.8,退订的人越来越多。实在想不明白,一家所有产品都是二流甚至三流水平的公司,是怎么火起来的???????? 我赌三年内 Anthropic 就会消失或被收购。

AnthropicOpenAI教程/实践
23:13
Kling AI@Kling_ai
32
如果你能把云装进袋子里会怎样?☁️ 这是我们用可灵AI实现的方式。
图像生成教程/实践视频
23:04
向阳乔木@vista8
74
借助AI创建高质量Skill的五步方法论

该推文分享了一种借助AI创建高质量Skill的方法论。其核心是五步流程:1.定义结果及标准;2.与AI交流对齐标准;3.利用GPT 5.5 Pro、Grok或Gemini DeepResearch等工具进行深度研究,梳理理论与案例;4.将调研成果消化为个人方法论;5.利用meta-skill将其固化,并交由codex或cc生成具体Skill。此过程强调“以教促学”,通过深度理解和持续迭代,最终提升对目标领域的认知。

姚金刚: 结合最近写skill的一些心得,总结了一个Skill设计五步法: 1、定义结果 创建skill之前,想清楚到底想要啥,包括结果的标准是什么? 2、对齐标准 为了想清楚这个标准,会和AI做不少交流和探讨 3、深度研究 知道对于结果的标准后,会...

智能体教程/实践
23:04
向阳乔木@vista8
68
分享一个用ChatGPT优化提示词生成文章封面的方法

推文作者指出在社交平台上看到的文章封面普遍不好看,并分享了一个解决方案。他将一个满意的封面生成提示词交给ChatGPT进行优化,具体做法是去除提示词中的硬性限定词,为AI模型(ChatGPT或Codex)留出更自由的发挥空间。经过优化后,形成了一个可复用的提示词(5:2比例),未来只需将任意文章内容提供给AI,即可生成类似风格的大字封面。

图像生成教程/实践
22:48
AYi@AYi_AInotes
31
书转AI技能教程:闲鱼小红书副业项目

介绍了一个将书籍内容转换为AI技能,然后在电商平台出售获利的副业方法。该教程提供了具体思路,建议将制作好的技能在闲鱼以19.9元或29.9元定价出售,或在小红书以99至199元的价格出售,声称销量可观。最终收益取决于个人执行力。

AYi: http://x.com/i/article/2061406941541240838

教程/实践现象/趋势
22:25
OpenRouter@OpenRouter
同事件精选75
视频教程:如何构建一个每周预算上限为1000美元的智能体,包含模型拒绝列表与自定义数据保留 使用了新的、可堆叠的护栏架构: 【引用 @OpenRouter】:OpenRouter 上的护栏是市场上最强大的:为您的 AI 流量提供集中式安全与治理 预算限制、ZDR、模型与提供商限制、提示词注入防御以及 DLP / 敏感信息检测,分层为您控制的规则!🧵

OpenRouter: Guardrails on OpenRouter are the most powerful in the market: centralized security & governance for your AI traffic Budg...

智能体安全/对齐教程/实践
同一事件,精选展示《Guardrails:保护你的智能体、数据与成本》
推荐理由:如果你在跑 agent 并担心成本爆炸,OpenRouter 这个教程手把手教你设预算上限和注入防御,抄完就能上线,别再裸奔了。
22:04
向阳乔木@vista8
精选80
作者分享使用 Codex App 开发的开源项目合集

作者分享了使用 Codex App 等工具开发的一系列开源项目,包括4个 Chrome 插件(如快捷提示词、新标签页)、4个网站(如艺术家风格对比、音乐展示)和5个 AI Skill(如论文解读、阅读助手)。项目基于 GPT-Image-2 API、Suno 等技术,并整合了 Read-frog、Hyperframe 等开源项目。

开源生态教程/实践编码

推荐理由:乔木一口气开源了8个工具和5个Skill,从提示词插件到Suno音乐制作,看完就能直接用,做内容和开发的读完可以少写半个月代码。
21:48
AYi@AYi_AInotes
67
如何让Codex操控浏览器干活

推文介绍了如何通过安装Computer Use插件让Codex操控浏览器及其他应用。用户需在Codex的Settings中安装该插件,然后在对话中以“@Computer”或具体应用名(如@Chrome、@Figma)开头输入任务指令。Codex会请求应用访问权限,允许后即可在屏幕上真实操作(拥有自己的光标),并可随时中止。文中列举了发帖、修改Figma界面、整理消息并笔记等示例。引用@GDB的评论“codex computer use is viscerally compelling”,强调了其直观震撼体验。

Greg Brockman: codex computer use is viscerally compelling

智能体OpenAI教程/实践
20:48
AYi@AYi_AInotes
精选79
使用Claude Opus 4.8将书籍转化为AI技能的教程

本文以《非暴力沟通》为例,提供了一个将书籍转化为可调用AI技能(Skill)的六步教程。作者使用Claude Opus 4.8模型,因其具备100万token上下文窗口、结构化输出及多步智能体(Agent)能力,能一次性处理全书逻辑。流程包含文本准备、全局结构分析、五类提炼(框架/原则/技法/反模式/作者声音)、技能生成及关键的自检步骤。生成的技能保留了书中原始框架命名(如OFNR四要素、长颈鹿语言),并将触发词优化为“怎么提意见不像在指责”等日常表达。整个流程耗时约45分钟,消耗约30万token,成本不到20元人民币。

开源/仓库教程/实践

推荐理由:不是摘要,是真能用的skill。把整本书喂给Claude Opus 4.8,提炼成能随时唤起的工具箱,连自检步骤都帮你做好了,想把自己读过但用不上的书激活的,直接抄。
19:48
AYi@AYi_AInotes
50
说个暴论:信息差是普通人最后的红利。

推文指出,在AI时代,真正的贫富差距已转变为信息差。信息玩家能通过各种渠道节省开支或获取免费资源,例如以五折价购得几乎全新的商品、利用学生身份免费使用一年Cursor、作为开源项目维护者领取半年ChatGPT Pro,或为初创公司获取数万美元云额度。推文引用的具体福利显示,任何公开开源项目的维护者,均可申请免费获得价值$1200的6个月ChatGPT Pro。这些高杠杆的免费通道不会主动出现,因此推文建议养成在消费前先审视自身是否为“冤种”的习惯,以抓住信息差带来的红利。

AYi: 免费领6个月ChatGPT Pro, 价值$ 1200🤩 这可能是今年对开发者最实在的福利了, 没有硬性Star数要求, 有项目链接基本都能过, 只要你是任何一个公开开源项目的维护者,哪怕只有你一个人在维护, 都可以去申请试试: http...

OpenAI开源生态教程/实践
19:17
MiniMax (official)@MiniMax_AI
47
用户@stevibe展示了MiniMax M3模型的能力。他仅提供了一张90年代风格旧网页的截图和相关素材文件,没有提供HTML源代码,要求通过OpenCode工具将网站一次性重建为现代Apple风格。模型成功在一次尝试中完成了任务,生成的网页保留了原始页面的标识和核心元素,并以现代化的渐变设计、排版和深色主题重新呈现,效果被评价为"真正令人惊叹"。

stevibe: MiniMax M3 might be the most underrated coding model right now. I gave it nothing but a screenshot of a chaotic 90s GeoC...

多模态教程/实践编码
18:02
SiliconFlow@SiliconFlowAI
57
OpenRouter上排名第一的编程智能体,现已入驻你的Discord服务器 分步设置、模型选择与专业技巧 以下是使用NousResearch Hermes Agent + SiliconFlow所需的一切 🧵
智能体教程/实践部署/工程
17:48
AYi@AYi_AInotes
39
学生与开源维护者的免费AI福利合集

GitHub Student Developer Pack为在校学生提供一次申请即可免费使用100+开发工具的机会,总价值超过$1000,其中包含价值$100/年的GitHub Copilot、$250/年的JetBrains全家桶及$100 Azure云额度等。同时,任何公开开源项目的维护者可申请免费获得6个月的ChatGPT Pro(价值$1200),门槛较低,只需有项目链接即可申请。

AYi: 免费领6个月ChatGPT Pro, 价值$ 1200🤩 这可能是今年对开发者最实在的福利了, 没有硬性Star数要求, 有项目链接基本都能过, 只要你是任何一个公开开源项目的维护者,哪怕只有你一个人在维护, 都可以去申请试试: http...

GitHubOpenAI教程/实践
14:53
歸藏(guizang.ai)@op7418
67
修复Codex断联与推理慢问题:根在配置文件

作者解决了其Codex推理速度异常缓慢且频繁断联的问题。在同一网络环境下,其他设备运行正常,这排除了网络原因。最终发现根源是配置文件中错误地写死了两个参数,并强制加载了两个MCP,导致了性能问题。建议遇到类似情况的用户,可尝试利用Codex自身能力来检查其配置文件。

MCP/工具OpenAI教程/实践编码
13:48
AYi@AYi_AInotes
65
学生免费领Cursor Pro一年,开源者可申ChatGPT Pro半年

Cursor推出学生福利,在校大学生凭.edu邮箱通过验证可免费使用Cursor Pro一年,价值$240。套餐包含Claude、GPT、Gemini全部模型及Agent多文件编辑功能,每月附赠$20模型额度,无需信用卡,有效期至2026年6月。同时,OpenAI为开源项目维护者开放ChatGPT Pro申请,任何公开开源项目(无星数要求)的维护者均可申请,获批后可免费使用6个月,价值$1200。

AYi: 免费领6个月ChatGPT Pro, 价值$ 1200🤩 这可能是今年对开发者最实在的福利了, 没有硬性Star数要求, 有项目链接基本都能过, 只要你是任何一个公开开源项目的维护者,哪怕只有你一个人在维护, 都可以去申请试试: http...

教程/实践编码
12:42
Berryxia.AI@berryxia
74
用两周开发一个可走进、可对话的盛唐长安3D世界

开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。

Berryxia.AI: http://x.com/i/article/2060375125825036288

智能体多模态开源/仓库教程/实践
12:26
宝玉@dotey
70
Claude Design共享额度,搭配设计系统提升一致性

Claude Design 现与 Claude AI 网站、Claude Code 共享额度,用起来更便捷。其产品设计和UI设计能力不错。一个提升设计一致性的技巧是先导入成熟的Design System再进行设计,例如推荐Adobe的Spectrum 2 design system。此外,GitHub上有更多设计系统资源可参考。

宝玉: Claude Design 现在和 Claude AI 网站以及 Claude Code 共享额度了,之前是独立的额度,一不小心就没了。 这个产品推荐多用用,产品设计能力和 UI 设计能力挺不错的。 一个经验就是你先让它帮你定义一套设计系统...

智能体Anthropic教程/实践
11:42
Berryxia.AI@berryxia
73
用Claude耗时两周、花费约800美元打造的《大唐长安》浏览器3D语音互动游戏教程

本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘,玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力,通过Agora Skills(技能)和Agora CLI工具完成Agent集成与环境配置,使玩家能通过麦克风与李白等角色实时语音交流。此外,项目还设计了将现代AI品牌融入游戏的唐风AI展馆。

智能体Anthropic教程/实践语音
11:04
PixVerse@PixVerse_
43
PixVerse C1在文本生成视觉特效(text-to-VFX)方面展示了强大的能力,提供了前所未有的控制力和电影级画质。用户通过一个复杂的提示词(涉及火山喷发、风暴、镜头运动和爆炸效果)生成了专业级VFX片段,其镜头动态、粒子效果和光照被视为真实的专业VFX制作水平。该模型被认为在控制力和质量上达到了一个全新的层次。

Pierrick Chevallier | IA: It's actually crazy how few people are talking about how powerful Pixverse C1 is for text-to-VFX.We're on a completely d...

图像生成教程/实践视频
10:01
meng shao@shao__meng
67
HuggingFace 发布的 AI Agent 词汇表 作者 @SergioPaniego @ariG23498 https://huggingface.co/blog/agent-glossary 制作了一张信息卡,方便保存随时查阅。
智能体教程/实践
09:55
宝玉@dotey
69
用/goal分阶段处理任务的两种实用场景

推文分享了使用/goal的两种核心方法:一是将逆向代码等复杂任务拆解为清单,例如先通过脚本解析生成JSON文件,再让AI分批处理并实时更新状态;二是与AI共同编写设计文档,划分成具体阶段,设定验收条件后逐步执行,每个阶段完成后自动提交。这两类场景强调将AI作为结构化任务执行助手,通过明确的检查点与流程控制提升工作效率。引用部分提及该功能正在被用户尝试,并征集最佳实践案例。

dontbesilent: 大家真的开始用 /goal 解决问题了吗 能否在评论区留下你用 /goal 的最佳实践?

智能体MCP/工具教程/实践
09:03
Chubby♨️@kimmonismus
63
刚发现可以在Codex里重新启用上下文窗口的进度圈了。谢天谢地。
OpenAI教程/实践编码
08:33
Rohan Paul@rohanpaul_ai
64
学生完成AI友好型数学题更快,但学到的似乎更少

研究分析了跨越10年的320万条ALEKS数学学习记录,发现自ChatGPT可用后,学生完成“AI友好”数学题(如单词题)的速度显著变快,但这并非意味着学得更好。研究指出,数学练习通过选择方法、试错和修正的过程构建知识,而当AI直接提供路径时,学生可能跳过了这个关键心智过程。关键证据是,在有监考的测试中,学生答对这类AI友好题目的可能性下降了约25%,表明更快的完成速度是以牺牲知识保留为代价的。论文链接:arxiv.org/abs/2605.21629。

教程/实践数据/训练
06:25
Peter Steinberger 🦞@steipete
58
一直在训练Codex成为我的QA助手。对于每次提交,它都会创建一个用户测试场景,并使用webVNC(crabbox)、computer/browser use(peekaboo/mcporter)来像用户/QA人员一样测试OpenClaw。 这会在后台运行,并自动提交带有修复的PR。
智能体教程/实践编码
‹ 上一页
1…1011121314…31
下一页 ›