AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1228 条
全部一手资讯X论文
标签「教程/实践」清除
AYi@AYi_AInotes · 5月21日79

holy shit,游戏开发的门槛,刚刚被 Grok 一脚踹飞了🤯 一句提示词出角色图→图片变动画→视频自动拼成 spritesheet→直接丢进 Unity 跑起来, 全程 4 步,几分钟, 以前这活要美术+动画师干好几天, 以后做游戏真的只要张嘴就行了是吧🤣 具体拆一下 Grok 这次演示的管线: 1️⃣ 生成角色图 跟 Grok 说一句提示词,比如"特斯拉 Optimus 机器人,白背景,全身居中",几秒出高清图。 2️⃣ 图转视频让角色动起来 用 Grok 的图片转视频功能,走路、挥手、跳跃随便选,几秒出动画。 3️⃣ 视频自动拼 spritesheet 后台有个叫 Asset Forge 的插件帮你把视频逐帧拆好拼成一张大图,不用手动抠。 4️⃣ 丢进引擎直接用 spritesheet 导入 Unity 或 Godot,角色立刻就能跑能跳。 视频里那个橙色卡通 Optimus 就是现场聊着天做出来的。 最狠的是迭代速度, 传统做法改个动作:重新渲染、重新导入,动辄几小时。 现在:在聊天框里说"加个跑步动画""改成赛博朋克风",AI 秒改,实时预览。 反馈循环从"天"变成"秒"。 而且这还不是AI 画个图让你导出用那么简单,它是让AI 直接进入游戏引擎工作流,实时生成可运行的资产。 这意味着以后 solo 开发者一个人真能顶一个团队了, 周末花几个小时搞出一个可玩的游戏原型不再是梦了。 想试试的朋友直接 @Grok,用提示词"特斯拉 Optimus 风格的卡通机器人,全身,白背景"起步就行🤖

译Grok展示了AI深度介入游戏开发的全新工作流。通过“提示词生成角色图→图片转动画视频→自动拼接成Spritesheet→导入引擎”四步流程,将传统需要美术与动画师耗时数天的工作,在几分钟内完成。这标志着AI不再仅生成静态内容,而是能实时生成可直接导入Unity或Godot等游戏引擎的可运行资产。该技术极大压缩了游戏原型的迭代周期,将反馈循环从“天”缩短至“秒”,使得独立开发者也能快速实现创意,显著降低了游戏创作的门槛。

Alibaba Cloud@alibaba_cloud · 5月21日30

AI agents are transforming how teams analyze data. Join our webinar: Quick BI Skills: Data Analysis for the Agent Era See how Agent Skills support ecommerce analysis, inventory optimization, trading insights, dashboard reading, and report generation. 📅 June 2, 2026 🕑 14:00 UTC+8 👉 Reserve your spot now! https://int.alibabacloud.com/m/1000413140/

译AI智能体正在改变团队分析数据的方式。 加入我们的网络研讨会:快速BI技能:智能体时代的数据分析 了解智能体技能如何支持电商分析、库存优化、交易洞察、仪表盘解读和报告生成。 📅 2026年6月2日 🕑 北京时间14:00 👉 立即预约席位!https://int.alibabacloud.com/m/1000413140/

X.PIN@thexpin · 5月21日85

Just tested Alibaba's brand new Qwen3.7-Max. Prompt: build a single-file physics-simulation webpage: wind tunnel, cloth, soft body, fluid, all in one index.html, CSS + JS inlined.

译刚刚测试了阿里巴巴全新的Qwen3.7-Max。 提示词:构建一个单文件物理模拟网页:风洞、布料、软体、流体,全部集成在一个index.html中,CSS + JS内联。

Elon Musk@elonmusk · 5月21日59

Tips for using Grok Build

译Grok Build 使用技巧 感谢 @skcd24 的提示。现在我可以完全在主 Grok Build 实例中工作,无需为其他集群打开额外标签页。

歸藏(guizang.ai)@op7418 · 5月21日50

这个会打包成 Skill,任何 Agent 都能控制里面显示什么。 可以通过配合定时任务去定期刷新里面的信息和数据,配合磁吸把它吸在你的屏幕边,就是一个常态化的看板。 关机休眠的时候会展示你的介绍信息和二维码,这样你外出就直接可以加好友

译该推文展示了一种将墨水屏硬件与AI Agent结合的创新应用。核心思路是通过打包为Skill,使任意AI Agent都能控制墨水屏显示内容:设备开机时,AI可推送待办事项、日历等信息,配合磁吸安装和定时任务刷新,形成常态化桌面看板;关机或休眠时,屏幕则利用墨水屏特性静态显示个人介绍与二维码,便捷实现数字名片功能。项目计划以Skills形式开源,便于拥有类似硬件的用户复用开发。

凡人小北@frxiaobei · 5月21日63

Codex 用到极致避个雷,我把持续对话流用爆了,设置了定时任务的需要注意下。 单个对话里上下文长度也是资源,把任务拆的足够清楚才可持续。 更好的方式应该是共享记忆。

译推文分享了使用Codex时的经验与注意事项。核心指出单个对话的上下文长度是有限资源,若滥用持续对话流(如设定密集的定时任务)可能导致效果下降或资源浪费。有效的做法是将任务拆解得足够清晰、明确,以提升可持续性。长远来看,更理想的解决方案应是建立共享记忆机制,而非依赖单一长对话的上下文承载。引用的背景文章进一步佐证了相关技术原理,但核心观点强调:优化任务结构比单纯延长对话更为关键。

凡人小北@frxiaobei · 5月21日55

- 在我们的领域专长上深入 - 在相邻技能和领域上扩展 - 在此基础上学会很好地使用 AI

meng shao@shao__meng · 5月21日65

在 Codex/Claude Code 等 Coding Agents 领域,文字是主要的输入输出方式;而在更广泛的通用 Agents 领域,特别是陪伴、实时交互等 Agents 方面,实时语音交互非常重要,语音的仿真生动程度、语音响应的及时性,这些都是 Voice Agent 在 LLM 基础之上要考虑的重点。 Voice Agent 的搭建过程,模型主要包括 ASR、VOD、TTS、LLM 等,而通信基础主要依靠 WebRTC 这个在直播和在线会议场景最通用的方案,前几天 OpenAI 也针对实时语音发布了 WebRTC 相关的技术方案。 在 WebRTC 领域,有一个非常常用的方案团队:Agora,他们也推出了 Agora Skills,让 AI Agent 可以快速安装和理解、使用。 今天咱们就看看基于 Codex 安装使用 Agora Skills 的完整过程。 首先是 Agora Skills 安装,我只需要告诉 Codex:“安装 Agora Skills:https://github.com/AgoraIO/skills”,1-2 分钟后 Codex 自动安装完成。 安装完成它向 Codex 展示 Skills 的主要内容,包括了 Agora 的 RTC、RTM、Conversational AI、CLI 等多个产品的直接集成。因为 Agora Skills 的使用涉及到 Agora Token 认证,在 CLI 中也可以快速完成登录和环境变量设置保存,在网页端登录一次后,就不需要再离开 Codex 了。 然后我让 Codex 帮我用 Agora Skills 写一个 Demo:用 Agora Skills 帮我搭一个浏览器里的 voice AI agent demo,从登录 Agora、创建项目到本地跑通,把关键log和性能数据展示出来。 也是完全 Codex 自动读取 Skills 后完整,我没有介入,说明 Skills 中各种能力的编排和集成做的还是很到位,也是2-3 分钟后,Demo 就写完并运行起来了。 这个 Demo 的功能主要是语音实时对话,从对话体感上看,很流畅,接近于人和人之间语音通话的响应延迟,语音包和 LLM 都可以切换,这里我只做了默认集成。 看几个关键数据: · 整个 RTC、RTM、Conversational AI 启动过程在2-3秒内,很快 · 从我说话结束,到 Voice Agent 首个语音包输出(我听到声音),1秒左右 如果你在做 Voice Agent 方面的探索,可以接入 Agora Skills 快速验证你的想法,让你的 Agent 能实时和你对话。抛砖几个场景,朋友们可以去尝试回来再交流:给 Agent 做一个会说话的陪伴形象、虚拟男女友、把声音和形象装进智能硬件。。 https://github.com/AgoraIO/skills

译实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。

宝玉@dotey · 5月21日63

这图还挺有意思,描述了 AI 时代的 T 型开发者需要的能力模型。 (一)生成式 AI 应用 (GenAI usage) 这块内容像一把大伞,横跨在整个 T字的最顶层。这意味着,无论你是做前端、后端还是算法,熟练使用生成式 AI 已经成为了所有开发者都必须掌握的通用底层能力。 (|)核心软件工程 (Core software engineering) 这是图中那根最粗壮的黑色竖线,也是开发者安身立命的看家本领。在这个核心阵地上,需要做到深度增加——也就是说,有了 AI 的辅助,专业技术基本功不仅不能丢,反而要更深、更牢固的专业技能。 (- )相邻工程领域 (Adjacent engineering) ( -)非工程领域 (Non-engineering) 这两大块分别构成了 T 字向左右延伸的横线。 左边代表与你专业相关的周边技术(比如前端懂一点后端) 右边则是完全非技术领域的能力(比如懂一点产品思维、业务逻辑或沟通技巧)。 在这两个方向上,需要做到广度增加。 在 AI 的加持下,现在可以比以往更容易地打破壁垒,快速拓宽自己的知识边界,成为一个懂技术的“全才”。

译该推文解析了AI时代的“T型开发者”能力模型。模型核心包含三个维度:顶层,生成式AI应用成为所有开发者必须掌握的通用基础能力;纵向,借助AI进一步深化核心软件工程的专业技能;横向,借助AI更高效地拓展至相邻工程领域及产品思维、沟通等非工程技能。此模型旨在帮助开发者构建兼具专业深度与跨界广度的知识结构。观点指出,该T型能力框架不仅适用于开发者,也适用于所有职业。

Berryxia.AI@berryxia · 5月21日62

兄弟们,看来微软的Copilot 是真的自己都懒得用! 这不微软今天办了一场Claude 使用的的工作坊! 花半小时看完它,还是不错的! 高级开发者布道师Marlene Mangami直接拉着大家动手,用Foundry + Claude建了一个真实可用的AI Agent。 他们没讲空洞概念,而是用一家叫Sparkles的纸杯蛋糕店做案例: 顾客涌进来点单、选口味、生成客户ID、处理优惠券、准备取货……全流程让Agent自动接管。 从部署云模型,到接入MCP服务器连工具和数据源,再到给Agent赋予企业级安全和可观测性,一步一步教完。 现场还直接用Skillable环境让大家跟着敲代码,完成就送纸杯蛋糕。 AI Agent终于不是实验室玩具,而是开发者能快速从原型做到生产落地的真实工具。

译微软举办Claude使用工作坊,通过构建纸杯蛋糕店AI Agent的案例,演示了从部署云模型、接入MCP服务器连接工具与数据源,到赋予企业级安全与可观测性的完整流程。工作坊以实操为主,开发者可现场跟随编码,强调AI Agent已从概念验证进入快速生产落地的实用阶段,成为开发者能直接构建的业务工具。

Orange AI@oran_ge · 5月21日50

直到今天,还是有很多人把做产品和赚钱划等号 有产品=能赚钱 为什么会有这么天真的想法呢? 做过独立开发者的都知道,最难的根本不是开发,是卖出去 要卖出去就得学自媒体营销,甚至到后面终于发现: 能自己赚钱的人怎么都能赚钱,并不依赖做产品这一件事 对,赚钱和做产品根本上是两件事,产品只是赚钱的一个交付物的选项 做产品是工程问题,能赚钱是商业问题 工程问题已经基本快被 AI 彻底解决了 商业问题,对不起,AI 还没到入门阶段 所以下次看到别人vibe做出一个产品的时候不要再问对方收入了 问就代表你还没有从这个【有产品=能赚钱】思想钢印里走出来

译推文核心观点指出,将“做产品”与“赚钱”直接等同是一种常见误区。对于开发者而言,真正的难点并非开发产品本身,而是如何将其成功销售出去。这本质上是商业问题,而非工程问题。当前,AI技术已能基本解决工程层面的挑战,但商业变现能力尚未被AI攻克。因此,产品只是实现商业价值的交付方式之一,能否赚钱更多取决于独立的商业运作能力,而非单纯依赖产品。

向阳乔木@vista8 · 5月21日72

Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。 用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。 开源地址:https://github.com/joeseesun/qiaomu-suno-master Skill 安装指令:npx skills add joeseesun/qiaomu-suno-master

译这条推文介绍了一个对Suno AI音乐生成工具进行优化的Skill。该Skill新增了近6000个音乐风格检索,显著提升了生成音乐的准确性。此外,它通过谷歌CDP技术刷新获取登录Token,使用户无需访问网站即可直接创作歌曲。推文提供了该Skill的开源GitHub地址和安装指令。

向阳乔木@vista8 · 5月21日75

乔木 Suno Skill效果演示,生成一首空灵的德语音乐。 每月10美元,想听什么风格,就生成什么风格,虽然比人的匠心制作差得远,但随时随地生成任意风格歌曲。 哪怕给一个github仓库都能写一首歌出来。。

译这是基于Suno AI音乐生成工具的技能实现,可通过简单指令按用户需求生成不同风格的歌曲(例如德语空灵风格)。该技能订阅费用为每月10美元,支持高度自定义的风格生成。技术层面已优化,新增近6000个音乐风格检索以提升准确性,并可通过谷歌CDP免登录直接调用。项目已开源,提供GitHub仓库地址与安装指令,降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距,但实现了快速、灵活的创作可能。

meng shao@shao__meng · 5月21日68

Forward Deployed Engineering (FDE) 是什么?为什么 OpenAI、Anthropic 等 AI 顶流都在力推 FDE,它会是下一个值得转型的职业吗? 为什么 AI 公司疯抢 FDE? @vasuman 这个判断很直接:如果智能本身正在被商品化,那么唯一的竞争优势就是"如何用、用在哪"。 模型能力会被 Anthropic、OpenAI 等拉平,套壳产品也会被复制。真正难复制的是——把 AI 嵌入到某家具体公司的具体业务流里。这件事没法用通用产品解决,只能派人去干。 所以 Applied AI 公司的商业模式是:把 FDE 派驻到客户现场,做"AI 转型外包",客户为效率提升付费。一个能独立完成"理解客户问题 → 写进陌生代码库 → 向非技术高管讲清商业价值"的人,vas 称之为 "million-dollar hire"。 角色的核心要求:必须 On-site! 这一点借用了 Palantir 的传统(FDE 的定义来源): · 2010 年 Palantir 的 FDE 跟着美军特种部队驻阿富汗,白天部队执行任务、晚上 FDE 改代码。 · Palantir CTO 的原话:"你无法为一个你不在其中的环境构建产品。" 迁移到 AI 场景的含义是:真正的效率提升需要"围绕 AI 重建公司",这不可能远程完成,必须坐在客户身边,基于公司专有数据和上下文构建定制 Agent。 FDE 的工作三阶段 1. Audit(审计 / 诊断):以原型 Demo 收尾 驻场轮岗各部门(例如 RevOps 两周、采购一周、财务一个月),目标是: · 摸清每个团队的工作流 · 找到瓶颈 · 判断哪些该自动化、哪些不该 三条"是否上 Agent"的判断原则,非常实用: · 规则可抽象,但输入形态多样(邮件 / PDF / 扫描件),且需要调工具?上 Agent! · 规则和输入都可预测?写普通代码,更快更便宜! · 需要模式识别 + 领域专家判断?保留人工! 另外两条经验法则: · 量要够大:一个月跑 5 次的流程,ROI 撑不起来。 · 别滥用 AI:大多数任务用"一串工具调用 + 一次 LLM 编排"就够了,过度用 AI 会带来 token 成本和质量下降。 2. Evals(评估) 客户砸百万美金做 AI 部署,必须有办法证明"它真的在工作"。好的 eval 不是只看最终答案对不对,而是验证 AI 是否像人一样思考。两个方法: · 拆解人的步骤逐步打分:人解决问题是多步的,把 checkpoint 列出来,看 AI 是否每一步都过关。 · 从黄金样本反向锚定:和资深员工一起把"完美答案"写出来 20 个,作为标尺度量所有产出。 Evals 的真正用途是让怀疑 AI 的高管敢签字——它是商业信任工具,不只是工程工具。 3. Deployment(部署) 几条非常反直觉但很务实的原则: · 不要做大规模数据迁移。在现有数据层(SharePoint、数据库)之上建 API,让模型作为 orchestrator 去查询。客户花了几年几百万上 ERP,不会让你再拆一次。 · 先搭沙箱执行环境,在客户基础设施里安全测试。 · 从最小自治单元起步,再逐步给权限。例:先让 Agent 只做"发现 bug → 调查 → 写工单",跑稳了再允许它"写代码 + 提 PR"。 如何在 30 天内成为 FDE?! vas 认为三类背景最容易切入:咨询顾问、PM、软件工程师。 咨询/PM 的短板:工程能力 解法是用作品集补齐。从下面四个项目里挑两个深做: · 一个能跑通你前公司某个完整流程的生产级 Agent(调 API、记录思考、有失败兜底)。 · 一个面向特定行业数据集(法律 / 医疗 / 财报)的 RAG pipeline。 · 一个自己写的 eval 框架,多维打分(正确性、格式、成本、延迟)。 · 一个把 LLM 接入到不支持 AI 的遗留系统的 MCP。 vas 强调:"Do not outsource your understanding to AI"——别让 AI 替你理解,否则面试一聊就穿。 SWE 的短板:沟通 工程师做同样的项目,但必须能把每个组件、技术选型、迭代过程、商业结果讲清楚,并能回答"你为什么解这个痛点、真实客户场景里会怎么走"。 30 天路线图(角色无关) Week 1:Agent loop 基础(读 Anthropic Building Effective Agents)、tool use、guardrails、context vs 外部记忆、audit trail Week 2:结构化输出(JSON)、Demo → Prod 常见坑、checkpoint 机制 Week 3:重试与指数退避、成本优化(小模型做小事 / 缓存 / token 上限)、构建 golden dataset、多 Agent 并行架构 Week 4:复盘 + 大声讲出来,把每件事绑到商业指标上

译Forward Deployed Engineering (FDE) 是AI公司派驻客户现场的工程师角色,核心是将AI能力嵌入企业具体业务流。随着模型能力趋同,真正优势在于“如何用”,而FDE正是解决AI落地“最后一公里”的关键。该角色借鉴Palantir传统,强调必须现场工作,围绕企业专有数据重建流程。其工作涵盖业务审计、效果评估(Evals)与务实部署三阶段。咨询、PM及软件工程师可通过30天路线图与作品集转型,但需弥补各自短板——工程能力或商业沟通能力。FDE被视作“百万美金级人才”,是AI时代高价值的职业新方向。

meng shao@shao__meng · 5月21日69

看看 Alex Finn 推荐的 Codex 远程开发架构,虽然 1000x 生产力略显夸张 😄 Alex 的核心理念是把"写代码的设备"和"发指令的设备"分离开: 一台主力机(Mac Studio):唯一真正执行代码编写的环境,所有代码库、依赖、运行时都集中在这里。 多台终端设备(iPad、iPhone、第二台 Mac Studio、两台 Mac mini):只作为"遥控器",向主力机发送指令。 带来的结果是:物理位置与开发能力解耦——在床上、在超市、在日本、在车里,都能继续推进同一套代码。 三层技术架构 1. 主力机(Host) · 始终开机、禁用睡眠。 · 在 Codex 应用中开启 Settings → Connections → Control this Mac,把自己暴露为可被远程控制的节点。 2. 控制端(Clients) · 所有其他设备在 Codex 中开启 Control other devices。 这些设备不存放代码,只负责发送 prompt、查看结果。 3. 网络层(Tailscale) · 在所有设备上安装 Tailscale,组成一张私有 mesh 网络(基于 WireGuard)。 · 作用不仅是穿透 NAT,更关键的是:让其他 AI agent(他举例的 OpenClaw、Hermes)能够跨机器跳转、在不同节点上执行修改。 · 等于把"多台设备"在网络层抽象成"一台逻辑机器"。 落地步骤(精简版) 1. 选一台桌面设备作为 Host(Mac mini 或 Mac Studio 优先)。 2. 系统设置中关闭自动睡眠,确保常开。 3. Host 上:Codex → Settings → Connections → Control this Mac 打开。 4. 其他每台设备:Codex → Settings → Control other devices 打开。 5. 全部设备安装 Tailscale,登录同一账号,组成私有网络。 6.(可选)部署跨机 agent(如 OpenClaw、Hermes),让它们利用 Tailscale 跨节点执行任务。

译Alex Finn 提出的远程开发架构核心在于将“执行代码的主机”与“发送指令的终端”分离。一台主力机(如Mac Studio)常开,作为唯一执行环境,集中所有代码与依赖;其他设备(如iPad、iPhone)仅作为“遥控器”发送指令。通过Codex的远程控制功能与Tailscale私有网络连接,开发者可在任何地点、任何设备无缝推进同一项目,实现开发能力与物理位置的解耦,从而提升灵活性和效率。

宝玉@dotey · 5月21日74

http://x.com/i/article/2057247064115838976 # 来自 Codex 官方团队的分享:如何把 Codex 用到极致 作者:jason (@jxnlco) 原文: 大多数开发者刚接触代码编辑类的 AI 智能体 (AI Agent) 时,通常只让它们干一件事:写代码。比如让它检查一下代码库,生成个差异对比 (diff),跑跑测试,然后再提个合并请求 (pull request)。 写代码确实依然是 Codex 的核心强项。但仔细想想,我们在电脑上做的大部分工作,本质上其实都和代码息息相关:执行终端命令、浏览网页、调用应用程序接口、导出文档、响应各种事件,或者是触发自动化流程。当 Codex 开始延伸到这些领域时,它给人的感觉就不再只是一个狭义上的“编程助手”了,而是进化成了一个能帮你搞定各种电脑工作的“全能打工人”。 Codex 的新特性 让这种转变变得触手可及。现在的对话流 (thread) 可以记住你们的上下文、调用各种工具、展示生成的文件 (artifacts),还能在不同的提示词之间无缝衔接,再也不用每次聊完都“重新认识”一遍了。 想要彻底榨干 Codex 的潜能,你需要把下面这些绝招组合起来用: - 能够长期保存记忆的“持久对话流 (durable threads)” - 在你掌控全局时,灵活使用语音输入、任务干预 (steering) 和任务排队 (queuing) - 借助浏览器、电脑操控 (computer-use)、模型上下文协议服务器 (MCP servers, 一种让 AI 安全连接本地数据和工具的通用标准) 以及各类连接器,让 Codex 的手伸向代码库之外的地方 - 当你离开电脑时,利用对话流自动化 (thread automations) 和目标驱动 (Goals) 让它继续搬砖 - 熟练使用侧边栏 (side panel),随时审查它生成的代码、文档、幻灯片和其他文件 ## 持久对话流 (Durable threads) > 持久对话流:可以长时间运行的 Codex 对话流,能在你多次使用的过程中,始终为你保留工作上下文。 把对话流“置顶 (Pinned threads)”是让这些持久对话随叫随到的好办法。这对于那些需要反复推进的工作流来说简直是神器,比如: - 一个专属的“幕僚长”对话流(帮你处理日常杂务) - 一个专门负责产品发布的对话流 - 一个负责审查文档的对话流 - 一个专门盯着外部数据的监控对话流 它们不是那种聊完即焚的闲聊框,而是持久的工作空间。随着时间的推移,Codex 可以随时回到这些对话中,它会记得你之前做过的决定、你的个人偏好以及当前的进度。如果没有这个功能,你每次都得从零开始把这些背景信息重新喂给它。 置顶快捷键让这个操作变得极为实用。只要按下 Command-1 到 Command-9,你就能瞬间穿越回这些保存好的专属对话流里继续工作。 ## 语音输入 (Voice input) 语音输入之所以好用,是因为它能在你把想法字斟句酌地敲成文字之前,先把你脑子里最原始、最粗糙的念头捕捉下来。 Codex 内置了语音输入功能。这对于那些“嘴上说得清,打字嫌麻烦”的模糊想法特别管用。比如: > “我记得有个叫 Ben 的人在 Slack 上提过这事儿。 细节我忘了。 你去帮我找找看。” 对于一个会自己搜索、收集上下文并向你汇报的 AI 智能体来说,这几句话就足够它干活了。 当你脑子里有一个大概的想法,但还没完全成型时,花两三分钟对着它“碎碎念”,把思绪一股脑倒出来,效果也出奇的好。 录音转写也是同样的道理。一份未经修饰的会议记录,或者一段口述的计划草案,往往比一份简短的总结更有价值。因为那些粗糙的记录里,保留了你犹豫的语气、强调的重点,以及那些还没讲完的灵光一现。 ## 任务干预与排队 (Steering and queuing) 当你把语音输入和对运行中任务的直接控制结合起来时,它的威力才真正显现出来。 当一个任务正在执行时,如果你想 > 任务干预 (Steering):在当前任务还没完成时,中途打断 Codex 并给它指引新的方向。 当你发现 AI 跑偏了,需要在它撞南墙之前纠正它时,这个功能就派上用场了。比如,在让它审查网站时,你可以一边在侧边栏上指指点点,一边直接开口打断它的工作: - “把这个调小一点” - “这两个元素之间的间距看着不太对劲” - “这句文案写错了” > 任务排队 (Queuing):在 Codex 完成当前步骤后,给它安排接下来的活儿。 任务排队就不太一样了。它不会打断正在进行的任务,而是把新任务排在队伍后面。你可以这么跟它说: > “等这活儿干完之后,把预览链接发到 Slack 给审核人看看。” 简单来说,“干预”是改变 Codex 眼下正在做的事,而“排队”是安排它接下来要做的事。这两个功能都能让你在任务执行的过程中,始终保持一种“人机合一”的掌控感。 ## 工具与触达范围 (Tools and reach) 当一个对话流有了连续的记忆后,下一个问题就是:它能触碰到什么?Codex 的触角可以向外一层层延伸: - $browser 在侧边栏中运行的应用内浏览器,Codex 可以在这里审查网页并在上面做标记。 - @chrome 可以获取你浏览器的登录状态,用来处理那些基于 Chrome 的工作流。 - @computer 专治那些只能通过桌面图形界面 (GUI) 来完成的任务。 $browser 适合在侧边栏做网页审查;@chrome 适合那些需要你账号登录状态的浏览器内工作;而 @computer 则用来搞定那些只能在电脑桌面上点来点去的任务。 MCP 服务器和各类连接器把这种能力进一步延伸到了你的整个工作流中。Slack 集成、以及各种 MCP 工具连接器 和 MCP 指南 之所以重要,是因为很多关键任务在变成代码之前,最初往往只是一条聊天消息、一封收件箱里的邮件,或者一个日程安排问题。 技能 (Skills) 让那些重复的工作流可以被反复利用。一旦某个工作流被证明好用,你可以将它固化为技能,这样 Codex 下次就能直接跑通,而不需要从头开始重新学习这个流程。 ## 随时随地工作 (Work from anywhere) 随时随地与 Codex 协同工作 的理念,彻底打破了我们“必须坐在电脑前才能干活”的传统限制。一个任务可以在你装满文件、权限和本地环境的 Mac 电脑上启动,然后当你离开工位用手机查看时,它依然在默默推进。 这在很多碎片时间里非常有用。你可以让 Codex 在电脑上跑一个耗时很长的任务,然后自己离开工位去喝杯咖啡。如果在外面时它有问题问你,你可以直接用手机回复、批准它的下一步行动,或者在回座位前就给它指派新的方向。你的本地环境安安静静地待在那里干活,而你的人却可以自由移动。 ## 自动化 (Automations) 自动化功能 能让 Codex 按照你设定的时间表自动干活。如果是需要每天从零开始的任务,比如生成日报或者例行检查代码库,那就用“定时自动化 (scheduled automation)”。但如果需要在一个带有历史记忆的对话中继续推进工作,那就用“对话流自动化 (thread automation)”。 > 对话流自动化:就像一种定时唤醒的“心跳”机制,它会按照设定的时间表,定期回到同一个 Codex 对话流中继续工作。 把对话流置顶固然好用,但它毕竟还得等你主动回去找它。而“对话流自动化”则可以每隔几分钟或几小时自己去查岗,一直跑到满足某个条件为止,甚至还能根据情况自己调整查岗的频率。 比如,你的“幕僚长”对话流可以每 30 分钟跑一次: > 每 30 分钟,去查一下我的 Slack 和 Gmail 里有没有需要处理但还没回的消息。 帮我排个优先级。 如果有人向我提问,尽可能深入地去查资料,然后帮我起草一份回复,但不要直接发送。 当你回到电脑前时,那些最耗时耗力的“收集背景资料”的工作往往已经做完了。作为人类,你只需要做最后拍板发出去的决定。 对话流自动化也非常适合用来处理“反馈循环”。它可以默默盯着你在代码合并请求、Google 文档或是 Slack 里的评论,趁你不在的时候自动推进后续的修改工作。 想象一个制作动画的场景:审核人在 Slack 里发了一个视频。对话流自动化可以定时检查讨论进度,一旦有修改意见进来,它就自动渲染一版新的,然后在原贴里艾特审核人并回复新视频。如果某个软件的集成接口没法自动完成最终的上传,它甚至能调动“电脑桌面自动化”通过图形界面把最后一步走完。 这个完整的闭环跨越了接收反馈的 Slack、负责渲染的代码库,以及负责最终上传的桌面自动化工具。 ## 目标设定 (Goals) 当一个任务有一个清晰的终点线,并且 AI 智能体可以不断朝着那个终点努力时,目标 (Goals) 的威力就彻底爆发了。 > 目标:运行时间更长的 Codex 任务,有一个明确的终点线,AI 会在一段时间内持续向它冲刺。 一个糟糕的目标是这样定的: > 把这个 Markdown 文件里的计划实现一下。 一个优秀的目标必须有一个可以被衡量的成功标准。 比如,一位工程师想把一个内部工具从 Python 语言迁移到 Rust 语言,他可以建好新目录,设定好目标,并画一条明确的终点线: > 直到所有单元测试全部通过,这个新版本的开发才算完成。 目标设定,其实就是把“持续执行”和“验证器 (verifier)”结合在了一起。你作为人类来定义想要的结果、何时停止的条件,以及用来判断 Codex 有没有离终点更近的信号。 好用的验证器包括: - 一套完整的测试用例 - 一项基准性能测试 - 一个能稳定复现的 Bug - 一个验证矩阵 - 一个必须始终跑通的端到端工作流 有野心固然重要,但没有验证机制的野心,就只是在许愿而已。 ## 侧边栏 (The side panel) 侧边栏功能 让你生成的工作成果始终和你们的聊天窗口并排在一起。你再也不用把文件导出来,然后痛苦地在不同软件之间切来切去了,直接在原位就能审查。生成的成果可能是代码,但也可能是幻灯片、PDF 文件、网页、表格,或者任何其他生成的东西。 它特别擅长处理四种工作: 1. 检查生成文件 (artifacts) 1. 标注需要修改的地方 1. 操作网页界面 1. 审查代码或文件的变更 侧边栏允许用户直接原地查看 Markdown 文档、电子表格、数据表、普通文档和幻灯片。你可以不打断现有的工作流,直接检查、做标记、修改文件。 你的幻灯片或 PDF 就乖乖敞开在对话框旁边,随时等你检阅和修改。 应用内浏览器 让 Codex 能够直接检查渲染好的网页,控制它,甚至直接响应你在网页上做的标注。对网页或文件的评论全部留在这个工作闭环里,再也不用像以前那样把它拆分成一个个单独的交接任务了。 网页既变成了它的输出结果,也变成了你可以操控的控制面板。Codex 可以建好一个页面,在侧边栏打开它,自己检查它,修 Bug,然后原地不断迭代优化同一个东西。 下面这些场景配合侧边栏尤其好用: - 用单个 index.html 来做轻量级的静态展示 - 跑 Storybook 来审查用户界面 (UI) 组件 - 用 Remotion Studio 搞代码生成的动画 - 在浏览器里放映的幻灯片演示 - 用于数据分析流的数据应用 (data apps) 一个简简单单的 index.html 文件就能变成一个好玩的交互式小应用,连服务器都不用搭。而且,对话流自动化还能随着时间推移悄悄更新这些静态文件,这样等你回来时,总能看到最新的进展等着你。 ## 共享记忆 (Shared memory) 当那些长时间运行的对话流能够打破单次聊天的界限,把记忆共享出去时,它们的作用将发生质的飞跃。 > 共享记忆 (Shared memory):存储在单一对话之外的持久上下文,它可以让未来的工作能够基于一些明确的、可追溯的信息继续推进。 一个相对稳妥的做法是,把这些持久的对话流“锚定”在一个 Obsidian 知识库 (vault) 里。说白了,就是建一个存放纯文本文件的文件夹。它简单直白,方便你随时查看、修改、移动,而且能保存很久。团队可以把这个文件夹放在任何你们喜欢的云盘里,比如 Git、Dropbox、Google Drive 或是其他的同步工具中。 你的知识库可能长这样: > [text] vault/ ├── TODO.md ├── people/ ├── projects/ ├── agent/ └── notes/ 在最外层目录下,你可以放一个 AGENTS.md 文件。在这里,你可以给 Codex 定规矩:当它了解到关于人员、项目、决策以及待办事项的新情况时,应该如何更新这个知识库。 别死板地照抄某一种知识库结构。你需要做的是“教”你的 AI 智能体:那些持久的上下文该放在哪,哪些上下文需要保留,以及什么时候不要瞎折腾去改文件。 一份实用的 AGENTS.md 指南里可以这么写: - 把 ~/vault 当作你长期的工作记忆区。 - 尽量把笔记整理得有条理,别搞得到处都是碎片记录。 - 准确地把待办事项、人员、项目、每日总结和草稿分类放好。 - 把做过的决定、遇到的卡点、负责人、日期和有用的链接好好保存下来。 - 如果没有什么实质性的新进展,不要随意修改知识库里的文件。 代码库是用来存代码的。而这个知识库,是用来存不断滚动的上下文的:牵涉到哪些人、改了什么、卡在哪里、接下来谁跟进,以及那些如果在两次聊天中间断掉就会彻底消失的细节。 重要的上下文绝不应该仅仅锁死在某一次聊天的文字记录里。把它们写下来,放在下一个对话流能够立刻接手的地方。 Codex 自己也在 设置 > 个性化 > 记忆 中提供官方的 记忆功能。它们就像是系统自带的本地记事本,用来记住你的个人偏好、常用的工作流以及一些经常踩的坑。不过,这个功能是用来辅助你清晰写下来的上下文的,而不是取代它。Chronicle 记忆组件 也是同样的思路,它能帮 Codex 从你最近屏幕上发生的事情中提取并构建记忆。 ## 从代码向外延伸 (From code outward) Codex 虽然还是以写代码为本行起家,但现在,围绕代码的诸多周边工作,都能在这个同一套系统里搞定了:无论是 MCP 服务器、网页界面、电脑桌面控制、对话流自动化,还是那些可以在侧边栏直接审查的文件。 这彻底改变了我们控制它的方式。“任务干预”可以在中途打断它的动作;“任务排队”可以帮它安排好下一步;“对话流自动化”能让你人不在场时系统依然运转;而“目标设定”则给它画了一条清晰的终点线,让 Codex 知道要一直往哪里冲。 如今的 Codex 已经可以扛起一个完整的工作流:从听取指令、执行任务,一直到最终文件的审查。哪怕这些工作早已经超出了代码库的范畴,它也依然游刃有余。

译Codex已从单纯的代码生成工具,进化为能处理各类电脑任务的“全能打工人”。其核心在于利用持久对话流实现长期记忆,并能调用浏览器、电脑操控等工具,打破工作流限制。通过自动化与目标设定,Codex可离线持续工作,大幅提升生产力。

宝玉@dotey · 5月21日68

Codex 使用技巧:Steer 和 Queue 通常 Agent 执行一个任务不会马上结束,可能会要等几分钟甚至更久,如果这时候你有个新的要求想补充,这里有两种方式补充:Steer(任务干预) 和 Queue(排队)。 > Steer(快捷键:Shift + Enter):在当前任务还没完成时,中途打断 Codex 并给它指引新的方向。 这个功能相当于你按停止,输入新指令然后再让 Agent 继续。但不需要你去手动停止再让它继续,只要输入指令,按 Shift + 回车,或者先回车,在点击“Steer”按钮就可以发送。Agent 会在下一轮工具调用间隙直接添加新的指令到上下文。 > Queue(快捷键:Enter):在 Codex 完成当前步骤后,给它安排接下来的活儿。 任务排队就不太一样了。它不会打断正在进行的任务,而是把新任务排在队伍后面。而且你提交多条信息,它在任务结束后,不会一次性把你队列的消息执行,而是执行一条,完成这一条对应的任务后,继续下一条。 所以有时候我睡觉前,会在一个长任务后面加上几个 “Continue” 消息到队列,让它尽可能多跑一会,免得中间就停止了。 简单来说,“Steer”是改变 Codex 眼下正在做的事,而“Queue”是安排它接下来要做的事。

译本文介绍了在 Codex Agent 执行任务时补充新要求的两种核心操作:Steer 与 Queue。Steer 通过快捷键 Shift+Enter 在任务进行中直接插入新指令,改变 Agent 当前的工作方向;Queue 则通过 Enter 键在当前任务完成后添加新任务,并按顺序逐一执行,适用于安排后续步骤。两者本质区别在于 Steer 干预当下执行,Queue 规划未来任务。此外,用户可通过队列添加多个“Continue”指令,实现任务持续运行,适用于需要无人值守的场景。

Google AI Developers@googleaidevs · 5月21日59

Using the new Managed Agents in the Gemini API, @RampLabs built their advanced finance agents without touching the backend infrastructure. Learn more ↓

译通过使用Gemini API中的新托管代理功能,@RampLabs构建了他们的高级财务代理,无需接触后端基础设施。 了解更多 ↓

OpenRouter@OpenRouter · 5月21日70

TIP 💡 You don't have to worry about cache misses for the Auto Router (in addition to all individual models) OpenRouter will keep your session pinned to one model/provider until your cache expires

译提示💡 你无需担心自动路由(以及所有单独模型)的缓存未命中问题 OpenRouter会将你的会话固定在一个模型/提供商上,直到缓存过期

AYi@AYi_AInotes · 5月20日63

前端已死,现在用Kimi10分钟就能做出能卖钱的网站了! 兄弟们,学会这个,你今天就能靠做网站赚钱! Kimi 2.6一键生成获奖级网站,全程零代码, 9分56秒超级详细的手把手教程, 我做了中英双语字幕, 跟着做,只需要下午就能出第一个成品。 #Kimi #AI建站 #零代码 #前端 #独立开发 #AI生产力

译Kimi 2.6能够一键生成获奖级别的网站,全程无需代码。配套的详细视频教程时长近10分钟,可指导用户快速上手,在极短的时间内产出可用于销售的成品网站,大幅降低了利用AI进行独立开发与变现的门槛。

elvis@omarsar0 · 5月20日73

Self-improving AI is a big deal! As a first step, I've been exploring how much of the post-training can be automated. Here is a first post on how I am using @FireworksAI_HQ Agent to automate LLM fine-tuning itself. Dataset + Skill file included. For the use case, I took inspiration from @karpathy's tweet on LLM Knowledge Bases. I asked Claude Code to interact with Fireworks Agent to fine-tune a small Qwen model to get the right output style to efficiently keep growing my PaperWiki (https://x.com/omarsar0/status/2042286186920550498?s=20). All done via natural language. This is obviously the future of improving AI systems. The next step with the PaperWiki project is how to tune a model to better "know" the data. Harder to do, but if possible, then we have an incredibly powerful system that can recursively self-improve and can be extremely useful for things like knowledge discovery and automating all kinds of research end-to-end. More on this soon. Thanks to the Fireworks team for allowing me to test this early. Super excited about this.

译作者探索利用Fireworks AI Agent,通过自然语言交互自动化完成大语言模型的微调流程。他以Qwen小模型为例,调整其输出风格以优化PaperWiki项目的扩展效率。这一方法灵感源于@karpathy关于LLM知识库的推文,强调微调是让模型更“懂”数据的关键步骤。核心观点是自动化微调可推动构建可递归自我改进的AI系统,最终目标是打造一个能自我优化、用于知识发现和端到端自动化研究的强大工具。

歸藏(guizang.ai)@op7418 · 5月20日63

终于找到了这种墨水屏硬件最适合的场景: 开机的时候,让 AI 往里边推一个 To-do、日历,一些基础的需要记的信息 把它挂在屏幕边上(用磁吸) 关机的时候,利用墨水屏的特性让它显示名片,这样大家加好友什么的直接看就行 太实用了! 到时候打包成 Skills。有类似硬件的朋友到时候可以玩玩。

译墨水屏硬件可通过AI推送日历、待办事项等基础信息,利用磁吸设计便捷固定。关机时,借助墨水屏的常显特性可切换为电子名片,简化社交场合的加好友流程。该方案将打包为Skills分享,为同类硬件用户提供实用参考。

elvis@omarsar0 · 5月20日74

http://x.com/i/article/2056851733582880768 # Automating LLM Fine-Tuning with Fireworks Agent ## From Context Window to Weights Andrej Karpathy (@karpathy) recently described the personal LLM Wiki as a kind of pre-AGI memory aid, a curated repo of notes about papers, tools, and ideas you read into context when you want a model to reason over them. In his viral post, Karpathy flagged the obvious next move: "As the repo grows, the natural desire is to also think about synthetic data generation + finetuning to have your LLM 'know' the data in its weights instead of just context windows." Building LLM Knowledge Bases or LLM Wikis is already possible with agents like Claude Code or Codex, but this approach can quickly get inefficient and expensive as you try to scale them. Fine-tuning LLMs to maintain your knowledge bases is often a more efficient path forward. This post takes that next step by putting the wiki's output style into the weights. In under ten minutes of GPU time and a couple of cents of compute, a small open-weight model writes summaries of new papers in the exact format the wiki uses, with no system-prompt gymnastics, no few-shot exemplars, and no router logic. Once deployed, the summary comes back in a single fast call, fast enough to use inline inside a larger agent loop rather than as a batch job. The harder version (parametric knowledge injection of the wiki's contents) is the natural follow-up to Karpathy's framing, and I treat it as future work at the end. The interesting part is not the model itself, but that one @FireworksAI_HQ Agent session did the entire pipeline (dataset inspection, hyperparameter sweep, full training, deployment, and a working inference endpoint). Fireworks Agent is the autonomous orchestration layer for fine-tuning runs, where you give it a natural-language goal, and it plans, executes, and surfaces decision gates back to you. The whole flow can be driven from a coding agent you already use (Claude Code, Codex, or similar), which is how I ran it. The bigger picture this points to is self-improving LLMs and agents. Once training is a callable step inside an agent loop, the same coding agent that drives your workflow can also kick off fine-tuning runs to bake recurring patterns (a wiki's voice, a coding style, a triage policy) into the model itself, closing the loop between using a model and improving it. The rest of this post is the full walkthrough. All resources from this run are available in a companion repo, including the training and validation splits (train.jsonl, val.jsonl, wiki-sft-2026.jsonl), the data-build scripts (parse_2026.py, fetch_abstracts.py, build_jsonl.py), the pilot-agent.md slash command, the smoke-test script (test_new_deployment.py), and the baseline-vs-fine-tuned comparison code (before_after.py). Grab it at github.com/dair-ai/wiki-sft, clone it, point it at your own corpus, and reproduce the run end to end. ## Why Output Style Is the Right First SFT Target For a personal wiki, the high-leverage thing is consistency. Readers recognize a summary by its shape, which is a one-paragraph lede that names the authors' affiliation and the core contribution, followed by three to five bulleted takeaways with bolded short labels. A capable base model can be coaxed into this format with a careful system prompt, but the failure modes are familiar. It reverts to title-case headers, drops the affiliation line, varies bullet count, and sneaks in marketing language. Supervised fine-tuning (SFT) fixes this at the parameter level. Once the format is in the weights, every generation conforms by default, and the system prompt collapses to a single sentence (or drops out entirely). The cost stays small when the dataset stays small, and a clean stylistic dataset of 50 to 100 examples is usually enough to get started. ## Handing the Work to an Agent Most fine-tuning tutorials walk you through ten distinct steps. You format your data, upload it, choose a base model, decide on LoRA rank and learning rate, launch a job, parse logs, pick a winner, retrain on full data, deploy, and smoke test. Each step is its own surface to mess up, and you end up playing the role of a tuning agent yourself. Fireworks Agent inverts this. The interface is firectl session create -n "<your instruction>", where firectl is the Fireworks CLI. After that, you watch events stream and respond to gates when the agent surfaces a decision, such as the proposed plan or the hyperparameter (HP) sweep results. Fireworks also ships a Claude Code slash command (or you can format it as an agent skill), pilot-agent.md (previously known as Pilot Agent), that wraps the firectl commands and handles event streaming, gate detection, and resume-from-last-timestamp logic. ## Full Walkthrough Step 0: Setup Install the Fireworks CLI and confirm your account. In the Fireworks dashboard, create a service account that has the permissions Training Agent needs (the role that lets it launch training jobs and deployments on your behalf), then generate an API key tied to that service account. Also, create a separate user-level API key for inference and deployment inspection. Drop both into a .env file next to the project. Step 1: Build the Dataset The training data I use consists of chat-format records derived from the DAIR.AI Top AI Papers of the Week wiki, drawn from the top 5 papers per week in 2026 and paired with their arXiv abstracts. Three small Python scripts handle the pipeline, namely parse_2026.py (wiki to structured entries), fetch_abstracts.py (arXiv abstract lookup), and build_jsonl.py (chat-format assembly). The chat schema is the standard Fireworks shape: The final outputs are train.jsonl and val.jsonl (plus the combined wiki-sft-2026.jsonl for reference), with about 90 percent of records reserved for training and 10 percent for validation. Step 2: Upload the Dataset to Fireworks Confirm the dataset is `READY`: The dataset path you will pass to the Fireworks Agent looks like accounts/<your-account>/datasets/wiki-sft-2026. Step 3: Kick Off the Fireworks Agent This is the entire user-facing config for the run, just one instruction. The session returns an ID like 1777224532-7ddb. Stream the events: The --wait flag is important; without it, the command dumps existing events and exits. The Claude Code slash command handles this for you. Step 4: Approve the Plan and Promote the Winner The agent surfaces two gates. The first is a plan with a cost estimate and three HP configs to sweep in parallel, with validation loss as the evaluator, which you approve to resume streaming. The HP sweep then runs three SFT jobs in parallel and returns a ranked table, after which the agent surfaces a second gate with the winning config. In my run, the top three configs landed very close to each other on eval loss, which tells you the task is not particularly HP-sensitive at this dataset size, so approving full training is the obvious next step. Full training takes about eight minutes of GPU time and costs a few cents. Step 5: Verify the Deployment Deployment is where ad-hoc fine-tuning workflows usually go sideways, picking the wrong accelerator, missing a compatible shape, or stalling on capacity. The agent handles the recovery itself, so the session lands at status succeeded with a READY scale-to-zero deployment. Confirm the deployment with the following command: Step 6: Call the Model Inference uses the standard Fireworks chat completions endpoint, with a deployment-pinned model ID so requests route to your custom deployment: Once warm, calls return fast enough to use as an inline step inside an agent rather than a batch job. ## Why This Workflow Pays Off I tested the fine-tuned model on a few papers that sit outside the training set, sending the same system prompt and abstract to both the baseline qwen3-8b and the fine-tuned model. The fine-tuned model produces affiliation-led ledes that name the researchers' lab, followed by three to five bullets with bolded short-label prefixes (Method:, Performance Gains:, Scalability:), and an analytical, non-promotional tone. For instance, on Chain-of-Thought, it opened with "Researchers at Stanford University demonstrate that chain-of-thought prompting significantly enhances large language models' reasoning capabilities..." That is the wiki's voice, baked into the weights and produced in a single fast call. The practical payoff is that you no longer need a large, inefficient LLM or agent to write the summaries for your LLM Wiki. A smaller fine-tuned model can do it effectively, efficiently, and cheaply. Getting the style and tone right matters for this use case, and no amount of tuning a skill or system prompt can replace what a properly fine-tuned LLM gives you. Two more things make this useful beyond a one-off experiment. First, training becomes a tool, not a project, with one CLI command, cents of compute, and a real callable endpoint at the end, while the agent handles the boring failure modes. Second, you own the resulting model. The weights live in your account, deployed on infrastructure you control, and the idle cost is zero. At this price and friction, reaching for SFT becomes a reasonable answer to a much wider set of style and format problems. ## What's Next, Knowledge in the Weights I intentionally stopped at style transfer because it is the cleanest first SFT target on a small dataset. The harder version Karpathy described (your wiki's contents in the weights) is the natural follow-up, with synthetic data generation, more training records, and knowledge-recall evaluators in the loop. The pattern generalizes beyond a personal papers wiki. Any structured knowledge surface (an internal docs wiki, a product manual, a research vault) is a candidate for the same two-step recipe, where you SFT on style first and layer knowledge injection on top. A model that has internalized both the voice and the substance of a corpus is what makes a personalized agent on top of it genuinely useful. Fireworks Agent is currently in private preview and will be generally available soon. If you are thinking about applying this workflow to your own corpus and want to request access or talk it through with the Fireworks team, reach out at fireworks.ai/contact-training.

译本文探讨了通过微调,将个人知识库(如LLM Wiki)的内容从依赖上下文窗口,转变为固化到模型自身权重中的方法。关键在于利用如Fireworks Agent这样的自主AI代理,仅需提供自然语言目标,它就能自动完成从数据准备、训练到部署的完整微调流程。这标志着模型自我改进的闭环成为可能:当训练成为AI工作流中一个可调用的步骤时,模型能主动将反复使用的模式(如特定写作风格或决策逻辑)学习并内化到权重中,从而实现使用与优化的持续迭代。

Berryxia.AI@berryxia · 5月20日59

现在二刷结束黑神话悟空后,没事还会去溜达到小西天黄梅这个章节中去在这个庙里去东瞧瞧细看看。 是真的美,也是第一次被震撼到。 没想到团队背后的付出也是如此的不容易。 大家现在可以直接在线慢慢欣赏,真的不错。 地址:https://funes.world/apps/the-hanging-sculptures-of-the-xiaoxitian

译推文分享了在通关《黑神话:悟空》后,对游戏中小西天场景原型——山西临汾隰县小西天悬塑艺术的震撼与实地探访。一个团队通过实地拍摄数千张照片,使用 Gaussian Splatting (3DGS) 技术,将其建成了一个可在线漫游的 3DGS 数字存档。该模型旨在保留明代悬塑密集的金色空间、细节与光感,让观众得以在屏幕前细细欣赏这一通常因平面印刷限制而难以被充分展现其震撼力的艺术瑰宝,并配有专门音乐。

Berryxia.AI@berryxia · 5月20日70

记得上次使用Draw Things 这个开源生图软件还是在去年展会给现场客户做Demo演示的时候! 平时压根不会用,因为有着些许的鸡肋。 但是,也有优势,比如可以在iPad就可以挂开源模型生图。(质量嘛,忽略) 直到今天看到这个新闻,喔觉得事情有点不一样了~ Draw Things里一个纯属意外的发现,直接把本地生成速度干上天了。 Z-Image-Fun-Lora-Distill本来是为Z-Image Base训的2步/4步/8步版本。 结果有人拿它配Z Image Turbo一试,效果直接炸裂。 原来需要8-9步才能出的图,现在3-4步就够了。 本地生成时间大幅缩短,画质和细节还稳得一批。 以前觉得本地出图慢是天花板,现在这个组合直接把天花板又顶高了一截。 详细配置和LoRA下载链接在原帖评论区,已经有人实测放出来了。 对每天用Draw Things本地生成、或者玩Z Image Turbo的兄弟,这波意外发现太实用了。

译在开源生图软件Draw Things中,一项意外发现显著提升了本地AI生图速度。将原为Z-Image Base训练的Z-Image-Fun-Lora-Distill与Z Image Turbo搭配使用后,原本需要8-9步的生成过程可缩减至3-4步,大幅缩短了本地生成时间,同时保持了画质与细节的稳定。这一组合有效突破了此前本地生图速度较慢的限制。

PixVerse@PixVerse_ · 5月20日62

Nice prompt! Come and try it on PixVerse

译这条推文展示了一个用于在PixVerse平台生成视频的复杂提示词。核心目标是制作一段在大型体育场内,五位朋友进行超真实智能手机自拍风格的视频。提示词的关键在于,它通过极其详细的设定来确保生成内容的连贯性和真实感:包括对五个角色外貌的严格一致性要求、具体的球场环境、模拟真实手机拍摄的镜头运动(如抖动、失焦)以及一系列自然的动作序列。

向阳乔木@vista8 · 5月20日45

AI 全自动完成一个Chrome插件的上架填写工作。 工具:Codex 客户端 + Chrome 官方插件。 填写过程甚至发现用中文输入法会干扰内容输入,自己写了个 Python 进本,直接复制粘贴填写。 表单填写速度不算快,但对没过这件事儿,懒得写各种说明文案的人来说,速度不是问题。

译通过Codex客户端与Chrome官方插件,AI能全自动完成Chrome插件的上架表单填写工作。流程中发现中文输入法会干扰内容输入,于是编写Python脚本,采用复制粘贴方式解决。虽然填写速度不快,但对不愿手动处理说明文案的用户而言,这种自动化方式提供了高效便捷的替代方案,降低了操作门槛。

向阳乔木@vista8 · 5月20日71

第二项工作启动,让Codex控制Chrome浏览器自动上架Chrome插件。 1. 添加项目文件夹,新建对话说:“把这个Chrome插件上架到谷歌Chrome商店” 调用Browser use搞定: - 隐私协议地址:[URL] - 资料文案:[本地文件地址] 2. Codex 会自己检查创建Chrome插件压缩包 然后控制浏览器打开网页上传。

译用户完成了两项自动化相关工作:首先开源了常用油猴脚本,支持小红书、抖音等平台截图自动上传、YouTube字幕处理及播客倍速调整;其次利用Codex通过控制Chrome浏览器,实现了插件上架流程的自动化,包括自动处理隐私协议、资料文案、打包压缩包并上传至Chrome商店。

Rohan Paul@rohanpaul_ai · 5月20日51

OpenClaw + Meta Ray-Ban glasses. This setup uses the Ray-Ban glasses' built-in camera for egocentric vision. Voice input triggers Gemini Live to interpret what the wearer sees, then routes tasks to OpenClaw, which then completed the purchase.

译OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。

Orange AI@oran_ge · 5月20日62

最近在 Mac 上装了豆包的语音输入法 之前很多人说一个语音输入法和一个键盘输入法放一起有点多余 我用下来的感觉倒是反过来的。 豆包这个语音输入最神奇的是可以和键盘输入联动,达成一个 1+1 > 2 的效果。 语音输入法最大的痛点其实是专有名词的输入和管理,这套词库维护起来非常费劲,但语音输入法和键盘输入法放一起就完美地解决了这个问题。 比如我语音输入这句话:ColaOS 支持 Codex 的套餐了。 因为 ColaOS 不是个标准词,所有语音输入法都会识别成 ColorOS 或者 CollaOS,这时候就需要在输入框里手动修改成 ColaOS。 但只要修改一次,豆包输入法就自动记住这个专有名词了,以后在输入就都不会错了。 这个专有词的解决方案是有点优雅的。 至于语音输入法的能力方面,实时转录、中文混说啥的都挺不错,基本上可以平替掉 typeless,这个是云端输入法产品的基本素养了。

译豆包输入法实现了语音输入与键盘输入的深度联动,解决了传统语音输入法管理专有名词词库困难的核心痛点。用户只需在语音识别出现偏差时手动修改一次专有名词,输入法便能自动学习并记忆,实现了高效协同的“1+1>2”效果。此外,该输入法具备实时转录、中英混说等云端输入法的基准能力,可平替同类产品。

Berryxia.AI@berryxia · 5月20日70

这个测试提示词非常好用强烈推荐👇🏻 Prompt: Create an HTML simulation that draws a recursive binary tree fractal using Canvas. Start from a single trunk, then recursively branch into left/right segments with decreasing length and slight random angle variation. Animate the tree growing from trunk to full canopy, then gently swaying as if in the wind. 快去试试3.5Flash和其他模型能力的对比吧!

译一个生成递归二叉树HTML动画的测试提示词被广泛用于评估AI模型能力。Gemini 3.5 Flash于Google I/O 2026后在ZenMux平台迅速上线,官方测试显示其使用该提示词生成完整动画仅需约78秒,效果出色。文章推荐用户立即在ZenMux等平台免费体验Gemini 3.5 Flash,并通过该提示词与其他模型进行对比,直观感受其在速度和生成质量上的表现。

向阳乔木@vista8 · 5月20日61

一个小技巧,Vibe Coding 时先让AI画一个ACSII码布局图,然后再开发。 比直接让它开发的交互设计合理些。

小互@xiaohu · 5月20日61

Google I/O 2026 开发者大会 完整中英文双语视频 Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发 Gemini 3.5 Flash升级为:行动大脑 Gemini Spark:远端个人 AIAgent 入口 Gemini Omni:多模态世界模型雏形

Berryxia.AI@berryxia · 5月20日39

兄弟们,NVIDIA CEO Jensen Huang亲口说了一句让我彻底重构对Claude认知的话: “每个工程师未来都要管理和使用几百个AI agent。” 这句话不是未来时,而是现在进行时。 我今年刷了几乎所有重磅AI演讲,这一句直接把我点醒了。 普通人打开Claude,打几个字,看完答案就关掉,以为这就是用AI。 其实那只占Claude能力的10%。 真正的高手不是在prompt,而是把Claude当操作系统用: 他们建工作流、链式输出、掌控上下文、让AI按照自己的思考方式去工作。 同一份订阅,同一款模型,结果却天差地别。

译NVIDIA CEO Jensen Huang指出,每位工程师未来都需要管理和使用数百个AI agent,且这一趋势已成为当前现实。推文作者强调,大多数人目前只发挥了Claude约10%的能力,而真正的高效使用者将其视为一个操作系统,通过构建工作流、链式输出和掌控上下文,让AI深度契合个人思考方式。这导致同一工具在不同用户手中产生巨大成效差异。

Berryxia.AI@berryxia · 5月20日46

Gemini 3.5 flash 使用反重力工具,一句话使用多个Agent同时写作构建整个城市的过程,还挺有意思的。

Ethan Mollick@emollick · 5月20日67

The Odyssey and the Iliad get so many movie treatments but the sequel, the Roman Aeneid, is entirely ignored. Here is a teaser trailer from one prompt to Gemini Omni. The first pass made all the flags Danish(?) but Omni is capable of editing video, so I asked for their removal.

译《奥德赛》和《伊利亚特》被多次改编成电影,但其续作罗马史诗《埃涅阿斯纪》却完全被忽视。 这是用一段提示词为Gemini Omni制作的预告片。第一版把所有旗帜都做成了丹麦的(?),但Omni能够编辑视频,所以我要求移除了它们。

Google Gemini@GeminiApp · 5月20日72

Build your first game with Gemini 3.5 Flash. Translate everyday objects directly into interactive, digital experiences without complex 3D modeling. Start with a Nano Banana prompt, turn your image into a game in Canvas, and refine your vision for optimal gameplay.

译使用 Gemini 3.5 Flash 构建你的第一款游戏。 无需复杂的3D建模,即可将日常物品直接转化为互动的数字体验。从一个 Nano Banana 提示开始,在 Canvas 中将你的图像变成游戏,并优化你的愿景以获得最佳游戏体验。

ClaudeDevs@ClaudeDevs · 5月20日73

Computer use turns Claude into an agent that can operate real UIs. New blog post on making it reliable in production: getting click accuracy right, choosing thinking effort levels, keeping long sessions within context, and recording demonstrations Claude can replay: https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude

译计算机使用功能使Claude成为能够操作真实用户界面的智能体。 新博客文章探讨如何在生产环境中确保其可靠性:包括提高点击准确性、选择思考努力级别、在长会话中保持上下文,以及记录Claude可重放的演示操作: https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude

Google DeepMind@GoogleDeepMind · 5月20日53

Gemini 3.5 Flash 🤝 @Antigravity Watch how the model deploys multiple subagents to design and build an entire city.

译Gemini 3.5 Flash 🤝 @Antigravity 观看模型如何部署多个子代理来设计和构建整个城市。

Google AI@GoogleAI · 5月20日48

Some fun Gemini Omni use cases from the community👇🧵 (We’ll keep updating this thread throughout the day)

译一些来自社区的有趣Gemini Omni用例👇🧵 (我们将在全天持续更新此推文串)

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月21日
16:07
AYi@AYi_AInotes
精选79
游戏开发门槛被AI大幅降低

Grok展示了AI深度介入游戏开发的全新工作流。通过“提示词生成角色图→图片转动画视频→自动拼接成Spritesheet→导入引擎”四步流程,将传统需要美术与动画师耗时数天的工作,在几分钟内完成。这标志着AI不再仅生成静态内容,而是能实时生成可直接导入Unity或Godot等游戏引擎的可运行资产。该技术极大压缩了游戏原型的迭代周期,将反馈循环从“天”缩短至“秒”,使得独立开发者也能快速实现创意,显著降低了游戏创作的门槛。

Grok: Prototyping game assets directly with Grok @imagine

xAI图像生成教程/实践

推荐理由:Grok 这波不是画张图那么简单,它把 AI 直接嵌进游戏引擎工作流,实时生成可运行的资产,solo 开发者周末搞个原型出来真的可行了。
14:39
Alibaba Cloud@alibaba_cloud
30
AI智能体正在改变团队分析数据的方式。 加入我们的网络研讨会:快速BI技能:智能体时代的数据分析 了解智能体技能如何支持电商分析、库存优化、交易洞察、仪表盘解读和报告生成。 📅 2026年6月2日 🕑 北京时间14:00 👉 立即预约席位!https://int.alibabacloud.com/m/1000413140/
智能体产品更新教程/实践
14:30
X.PIN@thexpin
85
刚刚测试了阿里巴巴全新的Qwen3.7-Max。 提示词:构建一个单文件物理模拟网页:风洞、布料、软体、流体,全部集成在一个index.html中,CSS + JS内联。
推理教程/实践
关联讨论 8 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
14:27
Elon Musk@elonmusk
59
Grok Build 使用技巧 感谢 @skcd24 的提示。现在我可以完全在主 Grok Build 实例中工作,无需为其他集群打开额外标签页。

Yun-Ta Tsai: If you are managing multiple machines across clusters and farms, you could ask Grok Build to spin off a sub-agent SSH tu...

智能体MCP/工具xAI教程/实践
13:17
歸藏(guizang.ai)@op7418
50
AI赋能墨水屏:从智能看板到数字名片

该推文展示了一种将墨水屏硬件与AI Agent结合的创新应用。核心思路是通过打包为Skill,使任意AI Agent都能控制墨水屏显示内容:设备开机时,AI可推送待办事项、日历等信息,配合磁吸安装和定时任务刷新,形成常态化桌面看板;关机或休眠时,屏幕则利用墨水屏特性静态显示个人介绍与二维码,便捷实现数字名片功能。项目计划以Skills形式开源,便于拥有类似硬件的用户复用开发。

歸藏(guizang.ai): 终于找到了这种墨水屏硬件最适合的场景: 开机的时候,让 AI 往里边推一个 To-do、日历,一些基础的需要记的信息 把它挂在屏幕边上(用磁吸) 关机的时候,利用墨水屏的特性让它显示名片,这样大家加好友什么的直接看就行 太实用了! 到时候打...

智能体MCP/工具教程/实践
12:48
凡人小北@frxiaobei
63
推文分享了使用Codex时的经验与注意事项。核心指出单个对话的上下文长度是有限资源,若滥用持续对话流(如设定密集的定时任务)可能导致效果下降或资源浪费。有效的做法是将任务拆解得足够清晰、明确,以提升可持续性。长远来看,更理想的解决方案应是建立共享记忆机制,而非依赖单一长对话的上下文承载。引用的背景文章进一步佐证了相关技术原理,但核心观点强调:优化任务结构比单纯延长对话更为关键。

宝玉: http://x.com/i/article/2057247064115838976

教程/实践编码
12:48
凡人小北@frxiaobei
55
在我们的领域专长上深入 在相邻技能和领域上扩展 在此基础上学会很好地使用 AI

Zara Zhang: Great slide from the "How to thrive as an AI-era developer" session at Google I/O today I think this T-shape will apply ...

教程/实践现象/趋势
12:22
meng shao@shao__meng
65
Agora Skills:快速构建实时语音交互 Agent 的实践

实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。

智能体GitHub教程/实践语音
11:22
宝玉@dotey
63
AI时代T型开发者能力模型解析

该推文解析了AI时代的“T型开发者”能力模型。模型核心包含三个维度:顶层,生成式AI应用成为所有开发者必须掌握的通用基础能力;纵向,借助AI进一步深化核心软件工程的专业技能;横向,借助AI更高效地拓展至相邻工程领域及产品思维、沟通等非工程技能。此模型旨在帮助开发者构建兼具专业深度与跨界广度的知识结构。观点指出,该T型能力框架不仅适用于开发者,也适用于所有职业。

Zara Zhang: Great slide from the "How to thrive as an AI-era developer" session at Google I/O today I think this T-shape will apply ...

Google教程/实践编码
11:09
Berryxia.AI@berryxia
62
微软Claude工作坊:AI Agent从原型到生产落地

微软举办Claude使用工作坊,通过构建纸杯蛋糕店AI Agent的案例,演示了从部署云模型、接入MCP服务器连接工具与数据源,到赋予企业级安全与可观测性的完整流程。工作坊以实操为主,开发者可现场跟随编码,强调AI Agent已从概念验证进入快速生产落地的实用阶段,成为开发者能直接构建的业务工具。

智能体AnthropicMCP/工具Microsoft
10:49
Orange AI@oran_ge
50
做产品≠能赚钱:商业认知大于技术能力

推文核心观点指出,将“做产品”与“赚钱”直接等同是一种常见误区。对于开发者而言,真正的难点并非开发产品本身,而是如何将其成功销售出去。这本质上是商业问题,而非工程问题。当前,AI技术已能基本解决工程层面的挑战,但商业变现能力尚未被AI攻克。因此,产品只是实现商业价值的交付方式之一,能否赚钱更多取决于独立的商业运作能力,而非单纯依赖产品。

大佬观点教程/实践现象/趋势
10:34
向阳乔木@vista8
72
Suno AI音乐工具新增6000种风格检索并支持免登录创作

这条推文介绍了一个对Suno AI音乐生成工具进行优化的Skill。该Skill新增了近6000个音乐风格检索,显著提升了生成音乐的准确性。此外,它通过谷歌CDP技术刷新获取登录Token,使用户无需访问网站即可直接创作歌曲。推文提供了该Skill的开源GitHub地址和安装指令。

开源/仓库教程/实践语音
10:34
向阳乔木@vista8
精选75
开源Suno技能:一键生成任意风格AI音乐

这是基于Suno AI音乐生成工具的技能实现,可通过简单指令按用户需求生成不同风格的歌曲(例如德语空灵风格)。该技能订阅费用为每月10美元,支持高度自定义的风格生成。技术层面已优化,新增近6000个音乐风格检索以提升准确性,并可通过谷歌CDP免登录直接调用。项目已开源,提供GitHub仓库地址与安装指令,降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距,但实现了快速、灵活的创作可能。

向阳乔木: Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。 用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。 开源地址:https://github.com/joeseesun/qiaom...

GitHub多模态教程/实践

推荐理由:乔木这个 Suno Skill 把音乐生成从“抽卡”变成“精准点唱”,6000 种风格检索让普通人也能玩出花样,虽然比不上专业制作,但做短视频配乐绝对够用,看完就能装。
09:22
meng shao@shao__meng
68
Forward Deployed Engineering (FDE):AI落地的"最后一公里"关键与新兴职业方向

Forward Deployed Engineering (FDE) 是AI公司派驻客户现场的工程师角色,核心是将AI能力嵌入企业具体业务流。随着模型能力趋同,真正优势在于“如何用”,而FDE正是解决AI落地“最后一公里”的关键。该角色借鉴Palantir传统,强调必须现场工作,围绕企业专有数据重建流程。其工作涵盖业务审计、效果评估(Evals)与务实部署三阶段。咨询、PM及软件工程师可通过30天路线图与作品集转型,但需弥补各自短板——工程能力或商业沟通能力。FDE被视作“百万美金级人才”,是AI时代高价值的职业新方向。

vas: http://x.com/i/article/2057172544277606401

智能体教程/实践现象/趋势部署/工程
08:51
meng shao@shao__meng
69
Alex Finn 推荐的 Codex 远程开发架构,虽然 1000x 生产力略显夸张 😄

Alex Finn 提出的远程开发架构核心在于将“执行代码的主机”与“发送指令的终端”分离。一台主力机(如Mac Studio)常开,作为唯一执行环境,集中所有代码与依赖;其他设备(如iPad、iPhone)仅作为“遥控器”发送指令。通过Codex的远程控制功能与Tailscale私有网络连接,开发者可在任何地点、任何设备无缝推进同一项目,实现开发能力与物理位置的解耦,从而提升灵活性和效率。

Alex Finn: You need to set up this Codex system I have Been taking advantage of their new remote features and my productivity has 1...

教程/实践编码部署/工程
08:18
宝玉@dotey
74
Codex 从编程助手到全能打工人

Codex已从单纯的代码生成工具,进化为能处理各类电脑任务的“全能打工人”。其核心在于利用持久对话流实现长期记忆,并能调用浏览器、电脑操控等工具,打破工作流限制。通过自动化与目标设定,Codex可离线持续工作,大幅提升生产力。

智能体MCP/工具教程/实践编码
07:18
宝玉@dotey
68
Codex 使用技巧:Steer 和 Queue

本文介绍了在 Codex Agent 执行任务时补充新要求的两种核心操作:Steer 与 Queue。Steer 通过快捷键 Shift+Enter 在任务进行中直接插入新指令,改变 Agent 当前的工作方向;Queue 则通过 Enter 键在当前任务完成后添加新任务,并按顺序逐一执行,适用于安排后续步骤。两者本质区别在于 Steer 干预当下执行,Queue 规划未来任务。此外,用户可通过队列添加多个“Continue”指令,实现任务持续运行,适用于需要无人值守的场景。

智能体OpenAI教程/实践
07:05
Google AI Developers@googleaidevs
59
通过使用Gemini API中的新托管代理功能,@RampLabs构建了他们的高级财务代理,无需接触后端基础设施。 了解更多 ↓
智能体Google教程/实践
00:13
OpenRouter@OpenRouter
精选70
提示💡 你无需担心自动路由(以及所有单独模型)的缓存未命中问题 OpenRouter会将你的会话固定在一个模型/提供商上,直到缓存过期
教程/实践部署/工程

推荐理由:OpenRouter 这个 Auto Router 的缓存说明很实用,会话会被固定在一个提供者直到缓存过期,不用担心切换带来的不一致,API 开发者看一眼能省事。
5月20日
23:56
AYi@AYi_AInotes
63
Kimi 10分钟建站,零代码打造可售网站

Kimi 2.6能够一键生成获奖级别的网站,全程无需代码。配套的详细视频教程时长近10分钟,可指导用户快速上手,在极短的时间内产出可用于销售的成品网站,大幅降低了利用AI进行独立开发与变现的门槛。

AYi: Kimi做网站设计这么牛逼吗? 这个视频分享了怎么用Kimi 2.6做获奖10美元的网站, 教程讲的特别细, 需要字幕学习的可以评论区留言告诉我!

教程/实践编码
23:33
elvis@omarsar0
73
自我改进的AI是件大事!

作者探索利用Fireworks AI Agent,通过自然语言交互自动化完成大语言模型的微调流程。他以Qwen小模型为例,调整其输出风格以优化PaperWiki项目的扩展效率。这一方法灵感源于@karpathy关于LLM知识库的推文,强调微调是让模型更“懂”数据的关键步骤。核心观点是自动化微调可推动构建可递归自我改进的AI系统,最终目标是打造一个能自我优化、用于知识发现和端到端自动化研究的强大工具。

elvis: http://x.com/i/article/2056851733582880768

智能体开源/仓库教程/实践数据/训练
23:14
歸藏(guizang.ai)@op7418
63
墨水屏新用途:AI推送与磁吸名片场景

墨水屏硬件可通过AI推送日历、待办事项等基础信息,利用磁吸设计便捷固定。关机时,借助墨水屏的常显特性可切换为电子名片,简化社交场合的加好友流程。该方案将打包为Skills分享,为同类硬件用户提供实用参考。

教程/实践端侧
23:03
elvis@omarsar0
74
通过AI代理自动化微调,将知识注入大语言模型权重

本文探讨了通过微调,将个人知识库(如LLM Wiki)的内容从依赖上下文窗口,转变为固化到模型自身权重中的方法。关键在于利用如Fireworks Agent这样的自主AI代理,仅需提供自然语言目标,它就能自动完成从数据准备、训练到部署的完整微调流程。这标志着模型自我改进的闭环成为可能:当训练成为AI工作流中一个可调用的步骤时,模型能主动将反复使用的模式(如特定写作风格或决策逻辑)学习并内化到权重中,从而实现使用与优化的持续迭代。

智能体MCP/工具教程/实践数据/训练
22:08
Berryxia.AI@berryxia
59
黑神话悟空带火山西小西天,3D数字模型上线

推文分享了在通关《黑神话:悟空》后,对游戏中小西天场景原型——山西临汾隰县小西天悬塑艺术的震撼与实地探访。一个团队通过实地拍摄数千张照片,使用 Gaussian Splatting (3DGS) 技术,将其建成了一个可在线漫游的 3DGS 数字存档。该模型旨在保留明代悬塑密集的金色空间、细节与光感,让观众得以在屏幕前细细欣赏这一通常因平面印刷限制而难以被充分展现其震撼力的艺术瑰宝,并配有专门音乐。

MasterPa: 小西天,看着像视频,但其实是我们在现场实地拍摄 3,811 张 206 GB 的照片后建模的。FUNES 把《黑神话:悟空》里「既见未来,为何不拜」满天神佛的原型,来自自山西临汾隰县的小西天,做成了一个可漫游的 3DGS 数字存档。 完全实...

图像生成教程/实践
20:08
Berryxia.AI@berryxia
70
本地AI生图"意外"加速,Draw Things新发现

在开源生图软件Draw Things中,一项意外发现显著提升了本地AI生图速度。将原为Z-Image Base训练的Z-Image-Fun-Lora-Distill与Z Image Turbo搭配使用后,原本需要8-9步的生成过程可缩减至3-4步,大幅缩短了本地生成时间,同时保持了画质与细节的稳定。这一组合有效突破了此前本地生图速度较慢的限制。

Draw Things: 🔍 An interesting discovery! 🧩 Z-Image-Fun-Lora-Distill from alibaba-pai was originally trained for Z-Image Base, with ...

图像生成开源生态教程/实践
16:03
PixVerse@PixVerse_
62
这条推文展示了一个用于在PixVerse平台生成视频的复杂提示词。核心目标是制作一段在大型体育场内,五位朋友进行超真实智能手机自拍风格的视频。提示词的关键在于,它通过极其详细的设定来确保生成内容的连贯性和真实感:包括对五个角色外貌的严格一致性要求、具体的球场环境、模拟真实手机拍摄的镜头运动(如抖动、失焦)以及一系列自然的动作序列。

madpencil_: It was fun trying to get this... ideating with AI and and crafting the prompt. Ref images + the Prompt. 🙌😅 { "title":"...

教程/实践视频
16:01
向阳乔木@vista8
45
AI工具全自动填写Chrome插件上架表单

通过Codex客户端与Chrome官方插件,AI能全自动完成Chrome插件的上架表单填写工作。流程中发现中文输入法会干扰内容输入,于是编写Python脚本,采用复制粘贴方式解决。虽然填写速度不快,但对不愿手动处理说明文案的用户而言,这种自动化方式提供了高效便捷的替代方案,降低了操作门槛。

智能体MCP/工具教程/实践
15:31
向阳乔木@vista8
71
Codex自动化上架Chrome插件与开源油猴脚本

用户完成了两项自动化相关工作:首先开源了常用油猴脚本,支持小红书、抖音等平台截图自动上传、YouTube字幕处理及播客倍速调整;其次利用Codex通过控制Chrome浏览器,实现了插件上架流程的自动化,包括自动处理隐私协议、资料文案、打包压缩包并上传至Chrome商店。

向阳乔木: 完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整 开源地址:https:/...

智能体MCP/工具教程/实践
15:05
Rohan Paul@rohanpaul_ai
51
OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。
智能体GoogleMeta多模态
14:41
Orange AI@oran_ge
62
豆包输入法:语音键盘联动,专有名词输入更智能

豆包输入法实现了语音输入与键盘输入的深度联动,解决了传统语音输入法管理专有名词词库困难的核心痛点。用户只需在语音识别出现偏差时手动修改一次专有名词,输入法便能自动学习并记忆,实现了高效协同的“1+1>2”效果。此外,该输入法具备实时转录、中英混说等云端输入法的基准能力,可平替同类产品。

教程/实践语音
13:05
Berryxia.AI@berryxia
70
一个生成递归二叉树HTML动画的测试提示词被广泛用于评估AI模型能力。Gemini 3.5 Flash于Google I/O 2026后在ZenMux平台迅速上线,官方测试显示其使用该提示词生成完整动画仅需约78秒,效果出色。文章推荐用户立即在ZenMux等平台免费体验Gemini 3.5 Flash,并通过该提示词与其他模型进行对比,直观感受其在速度和生成质量上的表现。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

Google教程/实践编码
11:31
向阳乔木@vista8
61
一个小技巧,Vibe Coding 时先让AI画一个ACSII码布局图,然后再开发。 比直接让它开发的交互设计合理些。
教程/实践编码
08:19
小互@xiaohu
61
Google I/O 2026 开发者大会 完整中英文双语视频 Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发 Gemini 3.5 Flash升级为:行动大脑 Gemini Spark:远端个人 AIAgent 入口 Gemini Omni:多模态世界模型雏形
智能体Google多模态教程/实践
08:05
Berryxia.AI@berryxia
39
Jensen Huang预言:每位工程师将管理数百AI agent

NVIDIA CEO Jensen Huang指出,每位工程师未来都需要管理和使用数百个AI agent,且这一趋势已成为当前现实。推文作者强调,大多数人目前只发挥了Claude约10%的能力,而真正的高效使用者将其视为一个操作系统,通过构建工作流、链式输出和掌控上下文,让AI深度契合个人思考方式。这导致同一工具在不同用户手中产生巨大成效差异。

智能体Anthropic教程/实践
08:05
Berryxia.AI@berryxia
46
Gemini 3.5 flash 使用反重力工具,一句话使用多个Agent同时写作构建整个城市的过程,还挺有意思的。
智能体Google教程/实践
06:02
Ethan Mollick@emollick
67
《奥德赛》和《伊利亚特》被多次改编成电影,但其续作罗马史诗《埃涅阿斯纪》却完全被忽视。 这是用一段提示词为Gemini Omni制作的预告片。第一版把所有旗帜都做成了丹麦的(?),但Omni能够编辑视频,所以我要求移除了它们。
Google多模态教程/实践视频
04:38
Google Gemini@GeminiApp
精选72
使用 Gemini 3.5 Flash 构建你的第一款游戏。 无需复杂的3D建模,即可将日常物品直接转化为互动的数字体验。从一个 Nano Banana 提示开始,在 Canvas 中将你的图像变成游戏,并优化你的愿景以获得最佳游戏体验。
Google多模态教程/实践

推荐理由:Google Gemini 官方教你把日常物品照片变成互动游戏,Nano Banana 到 Canvas 的链路很直接,想试 Gemini 多模态能力的人可以当入门案例跑一遍。
04:33
ClaudeDevs@ClaudeDevs
精选73
计算机使用功能使Claude成为能够操作真实用户界面的智能体。 新博客文章探讨如何在生产环境中确保其可靠性:包括提高点击准确性、选择思考努力级别、在长会话中保持上下文,以及记录Claude可重放的演示操作: https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude
智能体AnthropicMCP/工具教程/实践

推荐理由:这篇博客把 Computer use 从“能用”真正推到“生产级”,聚焦点击精度、思考模式选择、长会话上下文保持这些实际卡点,如果你在让 Claude 操作 UI,这是必读的避坑指南。
04:11
Google DeepMind@GoogleDeepMind
53
Gemini 3.5 Flash 🤝 @Antigravity 观看模型如何部署多个子代理来设计和构建整个城市。
智能体Google教程/实践
04:10
Google AI@GoogleAI
48
一些来自社区的有趣Gemini Omni用例👇🧵 (我们将在全天持续更新此推文串)
Google多模态教程/实践
‹ 上一页
1…1617181920…31
下一页 ›