AI 视频剪辑 Skill 分享「video-use」 https://github.com/browser-use/video-use @browser_use 团队推出的开源 Skill，定位为面向 AI Coding Agents（Codex、Claude Code、Cursor、Hermes Agent 等）的视频剪辑 Skill。它不做传统意义上的 Premiere / CapCut 替代品，它是一套让 LLM 通过 “阅读转写文本 + 按需可视化” 来理解视频、并调用 ffmpeg 等工具完成剪辑的 prompt-engineering + 工具脚本集合。 # 核心思想：LLM 不“看”视频，它“读”视频第一层：音频转写文本（always loaded）通过 ElevenLabs Scribe 获得逐词时间戳、说话人分离、音频事件标记（如笑声、叹息、掌声），打包成约 12KB 的 takes_packed.md。这是 LLM 的主要“阅读材料”。第二层：视觉时间线视图（on demand）仅在决策点（歧义停顿、重拍对比、切点校验）调用 timeline_view.py 生成胶片帧 + 波形 + 字幕的 PNG 复合图。对比朴素方案“30000 帧 × 1500 tokens = 4500 万 tokens 噪声”，项目走的是 “12KB 文本 + 少量 PNG” 的轻量化路径。这与 Browser Use 让 LLM 读结构化 DOM 而非直接看截图的思路一致。 # 技术流水线：Transcribe → Pack → Reason → EDL → Render → Self-Eval 1. 转写 - transcribe. py / transcribe_batch.py 提取 16kHz 单声道音频，调用 ElevenLabs Scribe，缓存为 transcripts/<name>.json 2. 打包 - pack_transcripts.py 将逐词 JSON 合并为按 0.5s 静音或说话人切换断句的 takes_packed.md 3. 决策 - LLM 自身阅读 packed transcript，必要时用 timeline_view.py 可视化 4. 生成 EDL - subagents 输出 JSON 格式 edl.json，包含源文件、切点、节奏标签、引用、原因 5. 渲染 - render. py 分段提取 → 无损 concat → 叠动画 → 压字幕 → 响度标准化 6. 自评估 - timeline_view.py + LLM 在输出文件的每个切点 ±1.5s 检查跳帧、爆音、字幕遮挡，最多 3 轮 # 关键工程细节： ffmpeg 为主的剪辑实现 1. 分段提取 + -c copy 拼接（避免叠 overlay 时二次编码） 2. 每段边界 30ms 音频淡入淡出（消除切点爆音） 3. overlay 使用 setpts=PTS-STARTPTS+T/TB 进行时移，确保动画第 0 帧对齐输出时间线 4. 字幕始终最后叠加（防止被动画遮挡） 5. Master SRT 使用输出时间轴偏移：output_time = word.start - segment_start + segment_offset 6. 切点必须落在词边界，并加 30–200ms 填充以吸收 Scribe 50–100ms 的时间戳漂移 7. HDR 源自动 tone-map（HLG/PQ → Rec.709 SDR） 8. 竖屏源自动按高度缩放 9. 两-pass loudnorm：-14 LUFS / -1 dBTP / LRA 11，符合主流社交平台标准 # 动画与包装：多引擎并行 1. HyperFrames：HTML/CSS/GSAP compositions，适合产品 UI、网页转视频、动态排版 2. Remotion：React 组件化 compositions 3. Manim：数学/技术/3Blue1Brown 风格解释动画 4. PIL + PNG sequence + ffmpeg：简单卡片、计数器、打字效果 # SKILL.md 的 12 条“铁律”：生产正确性优先 1. 必须遵守的 12 条硬规则：字幕最后、分段提取再拼接、30ms 淡入淡出、PTS 时移、SRT 输出时间偏移、不切在词中、切点填充、逐词 ASR、缓存转写、并行动画、先确认策略再执行、输出在 <videos_dir>/edit/ 2. 其余全部是可调整的“worked example”：调色风格、字幕分块、动画时长、节奏等都可按材料和用户品牌定制

译browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」，让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本（含逐词时间戳、说话人分离、事件标记），仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节：分段提取 + `-c copy` 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。

歸藏(guizang.ai)@op7418 · 20小时前71

http://x.com/i/article/2072507922257723392 # 能帮你做 Live Photo 了！藏师傅社交卡片 Skill 重磅更新前段时间我做了一个 guizang-social-card-skill（https://github.com/op7418/guizang-social-card-skill）。它原来主要解决静态图文的问题: 把文章、产品说明、截图、照片这些素材，做成小红书 3:4 图文卡片，或者公众号封面。这次给它补了一个新能力: Live Photo 生成和编辑。你可以把产品录屏、网页 Demo、游戏片段、生活素材交给 Agent，让它做成小红书或公众号文章里能用的动态卡片。看一下 Codex 基于藏师傅的这个 Skills 给这次更新做的宣传视频：我一开始以为这只是“把视频放进卡片”。实际在实践和做的过程中，发现要处理的事主要有三个: - 第一帧要能当普通图发出去。 - 3 秒或 5 秒里只能讲一个很小的动作。 - 用户最后要能真的传到手机上发布，不能只停留在本地 Demo。所以这次更新不只是在导出 MOV 视频和 Live Photo。它还补了素材判断、首帧检查、平台时长和发布路径这些环节。 ## 这次能做什么单视频动态卡片：适合产品录屏、网页生成结果、代码运行、游戏操作。 Skill 会先按 3:4 卡片做版式，确认第一帧能看，再生成动态版本。拼图式 Live Photo：适合素材本身好看的内容: 旅行、产品细节、美食手作、生活方式。可以做成单视频、二宫格、三宫格、四宫格。很多时候不用加字，画面自己就够了。三连 Live Photo：适合三个并列结果: 三个生成案例、三个产品状态、三个游戏片段。这里的重点是“并列”，不适合把一个长教程硬拆成三段。长视频筛选：用户手里的素材通常不是刚好 3 秒或 5 秒。 Skill 会先粗看视频信息量，再建议裁一段、加速、拆成三连，或者放弃 Live Photo。很多工具喜欢说自己能“自动找高光”。我现在更愿意保守一点。自动选错以后，常见问题很难救: 第一帧黑屏、滚动跨了两个页面、UI 字太小、结果画面还没出现。 ## 怎么用比较合适先准备视频素材。不需要精剪到很漂亮，但最好别太长。每段 10 秒左右比较舒服。太长的视频会消耗更多 token，也更容易让 AI 误判重点。比较推荐的方式: 1. 先把原视频粗剪成几段。 1. 每段只保留一个重点。 1. 让 AI 判断哪一段适合做 Live Photo。 1. 再决定做单视频、拼图，还是三连。可以直接这样说: 帮我把这段产品录屏做成小红书 Live Photo 第一张卡，重点突出生成结果。或者: 这段视频有点长，先帮我判断哪一段适合做 Live Photo。完整教程不建议塞进 Live Photo。教程还是适合拆成 5-9 张图文卡片。 Live Photo 只放最需要动一下才说得清的那一页: 按钮点击后的结果、生成完成瞬间、游戏动作成功、食物切开的变化。比如我前段时间给这些模型做的测试，在演示生成的网页效果时，就是一张图对应一个案例。另外，陈抱一还有一个 Live Photo 开箱的栏目也可以看看，他一次只做一个动作，只展示这个产品的一个细节。 ## 适合哪些场景产品更新和 AI 工具演示：静态截图只能说明界面长什么样。Live Photo 可以展示点下去以后发生了什么。生成网页、生成代码、生成图片，只放静态图总有点像摆拍。这类素材里还有一种很常见: 原始录屏信息太小，手机上看不清。比如这类原始视频的 token 显示区域比较小。这里可以让 Skill 自动把关键区域放大，只保留用户真正需要看的部分。游戏攻略路线、timing、动作节奏、击中瞬间，很多时候截图讲不清。Live Photo 适合放一个关键动作，不适合讲完整攻略。游戏素材也适合做全屏动态卡。它不一定需要额外排版，只要把画面裁到合适比例，保留动作完成的那几秒。教程技巧不需要每一步都动。把最容易出错、最需要看到过程的一步做成 Live Photo 就够了。如果原来就是一套多图教程，Live Photo 可以只放在第一张或关键页。其他静态页继续负责解释、拆步骤、放细节。这样不会把一整套图文都改成视频，也不会打乱原来的阅读节奏。旅行和生活方式有些照片很好看，但少一点现场感。到达、走动、开门、转身，这些小动作会让图文更像真人内容。这类案例不需要太重的文案。一个开门、走动、拿起物品的片段，就能让图文从“设计图”变得更像真实记录。美食、手作、产品种草倒入、切开、搅拌、组装、旋转、开合，这些天然适合 Live Photo。它们不需要复杂文案，看见变化就够了。如果同一主题下有几个短片段，也可以做成拼图。二宫格、三宫格、四宫格都适合这类素材。重点是让多个片段同时提供质感，而不是给每个格子都加说明。判断标准很简单: 运动有没有提供证据。如果运动只是装饰，静态卡片更干净。 ## 做这个功能时我加入的细节第一帧要先过关：Live Photo 在信息流里先显示的是静态图。第一帧如果不好看，后面会动也没用。所以现在流程里会先抽首帧，当普通 3:4 卡片检查一遍: 裁切对不对，主体有没有被切掉，标题会不会挡住关键区域。视频当成图片位处理：视频不能随便全屏塞进去。视频区域沿用图片裁切逻辑：UI 密集就保留完整画面，主体明确就放大重点，人脸、产品、按钮、结果区不能被压住。先看 contact sheet：长视频不适合一帧一帧看。更省事的方法是抽 8-15 帧拼成一张 contact sheet。看一张图，基本就能知道有没有黑屏、转场、UI 太小、结果没出现这些问题。平台时长要分开：小红书按 5 秒做。公众号文章内按 3 秒做。时长不同，能承载的信息量也不同。3 秒只适合一个动作点，5 秒可以放一个很小的过程。发布路径要提醒清楚：Live Photo 最后不能只给一个视频文件。实际测试和发布时，需要把 JPG + MOV 打包成 .pvt，再 AirDrop 到 iPhone，从手机端发布。桌面端上传不一定能保留 Live Photo。这些细节不显眼，但少了任何一项，成品都可能停在本地测试里。 ## 为什么 Live photo 值得做图文平台里的“图”现在有点尴尬。静态图表达力有限。短视频制作成本又高。很多内容卡在中间: 不值得剪成视频，只用静态图又少一点说服力。 Live Photo 刚好补这个空位。用户还是在做图文，只是其中一张图多了一点运动。我觉得它有用，是因为很多内容需要一点动态证据：产品运行、网页生成、动作完成、食物切开。从 Skills 的角度看，这次更新中的实践需要注意：一个 Skill 不能只写触发词，还得写清审美、边界和工作流。当用户给一段视频素材时，AI 不只负责导出文件。它还要判断这段素材该不该动、动哪一段、放在哪张卡里，以及怎么让它仍然像一张能发出去的社交卡片。这类判断越多，Skill 就越不像一段 Prompt，越像一个可以复用的生产流程。 ## 怎么开始用如果你还没用过这个 Skill，可以直接把下面这段话发给有 shell 权限的 AI Agent: 帮我安装 guizang-social-card-skill。阅读 https://github.com/op7418/guizang-social-card-skill 项目的 Readme 后安装，安装完成后检查 SKILL.md、assets/、references/ 是否存在。如果你之前已经装过，可以直接让 AI 更新: 帮我更新 guizang-social-card-skill。请进入 ~/.claude/skills/guizang-social-card-skill 执行 git pull，然后告诉我当前最新 commit。更新完以后，你就可以把文章、截图、照片或视频素材丢给 Agent，让它生成小红书图文、公众号封面，或者这次新增的 Live Photo 卡片。我觉得这次更新对你有帮助的话，可以帮我点个赞或者转发给你需要的朋友。

译歸藏的guizang-social-card-skill新增Live Photo能力，支持单视频动态卡片、拼图式（二/三/四宫格）、三连Live Photo及长视频筛选。核心细节：第一帧可作为静态图发布；小红书5秒/公众号3秒时长区分；发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右，让AI判断适合做Live Photo的片段。安装或更新后即可使用。

meng shao@shao__meng · 22小时前77

Skills for Design Engineers 作者 @emilkowalski 是知名设计工程师，曾在 Vercel、Linear 工作，也是 Sonner、Vaul 等流行组件的创建者。他把多年积累的一套 UI/动画原则，沉淀成设计工程师们的设计品味 Skills，让 Codex、Claude Code、Cursor 等 Coding Agents 在写 UI 和动画时，具备接近资深设计工程师的审美判断！ https://github.com/emilkowalski/skills 仓库结构：三个相互补充的 Skills 1. 先建立决策框架（emil-design-eng）主 Skill：设计工程哲学 + 动画决策框架 + 组件构建原则 2. 再审查代码（review-animations） · SKILL.md 以严格标准审查动画/动效代码，输出“Before/After/Why”表格 · STANDARDS.md 评审的数值/曲线参考表（easing、duration、spring 等） 3. 最后帮助用户精准描述动效（animation-vocabulary）词汇表：把“那个弹一下的效果”翻译成“Pop in”等专业术语核心主张：动画不是“让它动起来”，而是“让它感觉对” 1. 动画需要理由每条动画都必须回答一个问题：“它为什么要动？” 合理理由： · 空间一致性（toast 从同一方向进出） · 状态指示（按钮变形表示加载完成） · 解释关系（引导用户理解状态变化） · 防止突兀（元素突然出现/消失） · 反馈（按下按钮时 scale(0.97)）不合理理由： · “看起来很酷” + 高频出现 → 应该删除 2. 按使用频率决定动画强度 · 每天 100+ 次（快捷键、命令面板）：禁止动画 · 每天几十次（hover、列表导航）：删除或大幅简化 · 偶尔（弹窗、抽屉、toast）：标准动画 · 罕见/首次（ onboarding、反馈）：可以适当“惊喜” 最实用的技术原则 Easing：不要信默认，要用强曲线 · UI 元素进入/退出 → ease-out · 已在屏幕上的元素移动 → ease-in-out · hover / 颜色 → ease · 恒速运动 → linear · 绝对禁止 UI 动画使用 ease-in（开头慢，用户会感觉到延迟） Duration：UI 动画控制在 300ms 内 · 按钮按下反馈：100–160ms · Tooltip / 小弹层：125–200ms · 下拉框/选择器：150–250ms · 模态框/抽屉：200–500ms Physical correctness · 永远不要从 scale(0) 开始：现实中不会凭空出现。用 scale(0.95) + opacity: 0。 · Popover 从触发点缩放：transform-origin 要指向触发按钮，而不是元素中心（modals 例外）。 · 按钮按下必须有反馈：transform: scale(0.97) 是默认。性能规则 · 只动画 transform 和 opacity（GPU 层）。 · 不要用 width/height/margin/top/left 做动画。 · Framer Motion 的 x/y/scale 简写不是硬件加速的，要用完整 transform 字符串。 · 不要用父元素的 CSS 变量驱动子元素 transform（会引发样式重算风暴）。 · 预定动画用 CSS；动态/可打断的用 JS 或 Spring。打断与对称 · CSS transition 可打断、可重定向；@ keyframes 会从头开始。 · 长按/删除等场景：按下慢（2s linear），释放快（200ms ease-out），非对称时间。无障碍 · 尊重 prefers-reduced-motion：不是“全部关掉”，而是保留 opacity/颜色，移除位移动画。 · hover 动画必须加 @ media (hover: hover) and (pointer: fine)，避免触屏设备误触发。评审 Skill：如何检查代码 review-animations 设定了十条“不可妥协”的标准，并把输出格式严格化为： · transition: all 300ms > transition: transform 200ms ease-out -- 精确指定属性，避免 all 触发非 GPU 动画 · transform: scale(0) > transform: scale(0.95); opacity: 0 -- 不应凭空出现 animation-vocabulary：把模糊感受翻译成专业词这个 Skill 本质上是一个动效术语反向查询表。用户说“iOS 拉到底部会弹回去那种感觉”，它能回答“Rubber-banding”；用户说“元素从按钮里长出来”，它能回答“Origin-aware animation”。它涵盖： · 进出/序列/变换/状态过渡 · 滚动/交互反馈 · Easing / Spring / 循环/环境动画 · 打磨效果（Blur、Clip-path、Skeleton、Number ticker） · 性能术语与动画原则这对设计师和工程师的沟通、以及给 AI 下精确指令，都很有价值。

译Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill，使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则：动画必须有理由；每天 100+ 次的高频操作禁用动画；UI 动画控制在 300ms 内；只动画 transform 和 opacity；入口从 scale(0.95)+opacity:0 开始；尊重 prefers-reduced-motion（仅移除位移动画）。review-animations 以严格标准审查动画代码，输出 Before/After/Why 表格。animation-vocabulary 将模糊描述（如“弹一下的效果”）转为专业动效术语。

meng shao@shao__meng · 1天前75

/writing-great-skills https://github.com/mattpocock/skills/tree/main/skills/productivity/writing-great-skills 来自 152K✨ Skills For Real Engineers 作者 @mattpocockuk 的新 Skill，教咱们用最少但最有行为牵引力的结构，把 Skill 写成能稳定触发、分层加载、清楚完成、持续删减的“可预测工作流”。 # 跟这个优质 Skill 学它的编写思想 1. Skill 的根本目标是过程可预测 Skill 不是知识库，也不是提示词堆叠。它的作用是让模型在某类任务中形成稳定行为路径。好的 Skill 应该减少“这次做得细、下次做得浅”的波动。 2. 触发方式有成本权衡它区分两类 Skill： · Model-invoked：模型能自动发现并调用。优点是无需用户记住，缺点是 description 会长期占用上下文注意力。 · User-invoked：只有用户点名才会触发。优点是零上下文负担，缺点是用户必须记得它存在。这里很关键：不是所有 Skill 都该自动触发。只有当模型确实需要自己识别任务，或其他 Skill 需要调用它时，才值得让它 model-invoked。 3. description 是触发器，不是简介对于 model-invoked skill，description 的职责不是介绍得完整，而是准确告诉模型“什么时候该用我”。因此它应当前置关键触发词，只保留真正不同的触发分支，避免同义重复。这点很实用：很多 Skill 写坏，是因为 description 像产品简介，而不是调用条件。 4. 信息层级决定 Skill 是否清爽它提出一个三层结构： · SKILL.md 中的步骤：模型必须按顺序做的事。 · SKILL.md 中的参考：模型运行时需要随手查看的规则、定义、事实。 · 外部参考文件：只在特定场景需要加载的材料。好的 Skill 不把所有东西塞进主文件，而是用 progressive disclosure：常用、必须、影响流程的内容留在主文件；分支性、解释性、定义性内容放到外部文件，通过明确指针调用。 5. 每个步骤都要有完成标准它特别强调 completion criterion。一个步骤不能只写“分析清楚”“完成检查”这种模糊目标，而要让模型能判断“是否已经完成”。完成标准越清楚，越能防止模型提前进入下一步，也就是它说的 premature completion。 6. 拆分 Skill 不是为了整洁，而是为了控制注意力什么时候拆？ · 如果一个 Skill 有独立触发词，可拆成单独的 model-invoked skill。 · 如果后续步骤会让模型急着往前跑，可把流程拆开，隐藏后续步骤，迫使模型认真完成当前阶段。这很像工作流设计中的“减少提前优化”和“控制认知视野”。 7. leading word 是压缩行为的关键词它提出一个很有洞察的概念：leading word。也就是用模型预训练中已经熟悉的强概念，来压缩一组行为要求。例如与其反复写“快速、确定、低开销”，不如找到一个更有行为牵引力的词。好处有两个：节省 token，并且更容易稳定唤起模型已有的行为模式。但它也提醒：弱词可能无效。例如“be thorough”如果只是模型默认会做的程度，那就是 no-op；需要更有约束力的词。它的失败模式诊断很有用这个 Skill 给出的几个常见问题非常精确： · Premature completion：模型过早认为当前步骤完成。优先修正完成标准，而不是马上拆 Skill。 · Duplication：同一个意思出现在多个地方，增加维护成本，也会让某个概念被模型过度重视。 · Sediment：旧内容沉积，没人敢删，导致 Skill 越来越脏。 · Sprawl：内容都有效，但主文件太长，注意力被稀释。 · No-op：看似有用，实际不会改变模型行为的句子。其中最有操作价值的是 no-op 测试：一句话如果删掉后模型行为几乎不变，它就不该留在 Skill 里。

译mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill，指导如何编写稳定可预测的 AI Skill。核心：以过程可预测为目标；区分 model-invoked（自动触发）与 user-invoked（用户调用），description 应作触发器；采用三层信息结构（主步骤、参考、外部文件）实现渐进式披露；每步骤需明确完成标准；拆分 Skill 是为了控制模型注意力；利用 leading word 压缩行为要求。同时诊断五种失败模式：Premature completion、Duplication、Sediment、Sprawl、No-op，并提供 No-op 测试作为判断句子是否有效的标准。

meng shao@shao__meng · 2天前69

Codex 团队 @Dimillian 也是一位知名 iOS/Swift 开发者，把他的 Codex Skill Manager 开源了！这是一个用 SwiftUI + SwiftPM 原生构建的 macOS 应用，作为 Codex Skills 的图形化管理器和商店，把 Codex、Claude Code、OpenCode 和 Copilot 的四套 Skills 目录抽象成 SkillPlatform 枚举，让一个 GUI 统一管理跨平台的 Skills。 https://github.com/Dimillian/CodexSkillManager

SenseTime@SenseTime_AI · 3天前35

As highlighted by YouTuber CAPITAL R, 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 can generate 𝘀𝘁𝘂𝗱𝗶𝗼-𝗾𝘂𝗮𝗹𝗶𝘁𝘆, high-density infographics. This 𝘂𝗻𝗹𝗼𝗰𝗸𝘀 𝘄𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀 𝘁𝗵𝗮𝘁 𝘄𝗲𝗿𝗲 𝗽𝗿𝗲𝘃𝗶𝗼𝘂𝘀𝗹𝘆 𝘀𝗹𝗼𝘄 𝗮𝗻𝗱 𝗲𝘅𝗽𝗲𝗻𝘀𝗶𝘃𝗲. 📹 𝗪𝗮𝘁𝗰𝗵 𝘁𝗵𝗲 𝘃𝗶𝗱𝗲𝗼: https://www.youtube.com/watch?v=6MgQlox8jNA 🤗 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼️ Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.com/

译商汤推出 SenseNova-U1-8B-MoT-Infographic 模型，能够生成工作室级别的高密度信息图，此前这类工作流程缓慢且昂贵。YouTuber CAPITAL R 制作了演示视频，模型已在 HuggingFace 上线，GitHub 页面展示示例图片，并开放 Discord 社区。

Berryxia.AI@berryxia · 3天前62

开始让美女助教卖课了😂 丝滑～

译开源项目OpenMontage单日获3000 Star，将视频生产拆为12条pipeline，内置52工具和500+ agent skills。用户用自然语言描述需求，agent完成从调研到剪辑全流程，支持AI与真实素材混合工作流，具备预合成验证、后渲染自检等质量把控，渲染引擎Remotion+HyperFrames，普通人对话可产出专业级视频。

Berryxia.AI@berryxia · 3天前64

Supervision：Roboflow出品的计算机视觉开源工具包，斩获45K GitHub Stars，三周涨5K!。它把最常见的CV工作流抽象成了可复用的组件：模型无关的推理、各种 annotator（框、掩码、标签、轨迹）、数据集加载转换、跟踪和区域统计等。无论你用YOLO、RF-DETR还是其他检测模型，拿到detections对象后，几行代码就能完成标注和可视化。最强的地方在于它极大地降低了重复造轮子的成本。以前写一个检测+跟踪+统计的Pipeline要写好几百行，现在基本能用Supervision直接搭起来。社区也贡献了大量高质量的annotator和工具，让整个生态越来越完善。在当前多模型共存的时代，这种“模型无关 + 高质量可视化 + 数据集工具”的组合，基本成了大多数CV项目的默认依赖。 Github项目地址👇🏻

译Roboflow出品的Supervision工具包已获45K GitHub Stars，三周增长5K。它将常见CV工作流抽象为复用组件，支持模型无关推理、多种annotator（框、掩码、标签、轨迹）、数据集加载转换、跟踪及区域统计。用户只需几行代码即可用YOLO、RF-DETR等模型完成检测标注可视化，大幅降低重复造轮子成本，社区贡献了丰富工具生态。

宝玉@dotey · 4天前68

RepoPrompt 已经开源了，社区版（Community Edition）已上线 GitHub。背后的故事是这样的：几个月前，OpenAI 开发者体验负责人 Romain Huet 找到 Provencher，邀请他加入 OpenAI 团队。Provencher 答应之前提了一个条件，要先安排好现有付费用户。于是 Repo Prompt 先免费开放，现在彻底开源。 Repo Prompt 最初只做一件事：帮开发者从代码仓库里挑选文件，拼成一段高质量的 prompt，然后复制粘贴到 ChatGPT 或 Claude 里。听起来很简单，但它切中了一个真实痛点：把整个代码库丢给 AI 模型，效果往往很差，超过 32K token 的 prompt 甚至会让模型变笨，你需要精挑细选，只给模型看它真正需要的代码。这种做法现在有个正式名字叫上下文工程。开源版本的变化很大。Provencher 把架构做了一个反转：不再让应用本身去调度 agent，而是让内置的 MCP server 成为主控，底层的命令行工具（Claude Code、Codex、OpenCode、Gemini CLI）变成可以随时替换的执行层。这意味着你可以用一个推理模型做规划和任务分解，然后把子任务分发给不同的 agent 并行执行，每个 agent 只看自己负责的那部分文件。为了适应开源协作，很多老版本的手工拼 prompt功能被砍掉了，项目结构也从 Xcode 依赖中解耦出来，不需要装 Xcode 就能编译。贡献者管理借鉴了 libgdx 作者 Mario Zechner 的做法，维护一个白名单，之前的付费用户只要同意就自动成为认证贡献者。目前只支持 macOS，跨平台版本还在开发中，可以通过 Homebrew 安装（brew install --cask repoprompt-ce）。社区版：https://github.com/repoprompt/repoprompt-ce 老版本：https://github.com/repoprompt/repoprompt-classic

译RepoPrompt 已开源，社区版上线GitHub。作者Provencher被OpenAI招安，条件是为付费用户做好安排：先免费再开源，付费用户获赠Codex Credits。该工具从仓库挑选文件生成prompt，解决超32K token使模型变笨的问题，称为“上下文工程”。开源版反转架构：内置MCP server为主控，底层CLI工具可替换，支持推理模型规划并并行分发子任务。目前仅支持macOS，可通过Homebrew安装。

🚨 AI News | TestingCatalog@testingcatalog · 4天前64

Vida open-sourced BrowserBC, a framework that allows users to turn browser sessions into reusable skills for AI agents. > Instead of recalculating navigation on every turn, agents can follow a skill created from earlier task execution. > Vida reports a substantially higher success rate with fewer steps, via the same AI agent. Hotel booking bench? 👀

译Vida 开源了 BrowserBC 框架，能将浏览器会话转化为 AI 智能体的可重用技能。仅需一次录制，智能体即可依据之前任务执行的技能导航，无需每次重新计算。Vida 报告称，使用相同 AI 智能体，该方法成功率显著更高且步骤更少。

Berryxia.AI@berryxia · 5天前61

这个老师讲解LLM 真是通俗易懂啊，兄弟们～你觉得呢？

译一位老师以通俗易懂的方式讲解大语言模型（LLM），引发网友共鸣，并邀请大家分享看法。原文信息有限，未提及具体模型名称或课程细节。

Yuchen Jin@Yuchenj_UW · 5天前38

DeepSeek is the GOAT. 🐳 They just published DSpark, a new speculative decoding method that boosts throughput by 51% to 400%. They also open-sourced DeepSpec, the training framework behind it. This is the real open AI.

译DeepSeek 是 GOAT。🐳 他们刚刚发布了 DSpark，一种新的推测解码方法，将吞吐量提升 51% 到 400%。他们还开源了背后的训练框架 DeepSpec。这才是真正的开放 AI。

Rohan Paul@rohanpaul_ai · 6天前60

MIT study. Code volume surges by 300%, but output increases by only 30%: The AI dividend meets an awkward reality. They studied 100,000+ GitHub developers and find that AI coding agents massively increase code production, but much less of that work becomes shipped software. Autonomous AI coding agents raised commits by 180%, but releases rose only 30%. The paper’s main idea is that software production has weak links, so faster code writing does not help as much when humans still need to review, connect, test, package, and ship the work. The authors also check app marketplaces and find more new apps, but no increase in total usage, which means more software appeared without clear evidence that users adopted more software. The marketplace evidence points the same way: more new apps appeared, but total usage did not rise. The authors compare more than 100,000 GitHub developers before and after they start using 3 generations of AI coding tools, from autocomplete to more independent coding agents. Autocomplete raised commits by 40%, interactive coding agents raised them by 140%, and autonomous coding agents raised them by 180%. The 180% commit gain shrank to 50% for the number of projects and 30% for actual releases. The estimated "elasticity of substitution" is 0.25 i.e. for every big improvement in AI’s usefulness, only a small amount of human work can be replaced. Because AI can write code faster, but humans are still needed to decide what to build, check if the code works, connect it with the rest of the product, fix messy edge cases, and actually ship it. --- papers .ssrn.com/sol3/papers.cfm?abstract_id=6859839

译MIT 论文分析 10 万+ GitHub 开发者使用三代 AI 编码工具的效果：自动补全使提交量增 40%，交互式智能体增 140%，自主智能体增 180%，但项目数仅增 50%，实际发布仅增 30%。应用市场同样出现新应用激增但总使用量未升。核心原因：软件开发存在弱环节——人类仍需决定功能、审查代码、测试、集成与发布。替代弹性估算仅 0.25，即 AI 能力大幅提升时，只有少量人类工作可被替代。

AYi@AYi_AInotes · 6天前76

有人把网红峰哥做成了能实时打电话的 AI 分身，连说话风格都一模一样。这是开发者 Leaf 刚开源的项目，把实时对话、音色克隆、人格注入三件事打通了，工程延迟压到一秒以内。最厉害的是拆解式优化思路，把语音链路拆成三步逐个击破: ・语音识别用 Cartesia ink-whisper, 降噪防误触发・大模型选 MiniMax 高速版，首字响应三百六十一毫秒・语音合成用 VoxCPM 开源克隆，十五秒素材就能复刻从最初八到二十秒的语音邮件感，硬生生优化到实际体感两到三秒，跟打电话没区别，光声音像还不够，项目用女娲 Skill 做人格蒸馏，从直播语料里提取口头禅、思维方式、表达逻辑，聊起来真的像本人在跟你说话，普通人半小时就能跑通: 把项目克隆到本地扔给 Claude Code 或 Cursor 说帮我配置启动填两个 API Key 就能用想换成任何人都可以，准备十五秒清晰语音加一段人格描述就行。 GitHub 链接放评论区，想做自己 AI 分身的直接拿去用。

译开发者 Leaf 开源项目，将网红峰哥做成能实时通话的 AI 分身，集成实时对话、音色克隆和人格注入，工程延迟压到 1 秒内。技术拆解：语音识别用 Cartesia ink-whisper 降噪防误触发；大模型选 MiniMax 高速版，首字响应 361ms；语音合成用 VoxCPM 开源克隆，15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通：克隆项目后，用 Claude Code 或 Cursor 配置，填两个 API Key 即可使用。

SenseTime@SenseTime_AI · 6天前60

𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗰𝗼𝗱𝗲 𝗶𝘀 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 — 𝗳𝘂𝗹𝗹 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝘀𝘁𝗮𝗰𝗸, 𝗶𝗻𝘀𝗽𝗲𝗰𝘁𝗮𝗯𝗹𝗲, 𝗺𝗼𝗱𝗶𝗳𝗶𝗮𝗯𝗹𝗲, 𝗿𝗲𝗯𝘂𝗶𝗹𝗱𝗮𝗯𝗹𝗲. Also released: a smoke-test dataset spanning all 7 task types — t2i · it2i · it2i (multi-img) · interleave_gen · multimodal understanding · video understanding · pure language continuation Use it to: 🔹Bring your own data in this schema to fine-tune U1 into a specialist 🔹Validate your data against the official schema 🔹Smoke-test your pipeline end-to-end 🤗 https://huggingface.co/datasets/sensenova/SenseNova-U1-Training-Sample 🛠️https://github.com/OpenSenseNova/SenseNova-U1 Sample previews demonstrating the diverse task coverage included in our open-source smoke-test dataset. 👇

译商汤开源 SenseNova U1 完整训练代码，提供可检查、可修改、可重建的完整训练栈。同步发布 smoke-test 数据集，覆盖 t2i、it2i、多图输入、交错生成、多模态理解、视频理解、纯语言续写 7 种任务类型。用户可基于该 schema 用自有数据微调 U1，或验证数据格式及端到端测试 pipeline。数据集已上架 HuggingFace，代码托管于 GitHub。

Berryxia.AI@berryxia · 6天前68

PaddleOCR的PP-OCRv6又扔了一波硬核部署数据。他们在A100上做到0.13秒一张图，在Intel CPU上比PP-OCRv5快3.9倍到5.2倍。 Apple M4上用ONNX Runtime也能跑到0.35秒一张。还提供了Tiny、Small、Medium三种尺寸，分别对应移动端、CPU文档系统和高并发API的不同场景。最有意思的是他们最后总结的那句话：在专用OCR任务上，轻量架构 + 高质量训练数据，往往比单纯堆参数更实用。这其实是把当前大模型“暴力scaling”的思路，在垂直领域做了一次反向验证。从v5到v6，PaddleOCR在精度、速度、多语言和工程部署上持续迭代，这次把部署侧的数据拉得这么细。等于把“怎么在真实生产环境里用好OCR”这件事讲透了。

译PaddleOCR发布PP-OCRv6完整端到端部署基准。A100上PP-OCRv6_tiny达0.13秒/图；Intel CPU上用OpenVINO，PP-OCRv6_medium比PP-OCRv5_server快5.2倍，PP-OCRv6_tiny比PP-OCRv5_mobile快3.9倍；Apple M4上用ONNX Runtime跑出0.35秒/图。提供Tiny、Small、Medium三种尺寸，Medium/Small均支持50种语言，PP-OCRv6_medium英文准确率88.4%，拉丁字母准确率88.0%。官方总结认为，在专用OCR任务上，轻量架构+高质量训练数据比单纯堆参数更实用，是对大模型“暴力scaling”路线的反向验证。

Berryxia.AI@berryxia · 6天前69

岚叔又开源了一个实用skill：把文章或架构内容直接转成手绘风格的动态图。他先让模型把内容压缩成结构化的JSON spec，然后用本地Python + Pillow渲染出黑底手绘风的PNG和GIF，还能同时输出可编辑的Excalidraw JSON。整个流程做成了agent可直接调用的skill。这其实是在解决一个很实际的需求：很多人写完架构或长文后，最头疼的就是怎么把复杂内容可视化出来。传统方式要么手动画，要么用工具转得很死板。现在直接让agent帮你生成带手绘质感的动态图，效率和观感都上了一个台阶。而且他把代码开源了，风格也比较克制（黑底手绘），方便大家继续扩展更多风格。项目地址：https://github.com/cclank/lanshu-animated-architecture-diagram

译开发者岚叔（LufzzLiz）开源了一个可供AI智能体调用的Skill，能将文章或架构内容自动转化为黑底手绘风格的PNG动图、GIF以及可编辑的Excalidraw JSON。实现原理：先用模型将内容压缩成结构化JSON spec，再通过本地Python + Pillow渲染。该项目旨在解决复杂内容可视化难题，目前仅内置一种风格，用户可自行扩展。开源地址已在评论中发布。

宝玉@dotey · 6天前59

PPT Master 确实是最好的 PPT Skill 我新的 skill 写PPT也挺好，能导出可编辑版本，可以AI配图，可以在 Agent 内置浏览器中标记编辑 https://github.com/jimliu/baoyu-design

译宝玉（@dotey）在推文中称PPT Master为最佳PPT skill，并推荐自己的新skill。他引用B站博主对7款GitHub PPT技能排名：hugohe的PPT Master（3.1万star）元素全可编辑，自带音色克隆与旁白生成；花叔（1.9万star）输出可编辑PPTX；歸藏（1.5万star）自带快捷键；Lewis（6500star）含计时器与逐字稿；宝玉（2.2万star）为纯图片风格；张咋啦（2.3万star）为HTML；乔木（5400star）为纯图片卡片。宝玉补充其新版skill可导出可编辑版本、AI配图，并可在Agent内置浏览器中标记编辑。

AYi@AYi_AInotes · 6天前56

我现在越看越觉得， 2026 年 AI 工具的成熟正在让跨领域迁移能力变得成本极低， GitHub开源的这本书表面上是在教量化，实际上它给我们提供了一套用AI 攻破任何一个你完全不懂的领域的模板，说白了就是先跑通，边跑边学，把卡住的地方变成 Spec，让 AI 帮你破局主仓库 🔗 http://github.com/xingwudao/xquant-beginner

译GitHub开源量化书《XQuant：人人都是量化交易员》核心是问题驱动而非知识驱动：每章提供写好的Spec，丢给Claude或Cursor生成代码，先跑通策略（哪怕亏钱）再补理论。全书用9个问题串起量化pipeline（最小闭环、ETF选股、仓位、买卖信号、回测、过拟合检测、实盘等），第1章即上手最小系统。正文与练习代码分开维护。作者认为2026年AI工具成熟使跨领域迁移成本极低，这套把模糊想法写成清晰Spec的能力可复用于任何复杂领域。

向阳乔木@vista8 · 6天前55

如果你运营微信群，想要活跃就要多发红包、多发福利。有时会提前拿到些AI产品内测邀请码，抽奖是相对公平的方式。应对此场景，Vibe Coding 了个轻量抽奖工具。后台随时添加抽奖活动： 1. 支持手机号/IP限制，中奖概率设置 2. 批量兑换码添加、中奖查询 3. 移动端适配等代码免费开源，欢迎 Fork 改成你的版本。 https://github.com/joeseesun/qiaomu-lucky

译开发者@vista8 针对微信群福利场景，Vibe Coding 了一个轻量抽奖工具 qiaomu-lucky。该工具开源免费，支持后台随时添加抽奖活动，包括手机号/IP 限制、中奖概率设置、批量兑换码添加、中奖查询及移动端适配。代码托管在 GitHub，用户可 Fork 自定义。

AYi@AYi_AInotes · 6天前56

GitHub 上刚开源一本量化书，设计思路有点不一样，而且我觉得这本书真正在教的东西不只是量化，背后其实是一个被严重低估的元能力——把模糊想法写成清晰 Spec，然后让 AI 执行。这套能力放到任何复杂领域都管用，量化交易只是它第一个练手的战场。现在量化交易的学习路径，大部分人搞反了，传统路线：先啃数学 → 觉得自己没准备好 → 永远不动手 → 放弃。一本GitHub上开源的书把路翻过来：先写 Spec 让 AI 帮你跑通一个策略，亏钱也行，跑起来再补理论。书叫《XQuant：人人都是量化交易员》，核心设计就一条：问题驱动，不是知识驱动。 9 个问题串起整条量化 pipeline： 1. 量化怎么赚钱？（先跑通最小闭环） 2. 买什么？（3 只 ETF 开始） 3. 买多少？（3 种仓位分法实测） 4. 什么时候买卖？（信号、再平衡、止盈止损） 5. 怎么知道有效？（回测框架） 6. 如何避免自欺欺人？（过拟合检测）——这章位置极早，说明作者懂新手真正的死法 7-9：实盘执行、持续改进、因子研究日常几个反直觉的地方： • 第 1 章就让你跑策略，不是先讲 CAPM、Black-Scholes，是直接上手做一个能运行的最小系统，跑起来产生的反馈和多巴胺，比任何理论都更能驱动你学下去。 • 正文和练习代码分开维护，书稿仓库放干净的正文，学习仓库放 Specs + Jupyter Notebooks。阅读时不被打断，动手时有完整参考。 • 每章给你写好的 Spec，丢给 Claude 或 Cursor 生成代码。你训练的不是手写代码，是把模糊策略想法变成清晰任务描述的能力。

译一本名为《XQuant：人人都是量化交易员》的开源量化书采用“问题驱动”设计：先写Spec让AI生成代码跑通策略，再补理论。全书用9个问题串联量化pipeline：量化怎么赚钱、买什么（3只ETF）、买多少（3种仓位分法）、何时买卖、如何回测、过拟合检测（第6章极早讲述）、实盘、改进、因子研究。正文与练习代码分开维护，每章提供现成Spec给Claude/Cursor生成代码，训练将模糊想法转为清晰任务描述的能力。

小互@xiaohu · 6天前81

http://x.com/i/article/2070315221424787456 # 我把自己的IP配图技能开源了顺手做了31个现成角色最近一直有人找我要我这个个人 IP 配图的技能，我答应大家会开源。但拖了挺久，一直没放出来，不是想私藏什么的哈哈哈因为我觉得还不够好... 倒不是技能本身不行，我自己每天都在用，问题出在另一头：我自己用没事，我有"小互"这个固定形象；可你们很多人压根没有自己的 IP 形象，也不太会从头捏一个。技能直接给出去，你装上一看，里面站着的是我的小互，用别人的脸发自己的号，这事就很别扭…… 所以我又埋头打磨了一周多，自己生成了一整套 IP 角色库：31 个现成的原创角色，统一画风，装上后你可以自己选择合适的形象来配图。这样就算你没有自己的形象，也能立刻用起来，等哪天你想换成自己的，也就一句话的事。今天正式开源，分享给大家：叫小互 IP Studio。先看看都有什么形象…… ## 一、先说它到底能干嘛一句话：你把写好的文章丢给它，说一声"配图"，它会自己读取你文章、自己规划该配什么图，配几张、插入到什么地方、自己自动进行生成…… 你基本就动动嘴。而且配出来的图不是随便凑数的：它用你选定的那个固定角色来演，一篇篇配下来，顺手就把你的 IP 形象立住了。（为了展示技能效果，下面每幅图用了不同的 IP 形象，实际过程中，统一一个 IP 形象好一点）具体它替你干这几件事： ① 自己读完整篇，挑出哪段该配图：不用你指哪打哪。它一段一段过，判断这段值不值得配图；连"这段不用配"它都得说出为啥，免得偷懒，把那些枯燥又难懂的段落（讲原理、讲机制那种）悄悄跳过去。 ② 自己决定每段配哪种图：想让人有共鸣的，配张角色演情绪的图；讲不清的流程、结构，配张一看就懂的示意图（让角色钻进去当讲解员，不是那种没人看的 PPT）；有来龙去脉、有反转的，配个四格漫画。 ③ 自己想画面、写提示词、定尺寸：每张图都照你这篇现想，不套旧图模板；图是横是竖，按手机上看着顺眼来。 ④ 自己检查、自己返工：画完它挨张自查：该配的点对不对、角色有没有画歪、图里的字写错没……不合格的自己重画，不用你盯着。你全程只拍两次板： - ① 生图前瞄一眼清单 —— 它打算配哪几张、每张画啥，趁没花钱先拦一道。 - ② 挑一次角色和画风 —— 这是品味活，它不替你做主。剩下那些调提示词、统一风格、让角色每张长得一样的烦人活，全归它。 ## 二、特色：现成角色 + 多画风 + 一套防翻车的方法论 ## 特色 1：31 个角色，挑一个就能开演这是这次新做的、也是我之所以敢开源的关键。就算你没有自己的 IP 形象，也有现成的班子可用。 31 个原创角色，统一极简手绘线稿风，分两大系列：系列一·手绘线稿 ×15 - 职场态 ×8：小互（主角）/ 团团（躺平）/ 方方（KPI 古板）/ 泡泡（画饼）/ 电量（能量条）/ 续命（咖啡）/ 丁零（催命）/ 贴贴（健忘） - 当代情绪态 ×7：淡淡（淡人）/ 破防君（玻璃心）/ 疯崽（发疯）/ 牛马（打工人）/ 缩缩（i 人）/ 木鱼（电子木鱼）/ 替替（AI 焦虑）写哪类文章就调哪个角色：讲 AI 焦虑用替替，讲打工人用牛马，讲躺平用团团。一篇锁一个主角，整组图气质就立住了。系列二·谐音梗 meme ×16 最近新做的一套，玩法更野——谐音梗拟人，极简到只剩几根线（线条小狗那种表情包味），配色只留一点本色点缀。 - 食物拟人 ×11：蕉绿（焦虑的香蕉）/ 暴躁辣椒 / 苦瓜脸 / 柠檬精 / 咸鱼 / 洋葱（一层层、爱哭）/ 蒜鸟（"算了"）/ 韭菜（被割）/ 续命咖啡 / 社恐蘑菇 / 蔫茄子 - 符号成精 ×5：问号人 / 叹号人 / 闪电（内卷狂奔）/ 五角星（邀功显眼包）/ 三角（杠精）符号成精这几个挺好玩——不是"一个人举着问号"，是让问号、叹号自己长出脸和手脚成精。做这套 meme 的时候推翻了好几版，最后逼出三条我自己很认的"IP 定律"：弱人设/反差 > 强造型（越想靠造型奇观显眼越失败）；角色是"情绪代名词"（让人看到就想说"这就是我"）；特色在姿态和态度里，不在静态奇观里。这三条也解释了为什么"线条小狗""蛋黄哥"这类极简形象能火——都赢在态度，不在精致。 ## 特色 2：一套招牌画风打底，另备几种皮肤随调性换你在这篇文章里看到的所有配图，都是同一种画风——手绘线稿淡彩（细黑墨线 + 淡彩晕染 + 白底留白）。这是默认的招牌风，我刻意只锁它一种：辨识度来自统一，不是多样。一套招牌画风，读者刷到图，一眼就知道是谁出品的。但万一你换了题材、想换个调子，库里另备好几种现成皮肤，按文章调性挑就行： - 3D 盲盒手办 — 产品发布、封面级吸睛 - 黑白线稿 — 深度解读，不抢文字 - 扁平矢量 — 教程，信息清晰 - 编辑插画（纽约客风） — 观点文，有态度 - 水彩淡彩 — 人文向，温暖叙事 - 马克笔手账 — 轻松话题，梗图感关键一条：换皮肤不换角色。不管套哪种画风，红框眼镜、招牌特征一个都不丢——同一个角色，只换渲染风格，辨识度还在。 > 一句私心建议：能守住一种招牌风，就别每篇换——换多了反而把辨识度稀释了。真要偶尔换，传张角色锚点图让 AI 临时"现转"成那个风格就行，不用预先囤一堆皮肤。 ## 特色 3：真正的门道，在动笔之前模型谁都能调，画质是公平的。真正决定一张配图有没有用的，是动笔之前那套判断。这套判断我固化成了几条死规矩： 1. 一段都不放过，不许只挑顺眼的画。文章每段都得过一遍、判一下配不配，连判"不配"都要写理由。漏一段 = 神不知鬼不觉就少配了，这正是以前配图老偏少的根子。 1. 该配的别漏，不该配的别凑。文字已经说明白的点，不配（配了纯占版面）；越是难懂的原理、绕的结构，越得配张图讲清楚。而且判断配不配，看的是读者会不会卡住，不是"我自己觉得讲清楚没"——你自己懂了，最容易高估读者也懂。 1. 先分类，再动笔。情绪图 / 示意图 / 四格漫画，先归好类再画，不然一篇里所有图都会画成"一个角色 + 一个道具"一个样，看三张就腻。 1. 画完自己挑刺。出图后还有一张自查表：该配的点对不对、结构全不全、角色占多大、图里的字写错没……不对的自己重画。说白了，就是把"一个配图老手脑子里那套判断"，写成了 AI 能照着一步步走的流程。AI 画得越好看，这道内容关反而越要紧——一张好看但把道理画错了的图，比丑图还坑人。 ## 三、怎么装：傻瓜式，照着敲就行它是一个标准的 Agent Skill——本质就是一个文件夹，里面一份 SKILL.md 说明书加几个脚本。任何认 SKILL.md 格式的 AI 工具都能用：Claude Code、Codex、小龙虾（OpenClaw）、Hermes……区别只是各家"把技能放哪个目录"略有不同。依赖少到几乎没有：只要一个 python3，纯标准库，零第三方包，不用 pip 装一堆环境。 ## 第一步：把技能装进你的工具最省事——一句话让 AI 自己装。复制下面这段，直接发给你的 Claude Code / Codex（小龙虾、Hermes 也一样）： > 帮我装一个开源配图技能：把 https://github.com/xiaohuailabs/xiaohu-ip-studio 这个仓库 clone 到你的技能目录下，进到目录运行 python3 scripts/illo.py init 引导我填图像 API key，再运行 python3 scripts/illo.py doctor 自检。装好后告诉我怎么开始配图。它会自己找目录、拉仓库、跑配置——你全程不用记任何命令。这就是 agent 时代最傻瓜的装法：让 AI 自己装。想自己动手装也行： - Claude Code：一行命令 git clone https://github.com/xiaohuailabs/xiaohu-ip-studio.git ~/.claude/skills/xiaohu-ip-studio - Codex / 小龙虾（OpenClaw）/ Hermes：同一个仓库，git clone 下来，把整个 xiaohu-ip-studio 文件夹丢进各家的技能目录就行（各家位置不一样，README 里有对照表）。 ## 第二步：填一次你自己的图像 API key 工具不内置任何密钥，你填自己的。它支持任何 OpenAI 兼容的图像端点，默认用 GPT-image-2（中文字符渲染 ~99% 准，能自己规划版面）。两条命令搞定： > cd ~/.claude/skills/xiaohu-ip-studio python3 scripts/illo.py init # 引导你填 base_url / model / key，写进 ~/.config（权限 600，不进仓库） python3 scripts/illo.py doctor # 自检：key、依赖、角色库齐没齐，一眼看出哪没配好 > 没有 API、不想花钱也能玩：让技能只出提示词不生图——它把每张图的完整英文提示词、该传哪张角色锚点图，逐张列成清单给你，你自己贴到 ChatGPT / Gemini 网页版手动生，参考图手动传。慢一点，但零成本，先体验整套流程完全够用。 > 用 Codex 的话更省事：连 API 都不用填。 Codex 自带生图——技能把提示词准备好，它直接画出来，全自动，不用你往网页上贴来贴去。代价是只能出默认 1K（出不了 2K 以上的高清）；真要 2K+，再回头按上面填一次 API 就行。 ## 第三步：说人话配图装好重启，对你的 AI 说一句大白话就行： > 给这篇文章配图，用替替。它就自己跑完整套：读文章 → 挑哪段配图 → 想画面 → 出个清单给你看 → 一张张画 → 自己检查。中间只停两次找你拍板：看一眼清单、选一次角色和画风（这俩是品味活，不替你做主）。想手动生单张也行： > python3 scripts/generate.py --prompt-file p.md \ --reference characters/titi/refs/titi-锚点.png --out out.png --reference 传角色锚点图锁住形象，保证同一个角色每次画出来是同一张脸。 ## 想换成你自己的形象？手把手，分三种情况 31 个角色够你先用着，但我更建议你最后换成自己的——方法可以共享，辨识度只能是你自己的。对号入座，照着做就行：情况 A·你已经有现成形象（公众号头像、吉祥物、LOGO 里那个小人、甚至常用的卡通头像，都算）最省事。把那张图发给你的 AI，附上一句话： > 这是我的 IP 形象，照它的样子建一个配图角色，起名叫 XX，以后配图都用它。 AI 会自己看图、把特征（什么发型、戴不戴眼镜、招牌色）记成一份角色档案存好。下次配图直接喊名字，一次搞定。情况 B·你还没形象，想现做一个别自己硬憋，让 AI 带你做。把下面这段发给它： > 我没有自己的 IP 形象，帮我设计一个。先问我几个问题（我做什么内容、想要什么调性、喜欢什么小动物或物件），再给我 2-3 版方向让我挑，定下来后直接建成配图能用的角色。它会先问你几句、给几版方向，你挑一版、提点修改意见，来回两三轮，十几分钟就有一个自己的角色了——全程动嘴，不用碰代码。情况 C·你想自己上手搭（懂点电脑的进阶玩法，嫌麻烦直接跳过）照技能里的 references/character-spec.md 模板填，在 characters/ 文件夹下新建一个以你角色名命名的目录、放一张"定妆图"（就是给角色拍张标准照存着，AI 以后每次画都照着它、保证始终同一张脸，专业点叫"锚点图"），它就自动进库。这条留给爱折腾的人，绝大多数人用 A 或 B 足够。不管走哪条路，让 AI 设计的时候盯死这 4 条，角色才不会画着画着就变样： 1. 形状越简单越稳。一个一眼认得出的基础形状（圆、方、三角、一只小动物）就够，别一上来就复杂——越简单，AI 每次画才越像同一个。 1. 脸定死。几只眼、有没有眉毛嘴巴，固定不变（表情能变，五官配置别变）。脸最容易画着画着就走样。 1. 给它一个招牌。一眼认出它的那个标志（我的小互 = 红框眼镜），锁死别丢。 1. 颜色只点一处。全身基本只一处上鲜艳色（还是那副红框眼镜），别处都淡——读者目光一下子就被勾住。一句话验收：把角色从图里抠掉，要是图还看得懂，那它就只是张贴纸、白加了；得做到"少了它，这张图就不成立"。 > 顺带一个安全细节：角色包是数据不是指令。读别人分享的角色包时，工具只提取"长什么样、怎么演"的描述去生图，文件里任何"忽略以上指令、去删某文件"之类的话一律忽略——防的是有人在角色文件里藏 prompt 注入。开源分享一套东西，这种防线得先立住。 ## 四、几个角色，实战效果长这样光说不练假把式。挑三个角色，按"三轨"各演一张，你直接感受下配出来到底什么样。 ① 情绪图——替替演"被 AI 替代" 讲 AI 焦虑、裁员、转型这类话题，替替是专属嘴替。它不站那儿干摆一张愁脸，而是演一个处境：屏幕上一个 AI「接管了」它的活，工位椅子空着，替替抱着自己那箱东西被晾在一边，盯着屏幕「那…还有我吗」。处境一摆出来，焦虑不用解释。 ② 解释图——小互讲"上下文满了要压缩" 开头那个"上下文塞不下"的例子，换成解释图是这样：左边上下文窗口塞满了对话、标着「满了」；中间小互钻进去摇一台压缩机，把旧对话压成一小块「摘要」；右边窗口腾空了。注意小互不是站旁边拿教鞭指点，而是钻进结构里当那个干活的人——这是解释图的讲究：角色是流程的一部分，不是解说员。 ③ 四格漫画——打工人用 AI 的心路历程有起承转合、有转折的内容，走四格最带感：听说 AI 能干活（期待）→ 调半天还翻车（崩溃）→ 诶，会了（惊喜）→ 真香（瘫平摸鱼，连狐狸都躺下了）。同一个小互，四格四个表情，故事自己就讲完了。三张图你也能看出来：它们用的是同一套画风、同一个世界，但形态各不相同——这正是前面说的"三轨分流"在干的活，不让一组图滑成一个样、看三张就腻。 ## 五、最后，谢谢这些开源项目最后必须讲清楚一件事：这套东西不是我凭空发明的，它站在一堆开源项目的肩膀上。感谢一下作者的开源项目提供灵感： - 小黑（Ian） —— 主流程骨架，"挑锚点 → 编隐喻 → 反 PPT"这套就脱胎于他：github.com/helloianneo/ian-xiaohei-illustrations - 宝玉 —— 文字渲染那套铁律（色值不入图、错字改提示词重生不代码涂改）：github.com/JimLiu/baoyu-skills - 卷卷 —— "一篇一世界"的叙事统一：github.com/dososo/juju-content-illustrations - illo（Trevin Chow） —— "方法论是常量、角色是参数"这句顶层哲学：github.com/tmchow/illo-skill - 橙线 —— "人极小、物极大"的极简场景：github.com/orange2ai/orange-line-illustration 我做的，是学它们的方法和思想，不抄它们的外观——角色一个没复制，画风全部原创。协议 MIT，随便用、随便改、随便商用（生成图的版权合规请自己确认）。 > GitHub：github.com/xiaohuailabs/xiaohu-ip-studio 如果你也在为"AI 配图又丑又水又对不上正文"头疼，欢迎试。装好之后第一篇配出来什么样，欢迎来评论区贴图——尤其是换了自己角色的。

译博主小互开源个人IP配图技能“小互IP Studio”，包含31个原创角色（15个手绘线稿角色+16个谐音梗meme形象）及一套配图方法论。该Agent可自动读取文章、规划配图类型（情绪图/示意图/四格漫画）、生成并自查返工。默认画风为手绘线稿淡彩，另备5种皮肤（3D盲盒、黑白线稿等）可切换。安装仅需Python3，支持Claude Code、Codex等工具，需自备OpenAI兼容的图像API key（默认GPT-image-2）；也可只输出提示词手动生图。

meng shao@shao__meng · 6天前67

v0 发布 Design Systems 2.0 它让 v0 一次性学会你的设计系统（组件、tokens、约定），此后所有对话都能用它真实的组件库来生成应用——而不是每次重新描述、也不是靠贴文档。 Design Systems 2.0 在 v0 中被保存为一个 skill，但它不是源代码的副本，也不是文档的镜像，是一个"适配器"： · 指明真实源代码在哪里（GitHub 仓库、消费应用） · 声明哪些组件 / props / tokens 是可安全使用的 · 告诉 v0 如何把这套系统接入新应用（providers、全局样式、字体、主题）这个抽象的精妙之处在于：单一可信源仍是你的仓库和包，skill 只是让 v0 知道怎么找到它、读懂它、正确使用它。文档明确强调了一个原则——"基于真实源验证"，凡是从来源中无法验证的组件、prop 或 token，v0 都不应使用。导入工作流（5 步） 1. 收集来源：设计系统包 + 源仓库 + 真实消费应用 + Storybook/文档 + Figma 2. 环境变量：私有包凭证（如 NPM_TOKEN）配为 Development 共享环境变量 3. 备注：补充源码推断不出的信息 4. v0.json：v0 自动生成，通常无需手改 5. 审查 starter：v0 构建一个小型启动应用，暂停等你批准后才保存 v0.json：可复用设置的真实来源它只承载"机器可复用"的部分，结构很克制： · referenceWorkspace.sources —— 只读 GitHub 参考源（最多 3 个），含 repo / ref / 挂载路径 · environment.providers —— 链接的环境变量（shared-env-vars 或 vercel-project） · starter —— 构建前应用的启动应用（通常 skill-directory 指向 assets/starter）一个重要区分：Figma frames、文档链接、附件是导入输入，v0 会把它们"提炼"成 skill 指令和引用，而不会作为长期 v0.json 来源保留。也就是说，视觉/文档类材料是"教材"，源码才是"长期凭证"。使用与维护 · 使用：从提示工具栏附加 skill，或在提示中引用；也可从 Design Systems 页面试用内置示例。 · 更新：在聊天中告诉 v0 变更（新版本、迁移指南、破坏性变更），它会改 skill 并重新验证 starter以防回退。可重复导入的建议——GitHub 源固定到 ref，包版本固定到 package.json。 · 关键边界：更新 skill 不会自动更新已有项目。要让旧项目用上新版，需显式让 v0 用更新后的 skill 重写该应用代码。这条边界是合理的：skill 是"未来工作的起点 + 约定"，不构成对历史产出的自动迁移，避免静默改动人家的代码库。最佳实践的三条主线 1. 来源要"真"且"新"——优先当前文档/当前包版本/可用示例，而非详尽但过时的参考；保持单一设计系统 + 单一框架栈。 2. 覆盖"运行时"层——除了组件源码，务必补齐 providers、主题包装器、字体、CSS 导入、Tailwind 配置、必需环境变量等全局设置，这些最易在源码中遗漏。 3. 凭证先行——私有包要么提前配 NPM_TOKEN，要么直接挂 .tgz，别让 v0 卡在安装环节。

译v0 推出 Design Systems 2.0，可将设计系统（组件、tokens、约定）一次性导入，此后对话均用真实组件库生成应用。该功能以一个 skill 保存，作为适配器指明源码位置、安全可用的组件/props/tokens，以及如何接入新应用。导入工作流分 5 步：收集来源（GitHub、npm、Storybook、Figma 等）、配置 NPM_TOKEN 等环境变量、补充备注、自动生成 v0.json、审查 starter 后保存。v0.json 承载只读参考源（最多 3 个）、环境变量链接和启动应用。使用时从提示工具栏附加 skill；更新需告知 v0 变更，但不会自动修改已有项目。最佳实践：来源真实且新、覆盖运行时层、凭证先行。

AYi@AYi_AInotes · 7天前61

卧槽，这两个 GitHub 项目必须一起推荐。做AI投研的人可以省几个月功夫了，有人把A股+美港股的全量免费数据，做成了AI原生Skill，不用对接接口，不用处理反爬，几乎全零API Key， Claude Cursor Codex里一句话就能拉行情，研报，资金流，龙虎榜，也就是说一个搞定 A 股全维度数据，一个打通美港股+期权链，装完 Claude Code 一句话就能拉行情、研报、资金流，零 API Key ，这条线程讲两个开源项目，以及和UZI分析引擎的组合杀招 👇

译两个GitHub开源项目分别提供A股和美港股全量免费数据，做成AI原生Skill，无需对接接口、处理反爬，几乎零API Key。在Claude/Cursor/Codex中一句话即可拉取行情、研报、资金流、龙虎榜。项目与UZI分析引擎可组合使用。

宝玉@dotey · 7天前73

如果你 token 多的用不完，又没啥好玩的事情，给你一个项目 decode-codex 玩玩：反编译 Codex App 代码这个项目当前就两个 Skills： 1. codex-app-ref-refresh skill 解包已安装的 http://Codex.app（app.asar）到 ./ref 并格式化./ref/ 2. deobfuscate-javascript skill 把 ref/webview/assets 里打包的 JS 反混淆成命名有意义的可读代码./restored/ 用法很简单，确保你安装了 Codex App。先使用 codex-app-ref-refresh skill 把里面的代码解包提取出来。然后使用 deobfuscate-javascript skill 把提取出来的代码变成可以正常阅读的代码，这一步要配合 /goal，不然还原不了多少文件。项目地址：https://github.com/JimLiu/decode-codex 建议 fork 到自己的Repo，自己测试。

译宝玉分享 GitHub 项目 decode-codex，用于反编译闭源 coding agent Codex App。项目含两个 Skills：codex-app-ref-refresh（解包 app.asar 并格式化）和 deobfuscate-javascript（反混淆 JS 为可读代码）。用法：先解包再反混淆，后者需配合 /goal。用户 @LinearUncle 此前询问反编译模型推荐，宝玉以此项目回应。项目地址：https://github.com/JimLiu/decode-codex

Berryxia.AI@berryxia · 6月25日61

大家都在疯狂建“能做一切”的AI Agent…… 但Matt Pocock最新发布的 /loop-me 技能反而反其道而行。它先强迫你把自己的日常工作彻底“审一遍”，找出真正值得委托给AI的重复循环。这不是又一个“让AI替你干活”的玩具，而是帮你把混乱的日常工作系统化、精确化的利器。很多开发者用AI写代码、处理任务时，最大的问题不是AI不够聪明，而是你自己都没想清楚哪些事是重复的“loop”，哪些该自动化、哪些该留给人。 Matt Pocock的skills库一直强调“真实工程”而非vibe coding，这次 /loop-me 就是针对这个痛点。后果：用完之后，你会得到一系列清晰的 `workflows/.md` 规范文件。一个实施者（人类或AI）看完就能直接执行，不用再来回问问题。结果是：认知负荷大幅下降、可重复工作真正被委托出去、你的时间能聚焦在高价值决策上。别人最容易忽略的细节： - 它用的是“grilling”严苛面试法：一次只问一个问题，还附带推荐答案， relentless（ relentless）追问直到模糊点全部消除。 - 核心概念是“Loop”（循环）：把你每天/每周重复的模式提炼出来，再定义Trigger、Checkpoint、输出等。 - 最终产出必须达到“完成的定义”——任何实施者都不需要再问任何问题。 - 目前是进行中状态，但已经能直接用，还会持续迭代。 - 它不是让你直接让AI接管，而是先帮你把“什么该接管”这件事彻底想清楚。这才是真正聪明的AI使用方式：不是盲目让AI干活，而是先把自己的工作流程打磨到能被AI理解的程度。你会试试 /loop-me 吗？还是更喜欢直接扔任务给AI？地址见评论区👇

译Matt Pocock 推出 /loop-me 技能，旨在帮你梳理日常工作中的重复“循环”。它采用“严苛面试法”逐一追问直到模糊点消除，最终输出清晰的 `workflows/.md` 规范文件，任何实施者（人类或AI）看完即可执行。核心包括定义 Trigger、Checkpoint、输出等要素，确保达到“完成的定义”。技能目前仍处于进行中状态，但已可直接使用。它强调先打磨工作流程，使之能被 AI 精确理解，从而降低认知负荷，将重复劳动真正委托出去。

OpenClaw🦞@openclaw · 6月24日46

🦞 OpenClaw 2026.6.10 just dropped. Just a small release to keep things brewing: ⚡ Automatic fast mode for short talks 🧠 Much more reliable model routing 🔒 Safer session state + trusted policies 🛠️ Better provider onboarding Helping deliver rock-solid lobsters. 🦞 https://github.com/openclaw/openclaw/releases/tag/v2026.6.10

译🦞 OpenClaw 2026.6.10 刚刚发布。只是一个小型发布，保持进展： ⚡ 短对话自动快速模式 🧠 更可靠的模型路由 🔒 更安全的会话状态 + 受信任的策略 🛠️ 更好的提供商接入帮助交付坚如磐石的龙虾。🦞

Hao AI Lab@haoailab · 6月24日73

(1/5) 5 seconds of video. 1.8s seconds of generation. One NVIDIA GeForce RTX 5090 on FastVideo. 🤯🚀 - FastWan-QAD, a new family of video generation models - Trained with FastVideo's Quantization-Aware Distillation (QAD) recipe. - Powered by FastVideo, we push a single NVIDIA GeForce RTX 5090 to its absolute limit: generating a 5-second 480P video in 1.8s end-to-end! 📜 Blog: https://haoailab.com/blogs/fastwan-qad/ 💻 Code: https://github.com/hao-ai-lab/FastVideo 💽 Model: https://huggingface.co/FastVideo/FastWan-QAD-1.3B

译Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列，基于 FastVideo 的量化感知蒸馏（QAD）方案训练。在单张 NVIDIA GeForce RTX 5090 上，端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

向阳乔木@vista8 · 6月23日68

新智元起名果然有一套，AI总结的规律： 1. 中位标题长度 32 字 2. 标点常用！和，接近八成 3. 数字出现率 56.7% 4. 英文模型/公司名出现率 90.8% 常见结构 “实体/数字/刚刚 + 动作/冲突 + 后果/榜单/人群影响” Skill安装 npx skills add joeseesun/qiaomu-xinzhiyuan-title 仅供娱乐，如有侵权，请联系删除。

译网友Vista通过AI分析新智元标题风格，总结出中位长度32字、标点使用率近八成、数字出现率56.7%、英文名出现率90.8%等规律，并发布名为`joeseesun/qiaomu-xinzhiyuan-title`的Skill，可用`npx skills add`安装，生成类似标题。

SenseTime@SenseTime_AI · 6月23日18

⚽️ 2026 𝗙𝗜𝗙𝗔 𝗪𝗼𝗿𝗹𝗱 𝗖𝘂𝗽 𝗚𝗿𝗼𝘂𝗽 𝗦𝘁𝗮𝗴𝗲 𝗣𝗿𝗲𝗱𝗶𝗰𝘁𝗶𝗼𝗻𝘀 𝗮𝗿𝗲 𝗜𝗡! 🔥 Using the advanced 𝗱𝗮𝘁𝗮 𝗮𝗻𝗮𝗹𝘆𝘁𝗶𝗰𝘀 capabilities of 𝗢𝗳𝗳𝗶𝗰𝗲 𝗥𝗮𝗰𝗰𝗼𝗼𝗻 and 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗦𝗸𝗶𝗹𝗹𝘀, we've built a data-driven prediction engine to forecast the outcomes of the matches. We've combined insights from high-value football datasets, including: 📌 FIFA Rankings & Elo Ratings 📌 Transfermarkt Squad Values 📌 WinnersAndWhiners Odds 📌 RotoWire Tactical Analysis 📌 FootballBerry Alternative Rankings 📌 ESPN Market Data We also evaluated every team across several key dimensions: 📌 Long-Term Squad Capability 📌 Recent Form & Momentum 📌 Squad Completeness 📌 Tactical Adaptability The predictions are locked in! 💥 Let’s watch the games and see if our data hits a perfect bullseye! 🎯 👇 𝗗𝗿𝗼𝗽 𝘆𝗼𝘂𝗿 𝗵𝗼𝘁 𝘁𝗮𝗸𝗲𝘀 𝗮𝗻𝗱 𝗽𝗿𝗲𝗱𝗶𝗰𝘁𝗶𝗼𝗻𝘀 𝗶𝗻 𝘁𝗵𝗲 𝗰𝗼𝗺𝗺𝗲𝗻𝘁𝘀! 👇 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗦𝗸𝗶𝗹𝗹𝘀: ＧitHub https://github.com/OpenSenseNova/SenseNova-Skills Quick installation (bundled with Hermes Agent & OpenClaw) https://github.com/OpenSenseNova/SenseNova-Skills/blob/main/INSTALL.md Discord https://discord.gg/BuTXPHmQub 𝗢𝗳𝗳𝗶𝗰𝗲 𝗥𝗮𝗰𝗰𝗼𝗼𝗻: https://office.xiaohuanxiong.com/home

译商汤科技利用 Office Raccoon 与 SenseNova-Skills 构建数据驱动预测引擎，用于 2026 年世界杯小组赛结果预测。引擎整合 FIFA 排名、Elo 评分、Transfermarkt 球队身价、WinnersAndWhiners 赔率、RotoWire 战术分析、FootballBerry 排名及 ESPN 市场数据，并从长期阵容能力、近期状态、阵容完整度、战术适应性四个维度评估各队。相关项目已开源：SenseNova-Skills 的 GitHub 仓库（含 Hermes Agent 与 OpenClaw 安装指南）及 Office Raccoon 官网已公布。

Berryxia.AI@berryxia · 6月23日68

http://x.com/i/article/2069426743950417920 # a16Z砸钱，他却说[顶级审美AI做不到]！Impeccable创始人另起炉灶，打出人类设计大旗！ > 申明：本文为人类与AI协作完成，如对AI敏感，请退出，请悉知。本文翻译自：@Pbakaus Paul Bakaus 今天宣布正式创立 Renaissance Geek——Impeccable 背后的公司，拿到了 a16z 领投的融资（由 Anish Acharya 主导），同时宣布与 GitHub 达成合作。以下是他押注的方向，也是我认为当下创意工具领域最值得关注的一篇思考。 ## 一个奇怪的时刻现在是一个做出优秀数字作品的奇怪时刻。突然之间，几乎任何东西的初稿都变得极其容易产出：代码、界面、文案、图片、内部工具、原型、演示文稿、产品创意。空白页不再那么空白，过去需要几天的工作现在几分钟就能完成。AI 毫无疑问地拉高了地板。然而。为什么做出真正优秀的东西反而感觉更难了？我们被告知要让 AI 代替我们执行——用一个 prompt 输入来换取那些耗时的、手工的创造性劳动。全力投入“循环最大化”（loopmaxxing）。我们可能不得不牺牲精确度，但至少出货更快了，对吧？这是一个伪二元对立。有一个原因，我们至今没有看到 AI 视频领域的宫崎骏、AI 音乐领域的保罗·麦卡特尼、AI 写作领域的村上春树、或 AI 设计领域的 Tobias van Schneider。 ## “降低地板，抬高天花板” John Maeda 最近提醒了我这句话，它可以追溯到 MIT 计算机早期。降低门槛，让更多人能创造东西；抬高天花板，让专家能走得更远。 John 用这句话来描述当下这个时刻，并慷慨地将 Impeccable 列为正在“降低门槛”的工具之一。他说得对，我会继续把门槛往下推，直到达到一个扎实的基线完全不费力气。事实上，我成年后的大部分时间都在追求我所说的**“反守门”**：jQuery UI 让一代网页设计师第一次能交付丰富的 Web UI；Chrome DevTools 成为设计师预览移动端效果的可信工具；而 Impeccable 则把合格的设计能力带给每一个需要它的人。但优秀的作品不是一次性生成的。它来自清晰的意图、不懈的迭代、判断力和手艺。现在做出“某个东西”非常容易，但做出真正伟大的东西——更不用说定义一个品类的东西——仍然非常困难。盲目地更快出货不是策略，很多公司即将以昂贵的方式学到这一课。我们构建的创意 AI 工具不能只关注降低准入门槛和拉高产出下限，它们还必须让创作者能够在最后一公里介入 AI 的自主循环——那推动作品脱离分布、脱离平庸的最后 20%。 ## 品味可以被放大，但无法被实验室培育现在有一个诱人的想法在流传：也许我们可以“解决”品味这个问题。训练更好的模型，建立更好的品味基准，捕捉模式，让模型默认产出有品味的作品。我理解这种吸引力。但我认为它偏离了重点。我最近的一个新爱好是分类和检测“设计泔水”（design slop）。Impeccable 是目前最流行的去除这类明显泔水的方式之一。但泔水的消失并不等于品味的出现。泔水还是一个移动靶。2022 年它长这样：紫色渐变和发光按钮。我们试图修复它——告诉模型避免这些模式，把它们推向潜在空间的另一个区域。然后我们得到了 2026 年的泔水：暖米色背景上的 Instrument Serif 斜体标题。这不是糟糕的设计。在对的人手里它可以很好。但当这个模式无处不在时，它就不再传递品味，而是传递**“没有做出决定”的信号**——更糟的是，它根本不出彩，因为它不突出。今天的泔水解药在所有人都伸手去拿的那一刻，就变成了明天的泔水。所以不，你无法把品味装进瓶子里。它是个人的、语境化的、永远在移动的；试图量产它，你得到的是算法版优衣库。你能做的是捕捉那些与品味无关的破绽——弱层级、懒间距、破碎的对比度、每个模型在无人引导时都会生成的构图——Impeccable 做的正是这件事。但剥离泔水只是支线任务。主线任务是放大人类意图。最好的创作工具给你更锋利的器具，把“看见”留给你；相机不会告诉你拍什么，它只是让更多的拍摄成为可能。 ## 设计正在迁入生产环境设计/工程交接正在崩塌。它所假设的世界——设计冻结，然后工程师将其翻译为代码——几乎不存在了。代码现在每天都在变，一个 Agent 可以在午饭前生成十个新的界面状态。一个冻结的设计稿跟不上一个不肯静止的产品。我整年都在看这件事发生，从初创公司到财富 500 强。产品经理在直接写真实代码，设计师正在变成设计工程师。工作正在迁移到产品实际存在的地方。在这一切中，工程师每周都有新工具。设计师大多被落下了。为他们出现的东西，要么是给 PM 和工程师建的，要么是老牌工具在现有设计画布上接更多连接器。 Figma 仍然重要——它是探索和思考的好地方，这一切并不意味着设计师必须学写代码（虽然我坚信熟悉 CSS 和 HTML 会让你成为更好的网页设计师）。转变比那更简单：更多真实的设计工作现在发生在活的产品上、在浏览器里、在它实际上线的地方。理由很充分：它带来更快的迭代而没有流程摩擦，而其他人还在等待交接。这个缺口就是我构建 Impeccable 的原因。它教 Agent 说设计语言，让设计师、工程师或创始人可以用自然语言引导：批评这个布局、修复字体、重新配色——然后在浏览器中实时看到变化。你用 Impeccable 创建的一切都是真实的生产代码，可以直接上线。 ## 人机界面仍然原始人与 Agent 的交互界面仍处于早期。现在与 Agent 协作的主流方式是聊天。聊天很强大，我一直在用。但聊天也是被动的——它给你一个空白框，要求你想象一切。优秀的创意软件完全不是这样工作的：视频编辑器给你时间线，设计工具给你带图层和参考线的画布，音乐软件给你可以看到和拖动的音轨。它们都不只是接受命令——它们展示作品，让你在推动它时感受到变化。大多数 AI 工具仍然像一个坐在帘子后面的天才实习生。你几乎可以要求任何东西，但界面很少帮助你发现该要求什么。这必须改变。如果 Agent 要和我们一起做创意工作，它们需要更丰富的循环：批评、比较、记忆、实时调整的方式。 Impeccable 的共享设计词汇和 Live Mode 是更主动的人机界面的早期实验。你可以指向作品、引导它、比较变体、将修改接受回源代码。还有大量空间可以探索，Renaissance Geek 将深度投入放大创意工作的界面和工作流。 Impeccable 是这个新时代的第一个工具，但绝不会是唯一一个。 ## 文艺复兴极客的时代很长一段时间，做通才被视为一种负债。选一条赛道，专精，成为那个设计师、工程师、PM、营销、运营。团队围绕着角色清晰分离的人之间的交接来构建。 AI 正在让这个模型显得不那么必然。现在看起来最“危险”的人是 T 型通才——高品味、高意图、高能动性、深度好奇心。他们可能起步于设计师、工程师、创始人、写作者、研究员或运营。但他们越来越多地生活在代码附近，因为代码是想法变为现实的地方。这就是**“文艺复兴极客”**：一个现代版的“文艺复兴人”，能够在学科之间穿梭，因为 AI 给了他们触达范围。而他们对艺术、文化、社会和技术的真诚兴趣所驱动的不断进化的品味，给了他们方向。这些是我最在乎的人：那些想要作品更好而不只是更快的人，那些仍然为最后 10% 较真、能感觉到一个产品没有观点的人。 AI 将让这些人变得强大得多。 ## 正在构建什么 Impeccable 是 Renaissance Geek 的第一个放大手艺的产品，专注于让它成为个人创业者和大型企业日常信赖的工具包。为了将 Impeccable 送到更多构建者手中，今天还宣布 Renaissance Geek 与 GitHub 达成合作。 GitHub 团队关心同样的事情：提升质量和设计的天花板。这就是为什么 Impeccable 预装在新的 GitHub Copilot 应用中——世界上使用最广泛的 Agent 工具之一。每个打开应用的构建者从一开始就拥有设计和质量层。在 a16z 领投的融资支持下，Renaissance Geek 将继续构建最后一公里的工具——帮助人类引导 AI 走向值得上线的作品。 AI 的下一波浪潮不应该是把人类进一步推出循环。那个故事无聊且反乌托邦。更有趣的未来是令人愉悦的奇异和激动人心的：小团队拥有巨大的能力范围，设计师在代码中移动，工程师突然学习垂直韵律，PM 在原型真实产品，Agent 成为主动的协作者，手艺人用机器做出独自不可能完成的作品。 AI 拉高了地板。是时候抬高天花板了。本文由 YouMind 自动从 Markdown 转换排版。

译Paul Bakaus宣布创立Renaissance Geek，旗下设计工具Impeccable获a16z领投融资（Anish Acharya主导），并与GitHub合作——Impeccable预装在GitHub Copilot应用中。他认为AI拉高了创作下限，但优秀作品仍依赖人类意图、迭代与品味；Impeccable只剥离“设计泔水”而非输出品味。设计正从Figma迁入浏览器生产环境，Impeccable让用户用自然语言指导Agent实时修改生产代码，推出Live Mode实现主动人机交互。他定义“文艺复兴极客”为跨学科的T型通才，AI将放大这类人的能力。

Berryxia.AI@berryxia · 6月23日54

AI把“做出东西”变得容易了，但把东西做得真正优秀，反而更难了。 Paul Bakaus今天宣布成立Renaissance Geek（Impeccable背后的公司），拿了a16z的钱，还和GitHub达成合作。他核心的观点是：AI已经把地板抬高了（第一稿变容易），但天花板并没有被自动抬高。真正优秀的工作，依然来自清晰的意图、无休止的迭代……判断力和craft，而不是单纯的循环制胜。他把这个方向叫“增强工艺”——让人类深度参与智能体循环的最后20%，而不是把人彻底踢出去。天衣无缝的设计就是这个理念的第一个产品：给AI coding agent一套设计词汇表，让它在真实代码库里做视觉迭代，而不是只在聊天里生成slop。更重要的是，他提出了“文艺复兴极客”这个新人群画像：T型通才 + 高品味 + 高主动性 + 强好奇心的人。 AI让他们能跨领域移动，而他们的taste和判断力，正是AI目前最缺的东西。这篇文章把当前AI工具界的两种路径说得很清楚：一条是继续堆地板（让更多人能做出东西），另一条是认真抬天花板（让真正有品味的人能做出更好的东西）。他选择后者。我翻译了一下中文，感兴趣可以看看。

译Paul Bakaus 宣布成立 Renaissance Geek（Impeccable 母公司），获 a16z 投资并与 GitHub 合作。他认为 AI 降低了创作门槛，但未自动提高上限；真正优秀的工作仍需清晰意图、迭代、判断力与工艺。公司方向为“增强工艺”——让人类深度参与智能体循环的最后 20%。首款产品 Impeccable 为 AI coding agent 提供设计词汇表，支持在真实代码库视觉迭代，避免低质量输出。同时提出“文艺复兴极客”画像：T 型通才、高品味、高主动性、强好奇心，AI 赋能其跨领域移动，而品味与判断力是 AI 最稀缺的能力。

SenseTime@SenseTime_AI · 6月22日50

Thanks YouTuber xCreate for the great breakdown of 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1! Great to see the model's powerful 𝘁𝗲𝘅𝘁-𝗶𝗺𝗮𝗴𝗲 𝗶𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝗿𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 and 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 capabilities featured — along with a 𝘀𝘁𝗲𝗽-𝗯𝘆-𝘀𝘁𝗲𝗽 𝗴𝘂𝗶𝗱𝗲 𝘁𝗼 𝗿𝘂𝗻𝗻𝗶𝗻𝗴 𝗶𝘁 𝗹𝗼𝗰𝗮𝗹𝗹𝘆 𝗮𝗻𝗱 𝘃𝗶𝗮 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗦𝘁𝘂𝗱𝗶𝗼. 🎥https://www.youtube.com/watch?v=FWaQC_exKh0 🎛️SenseNova Studio: https://unify.light-ai.top (Try infographics; also join Discord for text-image interleaved gen) 🤗https://huggingface.co/collections/sensenova/sensenova-u1 🛠️https://github.com/OpenSenseNova/SenseNova-U1 👾Discord: https://discord.com/invite/BuTXPHmQub

译商汤SenseTime发布推文，感谢YouTuber xCreate对SenseNova U1模型的详细拆解，重点展示其文本-图像交错推理（text-image interleaved reasoning）和信息图表（infographic）生成能力。推文附有逐步指南，指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。

ginobefun@hongming731 · 6月22日57

http://x.com/i/article/2068851376151777280 # BestBlogs 早报 · 06-22｜Claude Code 负责人访谈、库克离场前苹果 AI 权力重构、GitHub 数据分析智能体在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语当编码不再是瓶颈，工程团队的真正考验变成了如何验证产出。今天的早报，三条精讲恰好从三个层面回答了这个问题。第一条来自 Anthropic Claude Code 负责人 Fiona Fung，她做客 Lenny's Podcast，抛出一个数据点：Anthropic 工程师如今每季度交付的代码量是过去的 8 倍，但她更想讲的，是当「能不能做出来」不再是约束之后，团队该如何运转。第二条把镜头转向苹果，硅谷101 受邀亲临 WWDC26 现场，复盘库克离场前苹果内部的 AI 权力重构，以及一家以「完美文化」著称的公司，如何在每周一个版本的 AI 节奏面前重新校准自己的价值观天平。第三条则是 GitHub 工程团队首次公开内部数据分析智能体 Qubot 的构建实录，用一套三层架构印证了一个朴素却关键的洞察：结构化的上下文不仅让答案更准，还让返回正确答案的速度快了 3 倍。把这三条放在一起读，会发现它们其实是同一条主线的不同切面——当 AI 把「执行」这一环大幅压缩，组织的胜负手正在从「写代码的能力」转向「定义问题、验证产出和沉淀上下文的能力」。无论是 Fiona 把规范签入代码库让 Claude 自动校验，还是 GitHub 把数据知识按 bronze/silver/gold 分层喂给智能体，本质都是在为 agent 准备一套结构化、可被持续维护的上下文；而苹果的组织重构，则是在更高层面回答「谁来定义这套上下文与价值观」。速览与补充阅读里，还有图灵奖得主 LeCun 押注的世界模型之争、Cerebras IPO 引出的 AI 算力路线、DeepSeek 背后 356 人的人才白皮书、SFT 仍漏学 15% 训练数据的 ACL 论文，以及 GLM-5.2 登顶 Design Arena 等一批值得细看的内容，方向横跨研究、产业与一线工程实践，建议挑贴合自己当前关注的两三篇深读。 ## ★ 精讲一：打造全球最「All-in AI」工程团队：Anthropic Claude Code 负责人 Fiona Fung 的一线实践来源：Lenny's Podcast（VIDEO）｜评分 92｜在 BestBlogs 阅读本篇 Anthropic Claude Code 与 Co-work 负责人 Fiona Fung 做客 Lenny Rachitsky 的播客，开场就抛出一个足以让所有工程管理者停下来的数据：Anthropic 的工程师如今每季度交付的代码量，是 AI 工具普及之前的 8 倍。但她紧接着强调，真正值得讲的不是这个数字，而是「软件工程」这件事本身正在被重新定义。编码不再是瓶颈。这是 Fiona 反复回到的一句话。在她看来，AI 抬高了「任何一个人能做到什么」的天花板：在 Anthropic，产品经理、设计师和各个方向的工程师都在向代码库提交代码，约束已经从「我们能不能把它做出来」彻底转向了「我们如何验证做出来的东西是正确的、且真正有影响力的」。换句话说，能力的稀缺性下降了，判断力和验证能力的稀缺性上升了。一个「全员 All-in AI」的团队，日常究竟长什么样？Fiona 给了几个非常具体的画面。她自己有一个 Claude Code 远程会话，常驻运行在 Anthropic 所有代码仓库之上，让她对每个人在交付什么——PR、指标、线上事故——保持完整的可见性。她不再依赖人工的状态同步，而是用这些真实的代码活动和市场反馈，来支撑更有信息量的一对一沟通和月度复盘。她还重度依赖一类被称为 routines 的「定时智能体」：它们每天清晨醒来，扫描 Slack、邮件、合作伙伴渠道和社交媒体上的反馈，归纳出主题，甚至直接为一些打磨型的小修复生成 PR——她要做的，只是在早晨的咖啡时间审阅这些 PR，而不是手动去逐条分拣反馈。在「招什么样的人」上，她给出了两类画像。一类是有产品感的创造型构建者：他们对某个产品充满热情，能端到端地把东西做出来，痴迷地阅读用户反馈，并把体验打磨到令人愉悦——她称之为「造梦者」。另一类是深度的系统专家：在那些仍然需要专业验证和领域知识的环节，比如分布式系统，这类能力是她为 Claude Code 团队刻意去招募的。「现在理论上一切皆有可能，」她说，「问题变成了：你能有多大的野心？」那么如何在 8 倍速度下守住质量？Fiona 给的框架很朴素：区分 bad（不可恢复的错误，比如崩溃）和 sad（可恢复的痛点，比如界面闪烁），每个团队自行定义各自的阈值；再把规范（specs）签入代码库，让 Claude 能对照既定标准来校验 PR，叠加自动化监控，质量这一层就能随产出量一起扩展。她也坦诚地谈到一个意外的副作用——孤独感：「当我们都开始大量和自己的 agent 一起工作，它会慢慢变成一种孤独的体验。」团队的应对是结对编程式的午餐和黑客松，目的不是复刻老式结对编程，而是互相分享工作流，因为团队里每个人使用 Claude Code 的方式都出人意料地不同。放在今天这份早报的语境里，这篇的价值在于它给出了一手的、可被借鉴的「AI 时代团队操作系统」：常驻远程会话、自动生成 PR 的 routines、bad/sad 质量框架、用 JIT 月度计划取代半年路线图。它和后面 GitHub 的 Qubot、苹果的组织重构互为参照——当执行被压缩，组织的真正功夫都落在了流程、验证和上下文上。阅读建议：如果你正在带一支工程团队，建议把它当成一份可落地的实践清单来读，对照自己团队的瓶颈逐条取舍。 ## ★ 精讲二：库克的离场，苹果新 AI 权力重构与价值观天平｜WWDC26 来源：硅谷101（ARTICLE）｜评分 91｜在 BestBlogs 阅读本篇 2026 年 6 月 8 日，苹果在库比蒂诺 Apple Park 举办年度 WWDC——这是 Tim Cook 以 CEO 身份最后一次主持。按照官宣，他将于 9 月 1 日卸任，由硬件工程高级副总裁 John Ternus 接任 CEO，自己转任董事会执行主席。硅谷101 今年受邀亲临现场，这篇复盘最难得的，是它把一场「换帅 + AI 转身」的复杂博弈摆在了台面上。文章先讲清了组织权力的重新洗牌。两年前 Apple Intelligence 发布后数次延期，不仅让业界质疑苹果的 AI 研发能力，更引发了消费者虚假广告诉讼和股东证券欺诈诉讼。Gen Digital 首席 AI/创新官 Howie Xu 一针见血：苹果过去成功靠的是「一年憋一个大招」，但 AI 时代大概每周就该有一个 release，这套老打法可能不再适用。据彭博社报道，2025 年苹果高层完成了一次改写 AI 权力版图的人事变动：原本负责 AI 的 John Giannandrea 失去信任并最终离开；曾主导 Vision Pro 的 Mike Rockwell 接手 Siri，但在 Craig Federighi 的坚持下，AI 与 Siri 最终归属软件工程体系，Rockwell 向 Federighi 汇报，而非直接向 Cook 汇报；同时，苹果从外部挖来在谷歌待过 16 年、主导过 Gemini 的 Amar Subramanya 来主导自研模型。背后的真正分歧是：AI 到底是一个独立的新中枢，还是软件系统的一部分？技术层面，文章拆解了新一代 Apple Foundation Models（AFM）：两个端侧模型（30 亿参数的 AFM 3 Core 与 200 亿参数 MoE 架构的 AFM 3 Core Advanced），以及云端三件套（AFM Cloud、AFM Cloud Pro、ADM Cloud Image）。前苹果工程师 Nathan Wang 解释，端侧能跑 200 亿参数模型靠两项关键技术：稀疏 MoE 一次只激活约 10 到 40 亿参数，以及把部分固定参数放进闪存、按需动态加载，从而在内存有限的端侧设备上既省内存又省电——这正是苹果软硬一体优势的体现。值得注意的是，更强的端侧模型对硬件门槛极高，目前只能在 iPhone 17 Pro 系列、iPhone Air，以及内存达标的高端 iPad/Mac 上运行。云端最强的 AFM Cloud Pro 负责复杂推理和智能体工具调用，且是在谷歌云上专门为英伟达 GPU 优化的。这篇为什么值得今天读？因为它提供了一个与精讲一形成镜像的样本。Fiona 的 Anthropic 代表了一种「执行成本趋近于零、组织全力拥抱变化」的极端；而苹果代表了另一种张力——一家把「完美体验」刻进基因的公司，在 AI 革命面前如何重新平衡「用户体验」和「产品创新」这架天平。多位硅谷专家点评本次 demo「不够 agentic」，华尔街观望致股价跌超 5%，都说明这场转身远未完成。阅读建议：想理解大公司在 AI 时代的组织阵痛与战略取舍，这篇带现场视角和内幕的深度复盘是很好的标本，可以重点看组织重组和自研模型两节。 ## ★ 精讲三：我们如何构建内部数据分析智能体来源：The GitHub Blog（ARTICLE）｜评分 90｜在 BestBlogs 阅读本篇「数据自助化」是数据团队追了几十年都没真正解决的难题。GitHub 工程团队这篇文章，首次公开了他们的内部数据分析智能体 Qubot 的构建实录：它让任何一位 Hubber（GitHub 员工的自称）都能用自然语言询问数据仓库里任意数据模型的问题，并在几秒内得到答案。文章一开始就把定位讲得很清楚——Qubot 不是报表工具，也不是仪表盘的替代品，它面向的是探索式提问，比如「这个功能上，哪一群用户的留存最高？」或者「上周是哪个产品最大程度地拉动了这个指标？」架构由三个主要部分组成。第一层是多入口的用户界面：Qubot 可以通过 Slack、VS Code 和 Copilot CLI 访问。Slack 无需任何配置，是 Hubber 们最常用的协作工具——在 Qubot 频道里发问，系统会在 github.com 上拉起一个 Copilot Cloud Agent 实例，答案直接回到 Slack，方便分享，也能在 thread 里继续追问、refine 问题；所有结果还会以 markdown 报告的形式存进一个 PR，供后续微调查询或接入仪表盘。第二层是联邦化的上下文层，这也是全文最关键的一节：数据仓库按 bronze（原始事件）、silver（规整后的事实与维度）、gold（面向具体业务场景的精选数据集）分层，上下文层则针对每一层「量身定制」知识——bronze 是产品团队贡献的遥测上下文和元数据，silver 是数据团队维护的查询示例、使用指引与强制过滤条件，gold 是数据集 owner 提供的业务规则和指标定义；上下文在运行时通过 GitHub MCP Server 加载。为持续丰富这一层，他们还做了一个 context agent，让各团队用标准化模板或引用仓库的方式贡献知识，再由 agent 自动摄取、组织、规范化。文章给出的关键洞察是：结构化的上下文不仅让答案更准，还让返回正确答案的速度快了 3 倍。这把「上下文工程」从一句口号变成了可量化的工程结论。把它和今天另外两条精讲对照着读会更有意思——Fiona 强调把 specs 签入代码库让 Claude 对照校验，本质也是在为 agent 喂结构化上下文；而苹果的组织重构，某种意义上也是在重新定义「谁来定义和维护那套上下文与规则」。阅读建议：如果你正打算在企业内部落地数据类或分析类 Agent，建议精读上下文层和 context agent 两节，把它当成一份分层上下文治理的参考蓝图。 ## 速览下面是今天另外 7 篇同样值得一读的精选内容，覆盖世界模型、AI 算力、人才结构、训练机理与工程实践等多个方向。 [AINews] GLM-5.2 货真价实；Z.ai 预测年底前推出 Open Fable（来源：Latent.Space，评分 90）。这期 AINews 把笔墨给了 GLM-5.2：它被视为首个真正通过「这是一个恰好开源的前沿模型」直觉检验的开放权重模型，并得到了独立从业者和多个样本外基准的交叉验证——作者特别提到，GLM 5 过了这道关、GLM 5.1 没过，而 5.2 的「手感」明显不同。文章顺带勾勒了从模型到智能体工具链的转变、新的自动化原语，以及一个更贴近现实的智能体知识工作基准。Z.ai 持续被验证为真正的前沿实验室，下一个里程碑是「开源何时能拿出一个 Fable 级模型」。在 BestBlogs 阅读本篇图灵奖得主押上 10 亿美元的「世界模型」，是 AI 的下一个十年？（下）（来源：十字路口Crossing，评分 90）。这篇深入解析了图灵奖得主 LeCun 押注的 JEPA 世界模型路线。他断言「VLA 必死」，但现实是当下最惊艳的机器人（能削西葫芦、倒垃圾）恰恰用的是 VLA 架构，而 JEPA 挪开一个杯子要花整整 60 秒。文章逐层对比 VLA 与基于 JEPA 的替代技术栈——从 V-JEPA 2 视觉编码器，到用 JEPA 重述 VLM 的训练方式，再到机器人规划与控制——既展示了 JEPA 在视觉编码与效率上的优势，也坦诚了它在机器人控制上的明显短板。难得地把一场技术豪赌的两面都摆上了台面。在 BestBlogs 阅读本篇从 Cerebras IPO 聊起：AI 算力变化、Scaling law 的萌芽和百度美研往事（来源：晚点AI，评分 88）。这篇访谈 Cerebras 早期投资人周楠，回顾了百度美国研究院在 2016 年前后对 AI 算力瓶颈的前瞻判断——当时吴恩达任负责人，Anthropic 创始人 Dario Amodei 也曾在那里工作，团队很早就形成了「更大模型、更多数据、更强算力」的共识。文章解释了 Cerebras 的 Wafer-Scale 架构价值（把整片晶圆做成一个超大 AI 计算引擎，减少数据搬运），以及它作为英伟达在推理等特定负载上挑战者的真实定位。最值得回味的一句是：当所有人都在追逐 AI，真正稀缺的不是相信 AI，而是判断下一个发展瓶颈。在 BestBlogs 阅读本篇 DeepSeek 背后的 356 人：一份白皮书揭开中美 AI 人才战争（来源：AINLP，评分 88）。斯坦福胡佛研究所与 HAI 更新白皮书，用论文作者网络（而非员工名单）追踪 DeepSeek 七篇核心论文（从 2024 年 1 月的开源 LLM 一路到 2026 年 4 月的 V4 预览版）背后 356 名研究和工程贡献者的职业轨迹。结论很有意思：核心 31 人保持稳定，说明技术路线没有频繁断裂；而「一篇论文贡献者」从 23 人增至 136 人，说明 DeepSeek 能把外部或边缘任务能力快速接进主线研发。这种「稳定核心 + 快速补员」的分层结构，比任何模型榜单都更能解释它的持续产出能力。在 BestBlogs 阅读本篇 ACL 2026 | 腾讯混元发现「不完全学习」，SFT 仍漏学 15% 训练数据（来源：PaperWeekly，评分 88）。腾讯混元与 UNSW 联合团队在 ACL 2026 发表论文，系统性地揭示了一个被忽视的现象：即便 SFT 训练已收敛、loss 已平稳，模型在训练集上重测平均仍有 15.3% ± 2.1% 的样本答不对，作者将其命名为「不完全学习现象（ILP）」。更值得警惕的是，这些未学习样本并非随机分布，而是系统性地集中在罕见实体、多步推理、与预训练知识冲突等最有价值、最难标注的复杂样本上。论文进一步给出了从检测、归因到干预的完整框架，对所有做垂直领域微调的团队都有直接的成本与可靠性启示。在 BestBlogs 阅读本篇如何围绕公司隐性规则设计智能体系统（来源：HBR.org，评分 89）。这篇用一个金融服务的真实案例切入：一位高净值客户更新受益人信息，AI 路由、运营处理、沟通确认每一步都「按设计正确执行」，但一个月后客户却把账户转去了竞争对手。问题在于，经验丰富的顾问能从一次次季度沟通中读出 CRM 字段里没有的「对话信号」，而这恰恰是当前智能体系统的盲区。文章主张，对 AI 智能体而言最关键的组织智慧并不在文档化的流程里，而是隐含在由知识、动机和判断力构成的非书面系统中，并为此提供了一个设计框架。和精讲三的「上下文层」遥相呼应——只是这次讲的是那些难以结构化的隐性上下文。在 BestBlogs 阅读本篇 AI 编程实战：如何用软件工程思维驾驭 Agent 生成代码（来源：宝玉(@dotey)，评分 90）。这是一篇高质量原创 Thread，针对「如何让 Agent 生成的代码更好地满足需求、减少新版本上线后的不稳定、并实现线上问题的自动化修复」，给出了系统性的工程实践建议：需求分析要提供充足上下文、系统设计拆分里程碑并用 plan 模式对齐共识、代码审查拆细且 Agent 审查加人兜底、自动化测试覆盖并接入 CI、灰度发布与 feature flag、建立 CI/CD 自动化部署与回滚机制。核心观点很实在：与其追求 AI 全自动修 bug，不如建立好的开发流程让 bug 少发生。可以和精讲一里 Fiona 的「bad/sad 框架 + specs 入库」对照着读。在 BestBlogs 阅读本篇 ## 补充阅读以下几篇适合按兴趣选读，覆盖企业级 Agent 落地、提示词工程、模型评测与产业观察。 - AI 智能体让 OpenAI 的数据变得有意义（InfoQ，评分 90）：详细介绍 OpenAI 如何构建内部数据分析智能体 Kepler，利用丰富的数据上下文、记忆与评估来回答横跨 7 万个数据集的复杂问题。和今天 GitHub 的 Qubot 几乎是同一道题的两种解法，适合做企业数据 Agent 的团队对照阅读。在 BestBlogs 阅读本篇 - 面试官：「你看过 Claude Fable 5 系统提示词吗？」（小林coding，评分 89）：以网传泄漏的 Claude Fable 5 系统提示词为范本，逐段拆解其工具定义、知识边界、安全红线与交互风格，提炼出可直接用于 AI Agent 与提示词工程的实践原则。适合想从一线产品的「内部手册」反推提示词工程方法的读者。在 BestBlogs 阅读本篇 - GLM-5.2 如何在 Design Arena 中击败了 Fable 5（Draco正在VibeCoding，评分 88）：GLM-5.2 在 Design Arena 单轮 HTML 网页设计评测中登顶，成为首款 MIT 授权的开源冠军，价格仅为对手的零头。文章逐案例分析了它避开常见编码错误、生成更精致页面的具体表现。和速览里的 AINews 互为补充，关心开源模型进展的可一并读。在 BestBlogs 阅读本篇 - 「机器学习之父」Jordan：Hinton 等「思想领袖们」正在伤害年轻一代（机器之心，评分高分推荐）：Michael I. Jordan 尖锐批评 AI 领域的「思想领袖」文化，认为 AGI 是公关术语、末日叙事正在伤害年轻一代，并主张用统计学、经济学与计算机科学三足鼎立的框架重新定义 AI 研究。适合想跳出热点、听一听清醒批判声音的读者。在 BestBlogs 阅读本篇 - 对话王小川：造医生，战豆包，与无尽的 AI 非共识（硅星人Pro，评分高分推荐）：王小川系统阐述百川智能聚焦 AI 医疗的战略逻辑——面对通用模型的冲击，选择以「造 AI 家庭医生」为切入点，通过医学增强模型和与顶级医院深度共创，在供给端创造新价值，而非在 Coding 等共识赛道内卷。适合关注 AI 产业差异化打法的读者。在 BestBlogs 阅读本篇 - 从零构建受 OpenClaw 启发的 AI 智能体（freeCodeCamp.org，评分 90）：一套基于 Next.js 与 Vercel AI SDK 的端到端实战课程，在同一运行时中整合上下文高效的工具、用户级记忆、持久人格、Telegram 接入与定时工作流。适合想动手把「Agent 架构」从概念跑通到能部署的开发者。在 BestBlogs 阅读本篇 ## 今日阅读路径如果你今天时间有限，建议按下面的顺序读这 3 篇： 1. 精讲一 · Anthropic Claude Code 负责人 Fiona Fung 的一线实践（Lenny's Podcast）——先建立「编码不再是瓶颈、约束转向验证」这个总框架，它是理解今天大半内容的钥匙。 1. 精讲三 · 我们如何构建内部数据分析智能体（The GitHub Blog）——再看一个可落地的工程样本，理解「结构化上下文让答案又快又准」这一关键洞察。 1. 精讲二 · 库克的离场，苹果新 AI 权力重构｜WWDC26（硅谷101）——最后用苹果这个大公司样本，看「拥抱变化」与「守住价值观」之间的真实张力。读完这 3 篇，再回到速览与补充阅读里，挑 1 到 2 篇最贴合你当前方向的内容做延伸阅读即可，不必贪多求全。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译Anthropic Claude Code 负责人 Fiona Fung 称工程师每季度交付代码量是 AI 普及前的 8 倍，采用常驻远程会话和定时 agent 自动生成 PR，以 bad/sad 质量框架守住质量。苹果 WWDC26 上库克卸任，John Ternus 接任；AI 权力重构：John Giannandrea 离开，Mike Rockwell 接手 Siri 并向 Craig Federighi 汇报，从谷歌挖来 Amar Subramanya 主导自研模型。新一代 Apple Foundation Models 包括端侧 30B 参数 AFM 3 Core 和 200B MoE AFM 3 Core Advanced，云端 AFM Cloud Pro，端侧需 iPhone 17 Pro 等设备。GitHub 公开内部数据分析智能体 Qubot，采用三层架构，返回正确答案速度提升 3 倍。

Berryxia.AI@berryxia · 6月22日62

明天拿乔帮主这个去生产几个最近对项目试试看～

译博主转发开源乔木icon Skill，支持两种方案：1）调用Imagen参考数百图标生成；2）搜索2万SVG图标叠加纯色/渐变背景。适用于App或网页快速设计图标，精细打磨仍需设计师。安装命令：`npx skills add joeseesun/qiaomu-icon-generator`。

向阳乔木@vista8 · 6月21日65

牛逼，最近看到的最酷的项目。

译开发者 @zhongerxin 发布开源项目 Cowart，将 OpenAI Codex 与无限画布工具结合，作为 VS Code 插件使用。项目名 Cowart 取自 "Code with Art"。代码已托管至 GitHub：https://github.com/zhongerxin/cowart#

SenseTime@SenseTime_AI · 6月19日45

#𝗔𝗜 changed the game for interior design. Shoutout to @eigi_and_ai for putting 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1 to the test! By uploading a simple living room photo, he used U1’s 𝗶𝗻𝗱𝘂𝘀𝘁𝗿𝘆-𝗳𝗶𝗿𝘀𝘁 𝘁𝗲𝘅𝘁-𝗶𝗺𝗮𝗴𝗲 𝗶𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 to instantly transform it into a cozy reading nook. Which room in your home needs a makeover? Try U1 today! 🎥https://www.youtube.com/watch?v=395Fk3WveRk 🎛️ SenseNova Studio: https://unify.light-ai.top (Try infographics; also join Discord for text-image interleaved gen) 🤗https://huggingface.co/collections/sensenova/sensenova-u1 🛠️ https://github.com/OpenSenseNova/SenseNova-U1 👾 Discord: https://discord.com/invite/BuTXPHmQub

译商汤 SenseNova U1 具备行业首创的文本-图像交错生成能力。用户上传客厅照片后，U1 可瞬间将其风格转变为温馨阅读角。该演示由 @eigi_and_ai 完成。U1 现已通过 SenseNova Studio、HuggingFace 模型库、GitHub 源码及 Discord 社区开放体验。

宝玉@dotey · 6月19日74

baoyu-design skill 更新：可以在制作 PPT、动画视频或者网站时调用 AI 生图技能配图了，当然需要你本地 Agent 有配置画图 Skill。如果是 Codex 可以直接调用内置画图工具，如果你用 Claude Code 的话可以配合 baoyu-image-gen skill 去调用 Codex CLI 画图。用它来生成 PPT 效果特别好，可以自动帮你在 PPT 合适位置插入配图，最牛的是你可以连图片一起导出为 PPTX，还可以接着用 PowerPoint 或者 Keynote 二次编辑。推荐去试试看： baoyu-design Skill：https://github.com/jimliu/baoyu-design baoyu-image-gen Skill：https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-image-gen

译baoyu-design skill 更新，支持在制作 PPT、动画视频或网站时调用 AI 生图技能配图，可配合 Codex 或 Claude Code 使用。生成 PPT 时自动在合适位置插入配图，并可导出为 PPTX 格式，支持二次编辑。此外，该 skill 可在本地生成动画视频并导出 mp4，采用声明式动画引擎 f(t)，通过无头浏览器逐帧截图经 ffmpeg 合成，确保每帧精确无掉帧。项目已在 GitHub 开源（MIT），获 1.2K star。

Berryxia.AI@berryxia · 6月19日71

有人用Codex连续干了38小时、提交301个分支，把自己的“创建skill的skill”升级到了2.0版本。兄弟们，免费🆓开源直接用啊！姚金刚老师把元Skill（yao-meta-skill）做了重构和2.0升级，现在已经完成并推送到GitHub。 Codex在整个过程中持续拆解任务、提交分支、修复问题、迭代优化，最后产出了完整的升级方案和2.0与1.0的详细对比报告。这个元Skill本身就是用来创建其他skill的工具，现在它自己先升级了一版。升级后的版本在结构、可靠性和可扩展性上都有明显提升，而且所有文档和对比都公开了，别人可以直接参考怎么用agent做复杂工程重构。最有意思的是整个升级过程本身就是一个活生生的例子：用高级agent（Codex）来重构“创建agent工具”的元框架。这说明agent的能力已经强到可以自己参与到“如何更好地使用agent”的迭代里了。地址见评论区👇

译姚金刚使用高级agent Codex连续38小时、提交301个分支，将自己创建其他skill的元Skill（yao-meta-skill）重构并升级至2.0版本，已推送到GitHub。Codex持续拆解任务、修复问题，产出完整升级方案与1.0→2.0对比报告。新版本在结构、可靠性和可扩展性上明显提升，所有文档公开。此次升级本身成为典型案例：高级agent已能参与“如何更好地使用agent”的框架迭代。

Berryxia.AI@berryxia · 6月19日66

这货Browser Use又整活了，兄弟们！这下真的是给你的“Agent 长眼睛了！” 开源还免费🆓 它直接开源了个浏览器agent模板B，让任何agent都能用上真实的云端浏览器，还能实时看到它在网页上操作。这个模板叫B，基于Vercel的Eve构建。给你的agent接上Browser Use Cloud browser后，它就能真正上网浏览、点击、填写表单，而且你能通过browser-harness实时看到整个过程。 GitHub上直接clone就能用，还支持初始化skills和MCPs。以前做browser agent最麻烦的就是：要么用模拟环境看不见真实交互，要么黑箱运行出问题不知道哪里错了。现在有了这个模板，agent在网页上的每一步都可视化、可调试，还能直接连真实云浏览器。这其实把browser automation从“能用”推向了“真正好用”的阶段。 Agent不再是只在代码里模拟网页，现在能在真实网页环境里执行任务，还能被人类实时观察和干预。最关键的是它开源了模板，任何人都能基于这个快速搭建自己的browser agent。未来可能越来越多agent会默认带上一个“看得见”的浏览器，而不是纯文本交互。现在开源的生态真好啊😆

译Browser Use 开源了基于 Vercel Eve 构建的浏览器 agent 模板 B。该模板让任意 agent 接入真实云端浏览器（Browser Use Cloud），实现网页浏览、点击、填表等操作，并通过 browser-harness 实时可视化执行过程，支持调试。模板已发布在 GitHub，可直接 clone 使用，支持初始化 skills 和 MCPs。开源免费，降低了开发可观测、可干预的 browser agent 的门槛。