AI 视频剪辑 Skill 分享「video-use」 https://github.com/browser-use/video-use @browser_use 团队推出的开源 Skill，定位为面向 AI Coding Agents（Codex、Claude Code、Cursor、Hermes Agent 等）的视频剪辑 Skill。它不做传统意义上的 Premiere / CapCut 替代品，它是一套让 LLM 通过 “阅读转写文本 + 按需可视化” 来理解视频、并调用 ffmpeg 等工具完成剪辑的 prompt-engineering + 工具脚本集合。 # 核心思想：LLM 不“看”视频，它“读”视频第一层：音频转写文本（always loaded）通过 ElevenLabs Scribe 获得逐词时间戳、说话人分离、音频事件标记（如笑声、叹息、掌声），打包成约 12KB 的 takes_packed.md。这是 LLM 的主要“阅读材料”。第二层：视觉时间线视图（on demand）仅在决策点（歧义停顿、重拍对比、切点校验）调用 timeline_view.py 生成胶片帧 + 波形 + 字幕的 PNG 复合图。对比朴素方案“30000 帧 × 1500 tokens = 4500 万 tokens 噪声”，项目走的是 “12KB 文本 + 少量 PNG” 的轻量化路径。这与 Browser Use 让 LLM 读结构化 DOM 而非直接看截图的思路一致。 # 技术流水线：Transcribe → Pack → Reason → EDL → Render → Self-Eval 1. 转写 - transcribe. py / transcribe_batch.py 提取 16kHz 单声道音频，调用 ElevenLabs Scribe，缓存为 transcripts/<name>.json 2. 打包 - pack_transcripts.py 将逐词 JSON 合并为按 0.5s 静音或说话人切换断句的 takes_packed.md 3. 决策 - LLM 自身阅读 packed transcript，必要时用 timeline_view.py 可视化 4. 生成 EDL - subagents 输出 JSON 格式 edl.json，包含源文件、切点、节奏标签、引用、原因 5. 渲染 - render. py 分段提取 → 无损 concat → 叠动画 → 压字幕 → 响度标准化 6. 自评估 - timeline_view.py + LLM 在输出文件的每个切点 ±1.5s 检查跳帧、爆音、字幕遮挡，最多 3 轮 # 关键工程细节： ffmpeg 为主的剪辑实现 1. 分段提取 + -c copy 拼接（避免叠 overlay 时二次编码） 2. 每段边界 30ms 音频淡入淡出（消除切点爆音） 3. overlay 使用 setpts=PTS-STARTPTS+T/TB 进行时移，确保动画第 0 帧对齐输出时间线 4. 字幕始终最后叠加（防止被动画遮挡） 5. Master SRT 使用输出时间轴偏移：output_time = word.start - segment_start + segment_offset 6. 切点必须落在词边界，并加 30–200ms 填充以吸收 Scribe 50–100ms 的时间戳漂移 7. HDR 源自动 tone-map（HLG/PQ → Rec.709 SDR） 8. 竖屏源自动按高度缩放 9. 两-pass loudnorm：-14 LUFS / -1 dBTP / LRA 11，符合主流社交平台标准 # 动画与包装：多引擎并行 1. HyperFrames：HTML/CSS/GSAP compositions，适合产品 UI、网页转视频、动态排版 2. Remotion：React 组件化 compositions 3. Manim：数学/技术/3Blue1Brown 风格解释动画 4. PIL + PNG sequence + ffmpeg：简单卡片、计数器、打字效果 # SKILL.md 的 12 条“铁律”：生产正确性优先 1. 必须遵守的 12 条硬规则：字幕最后、分段提取再拼接、30ms 淡入淡出、PTS 时移、SRT 输出时间偏移、不切在词中、切点填充、逐词 ASR、缓存转写、并行动画、先确认策略再执行、输出在 <videos_dir>/edit/ 2. 其余全部是可调整的“worked example”：调色风格、字幕分块、动画时长、节奏等都可按材料和用户品牌定制

译browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」，让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本（含逐词时间戳、说话人分离、事件标记），仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节：分段提取 + `-c copy` 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。

歸藏(guizang.ai)@op7418 · 20小时前71

http://x.com/i/article/2072507922257723392 # 能帮你做 Live Photo 了！藏师傅社交卡片 Skill 重磅更新前段时间我做了一个 guizang-social-card-skill（https://github.com/op7418/guizang-social-card-skill）。它原来主要解决静态图文的问题: 把文章、产品说明、截图、照片这些素材，做成小红书 3:4 图文卡片，或者公众号封面。这次给它补了一个新能力: Live Photo 生成和编辑。你可以把产品录屏、网页 Demo、游戏片段、生活素材交给 Agent，让它做成小红书或公众号文章里能用的动态卡片。看一下 Codex 基于藏师傅的这个 Skills 给这次更新做的宣传视频：我一开始以为这只是“把视频放进卡片”。实际在实践和做的过程中，发现要处理的事主要有三个: - 第一帧要能当普通图发出去。 - 3 秒或 5 秒里只能讲一个很小的动作。 - 用户最后要能真的传到手机上发布，不能只停留在本地 Demo。所以这次更新不只是在导出 MOV 视频和 Live Photo。它还补了素材判断、首帧检查、平台时长和发布路径这些环节。 ## 这次能做什么单视频动态卡片：适合产品录屏、网页生成结果、代码运行、游戏操作。 Skill 会先按 3:4 卡片做版式，确认第一帧能看，再生成动态版本。拼图式 Live Photo：适合素材本身好看的内容: 旅行、产品细节、美食手作、生活方式。可以做成单视频、二宫格、三宫格、四宫格。很多时候不用加字，画面自己就够了。三连 Live Photo：适合三个并列结果: 三个生成案例、三个产品状态、三个游戏片段。这里的重点是“并列”，不适合把一个长教程硬拆成三段。长视频筛选：用户手里的素材通常不是刚好 3 秒或 5 秒。 Skill 会先粗看视频信息量，再建议裁一段、加速、拆成三连，或者放弃 Live Photo。很多工具喜欢说自己能“自动找高光”。我现在更愿意保守一点。自动选错以后，常见问题很难救: 第一帧黑屏、滚动跨了两个页面、UI 字太小、结果画面还没出现。 ## 怎么用比较合适先准备视频素材。不需要精剪到很漂亮，但最好别太长。每段 10 秒左右比较舒服。太长的视频会消耗更多 token，也更容易让 AI 误判重点。比较推荐的方式: 1. 先把原视频粗剪成几段。 1. 每段只保留一个重点。 1. 让 AI 判断哪一段适合做 Live Photo。 1. 再决定做单视频、拼图，还是三连。可以直接这样说: 帮我把这段产品录屏做成小红书 Live Photo 第一张卡，重点突出生成结果。或者: 这段视频有点长，先帮我判断哪一段适合做 Live Photo。完整教程不建议塞进 Live Photo。教程还是适合拆成 5-9 张图文卡片。 Live Photo 只放最需要动一下才说得清的那一页: 按钮点击后的结果、生成完成瞬间、游戏动作成功、食物切开的变化。比如我前段时间给这些模型做的测试，在演示生成的网页效果时，就是一张图对应一个案例。另外，陈抱一还有一个 Live Photo 开箱的栏目也可以看看，他一次只做一个动作，只展示这个产品的一个细节。 ## 适合哪些场景产品更新和 AI 工具演示：静态截图只能说明界面长什么样。Live Photo 可以展示点下去以后发生了什么。生成网页、生成代码、生成图片，只放静态图总有点像摆拍。这类素材里还有一种很常见: 原始录屏信息太小，手机上看不清。比如这类原始视频的 token 显示区域比较小。这里可以让 Skill 自动把关键区域放大，只保留用户真正需要看的部分。游戏攻略路线、timing、动作节奏、击中瞬间，很多时候截图讲不清。Live Photo 适合放一个关键动作，不适合讲完整攻略。游戏素材也适合做全屏动态卡。它不一定需要额外排版，只要把画面裁到合适比例，保留动作完成的那几秒。教程技巧不需要每一步都动。把最容易出错、最需要看到过程的一步做成 Live Photo 就够了。如果原来就是一套多图教程，Live Photo 可以只放在第一张或关键页。其他静态页继续负责解释、拆步骤、放细节。这样不会把一整套图文都改成视频，也不会打乱原来的阅读节奏。旅行和生活方式有些照片很好看，但少一点现场感。到达、走动、开门、转身，这些小动作会让图文更像真人内容。这类案例不需要太重的文案。一个开门、走动、拿起物品的片段，就能让图文从“设计图”变得更像真实记录。美食、手作、产品种草倒入、切开、搅拌、组装、旋转、开合，这些天然适合 Live Photo。它们不需要复杂文案，看见变化就够了。如果同一主题下有几个短片段，也可以做成拼图。二宫格、三宫格、四宫格都适合这类素材。重点是让多个片段同时提供质感，而不是给每个格子都加说明。判断标准很简单: 运动有没有提供证据。如果运动只是装饰，静态卡片更干净。 ## 做这个功能时我加入的细节第一帧要先过关：Live Photo 在信息流里先显示的是静态图。第一帧如果不好看，后面会动也没用。所以现在流程里会先抽首帧，当普通 3:4 卡片检查一遍: 裁切对不对，主体有没有被切掉，标题会不会挡住关键区域。视频当成图片位处理：视频不能随便全屏塞进去。视频区域沿用图片裁切逻辑：UI 密集就保留完整画面，主体明确就放大重点，人脸、产品、按钮、结果区不能被压住。先看 contact sheet：长视频不适合一帧一帧看。更省事的方法是抽 8-15 帧拼成一张 contact sheet。看一张图，基本就能知道有没有黑屏、转场、UI 太小、结果没出现这些问题。平台时长要分开：小红书按 5 秒做。公众号文章内按 3 秒做。时长不同，能承载的信息量也不同。3 秒只适合一个动作点，5 秒可以放一个很小的过程。发布路径要提醒清楚：Live Photo 最后不能只给一个视频文件。实际测试和发布时，需要把 JPG + MOV 打包成 .pvt，再 AirDrop 到 iPhone，从手机端发布。桌面端上传不一定能保留 Live Photo。这些细节不显眼，但少了任何一项，成品都可能停在本地测试里。 ## 为什么 Live photo 值得做图文平台里的“图”现在有点尴尬。静态图表达力有限。短视频制作成本又高。很多内容卡在中间: 不值得剪成视频，只用静态图又少一点说服力。 Live Photo 刚好补这个空位。用户还是在做图文，只是其中一张图多了一点运动。我觉得它有用，是因为很多内容需要一点动态证据：产品运行、网页生成、动作完成、食物切开。从 Skills 的角度看，这次更新中的实践需要注意：一个 Skill 不能只写触发词，还得写清审美、边界和工作流。当用户给一段视频素材时，AI 不只负责导出文件。它还要判断这段素材该不该动、动哪一段、放在哪张卡里，以及怎么让它仍然像一张能发出去的社交卡片。这类判断越多，Skill 就越不像一段 Prompt，越像一个可以复用的生产流程。 ## 怎么开始用如果你还没用过这个 Skill，可以直接把下面这段话发给有 shell 权限的 AI Agent: 帮我安装 guizang-social-card-skill。阅读 https://github.com/op7418/guizang-social-card-skill 项目的 Readme 后安装，安装完成后检查 SKILL.md、assets/、references/ 是否存在。如果你之前已经装过，可以直接让 AI 更新: 帮我更新 guizang-social-card-skill。请进入 ~/.claude/skills/guizang-social-card-skill 执行 git pull，然后告诉我当前最新 commit。更新完以后，你就可以把文章、截图、照片或视频素材丢给 Agent，让它生成小红书图文、公众号封面，或者这次新增的 Live Photo 卡片。我觉得这次更新对你有帮助的话，可以帮我点个赞或者转发给你需要的朋友。

译歸藏的guizang-social-card-skill新增Live Photo能力，支持单视频动态卡片、拼图式（二/三/四宫格）、三连Live Photo及长视频筛选。核心细节：第一帧可作为静态图发布；小红书5秒/公众号3秒时长区分；发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右，让AI判断适合做Live Photo的片段。安装或更新后即可使用。

OpenClaw🦞@openclaw · 22小时前31

Just going to leave this here for the haters.

译主推文只是说“把这段留给喷子”。引用推文中，Colin自我介绍：他是OpenClaw iOS UI的主要贡献者之一，作为志愿者维护者，他接受公开批评。他时间有限但对移动端智能体充满热情。他邀请大家与他对话、指出不足，并加入Discord共同改进。

Jim Fan@DrJimFan · 1天前71

ENPIRE -> ASPIRE, our 2nd work in the series for Physical AutoResearch. We are building the components for robot self-improvement, one /skill at a time.

译继EMPIRE后，Jim Fan团队发布ASPIRE，为机器人构建可自我进化、无限累积的技能库。编码智能体观察仿真和真实机器人的多模态感官轨迹，对控制程序进行进化搜索，将最佳策略蒸馏进不断扩展的库中。ASPIRE无需梯度下降或端到端策略，而是通过传递“技能知识”绕过sim2real和跨本体迁移难题，相比从头训练实现约10倍迁移学习token缩减。已在150+任务和90+技能上验证，计划开源全栈。

OpenBMB@OpenBMB · 1天前55

Big thanks for this fantastic share and hands-on testing of VoxCPM2! 👍 Voice is becoming editable – that’s the shift we’re driving. With VoxCPM2, you get Voice Design + Controllable Cloning, 30 languages & 9 dialects, all in a 2B open‑source model. https://github.com/OpenBMB/VoxCPM

译面壁智能发布VoxCPM2，一个2B参数的开源语音模型，支持30种语言及9种方言。该模型实现“声音可编辑”：通过提示词指定年龄、音色、情绪和语速，也可上传参考音频保留原音色并重新控制表达方式。实测显示，语音生成已从单纯模仿真人转向按需导演级表演，让声音变得像图片滤镜一样可描述、复制和改写。

François Chollet@fchollet · 1天前60

This will hopefully unlock a new wave of better entries. Check it out!

译tufalabs 刚刚开源了他们获得第一名的 notebook。主推文表示，这有望解锁新一波更好的参赛作品。

Nathan Lambert@natolambert · 2天前48

Happy to say @zafstojano - an added maintainer who helps me with the RLHF Book code - added a simple on-policy self-distillation example to the codebase, which can work on some toy problems. Excited to dig into this more, happy to see the repo fleshed out!

译很高兴宣布 @zafstojano —— 一位新增的维护者，他帮助我维护 RLHF Book 代码 —— 向代码库添加了一个简单的在线策略自蒸馏示例，可在一些玩具问题上运行。期待进一步探索，很高兴看到仓库不断完善！

Rohan Paul@rohanpaul_ai · 2天前51

Meta open-sourced a brain-to-text system that reaches 78% word accuracy without surgery. Brain2Qwerty v2 converts non-invasive brain recordings into text with 61% average word accuracy and 78% for its strongest participant. The system reads MEG signals from a helmet, not electrodes placed inside brain tissue. 9 volunteers typed about 22,000 sentences while researchers recorded 10 hours of neural activity each. Brain2Qwerty v1 mostly mapped brain signals to single typed characters. It tries to recover characters, words, and full sentence meaning together. The system studies those brain signals and tries to turn them into the words you wanted to type. - 61% average word accuracy across all participants - 78% word accuracy for the top participant - 50%+ of sentences decoded with no more than 1 word error Performance improves as the data pile grows Raw brain signals are messy because many mental and physical processes fire at once. Deep learning handles that mess by learning patterns directly from the original recordings. A fine-tuned LLM then uses language context to repair likely word and sentence errors. This explains why the system beats earlier non-invasive methods reporting 8% word accuracy. More than half of sentences from the strongest participant had one word error or less. Accuracy also improved as training data grew, suggesting more recordings may close more of the gap.

译Meta开源非侵入式脑机接口系统Brain2Qwerty v2，通过读取MEG头盔采集的脑信号实现文字输出，无需植入电极。9名志愿者每人录入约10小时、共约2.2万句神经活动数据。系统平均词准确率61%，最强参与者达78%；超50%句子解码误差不超过1个词。v2版本联合映射脑信号到字符、词汇及完整句义，深度学习直接从原始信号学习模式，再经微调LLM利用上下文修正错误。相比早期非侵入方法8%的准确率显著提升，且准确率随训练数据量增加而提高。

AK@_akhaliq · 2天前49

open-fusion in claude code with hf-claude

译在 Claude Code 中使用 hf-claude 进行 open-fusion。

向阳乔木@vista8 · 2天前64

如何管理和监控一个超过 10,000 块 GPU 的集群？腾讯团队开源了一个叫ARGUS的方案，强！大模型训练极其贵，一个万卡集群，一天的电费和硬件折旧可能就是几十万人民币。如果某节点出问题，或通信带宽被浪费了，损失巨大。 ARGUS 解决的核心问题：当集群出问题，能不能在几分钟内找到原因。论文发现：在万卡规模下，超过 70% 的训练中断，是由网络通信问题导致的，而不是 GPU 本身坏了。网络拓扑、路由策略、甚至网线质量，都会成为瓶颈。 ARGUS 的做法是：采集每个 GPU 的实时数据，包括计算负载、显存使用、网络带宽、通信延迟，然后自动做关联分析。一旦发现异常，直接定位到具体是哪块 GPU、哪条链路出了问题。原始论文见评论区

译腾讯团队开源ARGUS方案，用于管理和监控超10,000块GPU的集群。大模型训练成本极高，万卡集群每天电费和折旧达数十万元。ARGUS解决的核心问题是在集群出问题时几分钟内定位原因。论文发现：万卡规模下，超70%训练中断由网络通信问题导致，而非GPU故障。ARGUS通过采集每GPU实时数据（计算负载、显存、网络带宽、通信延迟）进行关联分析，精准定位故障GPU或链路。

karminski-牙医@karminski3 · 2天前60

SGLang 的 DSpark 实测数据在PR里放出了, 几个测试场景基本都能达到预测3个token, 其中数学类prompt是3.37个, 日常对话是3个, 代码是3.52个(果然代码是废token比较多的). 最亮眼的是加速比了, 在1K长度prompt下加速比来到了1.81倍. 测试使用的是8卡B200, 速度来到了 297 token/s. 而不使用DSpark 则是 164 token/s. 另外作者还测试了不同并发情况下的加速比, 目前来看单并发提升是最高的, 而超过8并发则只有1.2-1.3倍的提速了, 主要还是把GPU打满了. 另外比较震惊的数据时 DSpark 的 TPOT (每个输出 Token 的耗时) 只有2.9-5.2ms, 说明了这个DSpark内置的神经网络层运行得特别快. DSpark带来的延迟基本可以忽略不计了. 注意这个PR还没合并, 如果想尝试可以单独Fork这个PR29538.

译SGLang的DSpark在PR中放出实测数据，可预测3个token（数学类3.37，日常对话3，代码3.52）。1K长度prompt下加速比达1.81倍，8卡B200速度297 token/s（无DSpark为164 token/s）。单并发提升最高，超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms，延迟可忽略。该PR（#29538）尚未合并。

AK@_akhaliq · 2天前23

LongCat-2.0 dropping on Hugging Face soon

译LongCat-2.0 即将登陆 Hugging Face

meng shao@shao__meng · 2天前69

Codex 团队 @Dimillian 也是一位知名 iOS/Swift 开发者，把他的 Codex Skill Manager 开源了！这是一个用 SwiftUI + SwiftPM 原生构建的 macOS 应用，作为 Codex Skills 的图形化管理器和商店，把 Codex、Claude Code、OpenCode 和 Copilot 的四套 Skills 目录抽象成 SkillPlatform 枚举，让一个 GUI 统一管理跨平台的 Skills。 https://github.com/Dimillian/CodexSkillManager

Emad@EMostaque · 3天前70

We have seen multi model harnesses for cheaper & faster tasks What about for the hardest challenges? What about open source? Proud to share the latest update our Zenith harness, taking models you can use today above Fable on tasks that take hours or days

译ii 团队推出开源 Zenith harness，通过自适应自我改进（adaptive self improvement）将基础模型推向 FrontierSWE 基准榜首，在需数小时或数天的复杂任务（如蛋白质预测模型训练、编译器优化）上超越 Fable。同时预告 GLM 5.2 即将到来。

宝玉@dotey · 3天前79

Meta 今天同时放出两个大动作：Brain2Qwerty v1 论文正式登上 Nature Neuroscience，v2 同日发布。v1 去年以预印本形式公开时，能从脑电信号里逐字母还原打字内容，字符错误率 32%。v2 跳过了字母这一层，直接做到句子级别的实时解码，平均单词准确率 61%，表现最好的被试达到 78%，超过一半的句子解码误差在一个词以内。作为参照，此前非侵入式方法的单词准确率只有 8%。这里说的“非侵入式”，就是不需要开颅手术、不需要往脑子里植入电极。被试戴的是 MEG（脑磁图）设备，通过头皮外的传感器捕捉大脑活动产生的微弱磁场。相比之下，Neuralink 那类侵入式脑机接口准确率能到 90% 以上，但代价是一台开颅手术。 v2 的训练数据来自 9 名志愿者，每人戴着 MEG 设备打字 10 小时，总共录了约 22,000 个句子。系统用端到端深度学习直接处理原始脑信号，再通过微调大语言模型来利用语义上下文，把嘈杂的神经数据“翻译”成连贯的语言。Meta 还提到他们用 AI Agent 来探索解码流程的优化方案，最终的训练配置由工程师人工选定。一个有意思的发现：解码准确率随数据量呈对数线性提升。也就是说，单靠增加训练数据就有可能继续缩小和侵入式方法之间的差距。 Meta 开源了 v1 和 v2 的全部训练代码，合作方 BCBL（巴斯克认知、大脑与语言中心）则开放了 v1 的数据集。离实用还有多远？ MEG 设备体积大、造价数百万美元、需要磁屏蔽房间，目前只能在实验室环境下运行。而且这次的被试都是健康人，能否在真正需要帮助的脑损伤患者身上复现效果，还没有验证。便携式 MEG 替代方案（基于光泵磁力计）正在研发中，但离消费级产品还有相当距离。不过，把非侵入式脑机接口的句子解码能力从“几乎不能用”拉到“大致能沟通“，这一步本身的意义在于：它证明了不开刀也有可能做到接近开刀的效果，剩下的是工程问题而非原理问题。对全球数百万因脑损伤而丧失沟通能力的人来说，一条不需要手术的路径，哪怕还很远，还是很值得期待。官方介绍：https://ai.meta.com/blog/brain2qwerty-brain-ai-human-communication/

译Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文，同日发布 v2。v1 从脑电信号逐字母解码，字符错误率 32%。v2 实现句子级实时解码，平均单词准确率 61%，最优 78%，过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据（约 2.2 万句子），结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高，但该成果为脑损伤患者提供了无需开颅的可行路径。

Berryxia.AI@berryxia · 3天前62

开始让美女助教卖课了😂 丝滑～

译开源项目OpenMontage单日获3000 Star，将视频生产拆为12条pipeline，内置52工具和500+ agent skills。用户用自然语言描述需求，agent完成从调研到剪辑全流程，支持AI与真实素材混合工作流，具备预合成验证、后渲染自检等质量把控，渲染引擎Remotion+HyperFrames，普通人对话可产出专业级视频。

Berryxia.AI@berryxia · 3天前64

Supervision：Roboflow出品的计算机视觉开源工具包，斩获45K GitHub Stars，三周涨5K!。它把最常见的CV工作流抽象成了可复用的组件：模型无关的推理、各种 annotator（框、掩码、标签、轨迹）、数据集加载转换、跟踪和区域统计等。无论你用YOLO、RF-DETR还是其他检测模型，拿到detections对象后，几行代码就能完成标注和可视化。最强的地方在于它极大地降低了重复造轮子的成本。以前写一个检测+跟踪+统计的Pipeline要写好几百行，现在基本能用Supervision直接搭起来。社区也贡献了大量高质量的annotator和工具，让整个生态越来越完善。在当前多模型共存的时代，这种“模型无关 + 高质量可视化 + 数据集工具”的组合，基本成了大多数CV项目的默认依赖。 Github项目地址👇🏻

译Roboflow出品的Supervision工具包已获45K GitHub Stars，三周增长5K。它将常见CV工作流抽象为复用组件，支持模型无关推理、多种annotator（框、掩码、标签、轨迹）、数据集加载转换、跟踪及区域统计。用户只需几行代码即可用YOLO、RF-DETR等模型完成检测标注可视化，大幅降低重复造轮子成本，社区贡献了丰富工具生态。

宝玉@dotey · 4天前68

RepoPrompt 已经开源了，社区版（Community Edition）已上线 GitHub。背后的故事是这样的：几个月前，OpenAI 开发者体验负责人 Romain Huet 找到 Provencher，邀请他加入 OpenAI 团队。Provencher 答应之前提了一个条件，要先安排好现有付费用户。于是 Repo Prompt 先免费开放，现在彻底开源。 Repo Prompt 最初只做一件事：帮开发者从代码仓库里挑选文件，拼成一段高质量的 prompt，然后复制粘贴到 ChatGPT 或 Claude 里。听起来很简单，但它切中了一个真实痛点：把整个代码库丢给 AI 模型，效果往往很差，超过 32K token 的 prompt 甚至会让模型变笨，你需要精挑细选，只给模型看它真正需要的代码。这种做法现在有个正式名字叫上下文工程。开源版本的变化很大。Provencher 把架构做了一个反转：不再让应用本身去调度 agent，而是让内置的 MCP server 成为主控，底层的命令行工具（Claude Code、Codex、OpenCode、Gemini CLI）变成可以随时替换的执行层。这意味着你可以用一个推理模型做规划和任务分解，然后把子任务分发给不同的 agent 并行执行，每个 agent 只看自己负责的那部分文件。为了适应开源协作，很多老版本的手工拼 prompt功能被砍掉了，项目结构也从 Xcode 依赖中解耦出来，不需要装 Xcode 就能编译。贡献者管理借鉴了 libgdx 作者 Mario Zechner 的做法，维护一个白名单，之前的付费用户只要同意就自动成为认证贡献者。目前只支持 macOS，跨平台版本还在开发中，可以通过 Homebrew 安装（brew install --cask repoprompt-ce）。社区版：https://github.com/repoprompt/repoprompt-ce 老版本：https://github.com/repoprompt/repoprompt-classic

译RepoPrompt 已开源，社区版上线GitHub。作者Provencher被OpenAI招安，条件是为付费用户做好安排：先免费再开源，付费用户获赠Codex Credits。该工具从仓库挑选文件生成prompt，解决超32K token使模型变笨的问题，称为“上下文工程”。开源版反转架构：内置MCP server为主控，底层CLI工具可替换，支持推理模型规划并并行分发子任务。目前仅支持macOS，可通过Homebrew安装。

🚨 AI News | TestingCatalog@testingcatalog · 4天前64

Vida open-sourced BrowserBC, a framework that allows users to turn browser sessions into reusable skills for AI agents. > Instead of recalculating navigation on every turn, agents can follow a skill created from earlier task execution. > Vida reports a substantially higher success rate with fewer steps, via the same AI agent. Hotel booking bench? 👀

译Vida 开源了 BrowserBC 框架，能将浏览器会话转化为 AI 智能体的可重用技能。仅需一次录制，智能体即可依据之前任务执行的技能导航，无需每次重新计算。Vida 报告称，使用相同 AI 智能体，该方法成功率显著更高且步骤更少。

AYi@AYi_AInotes · 4天前72

岚叔牛逼，必须star！

译开发者@LufzzLiz 开源了一个AI skill，可将文章或架构内容先压缩为结构化JSON spec，再由本地Python + Pillow渲染出黑底手绘风格的PNG、GIF及可编辑的Excalidraw JSON。目前仅内置一种风格，用户可自行通过Agent DIY添加更多风格。开源地址在评论中。

Berryxia.AI@berryxia · 4天前72

真的，这一套东西搞成课程。线下陪跑不得卖个万八千的，兄弟们。看看行动力的时候了、姚老师居然都免费开源。抄作业吧。不废话了。👇

译Berry Xia称赞@yaojingang（姚老师）将本可卖到上万元的GEO内容工程课程资料全部免费开源。资源包括：3份核心文档（操作手册、研究报告、实操教程）、2本推荐书籍、3篇学术论文；GEO改写提示词、改写Skill、单篇内容GEO特征标注演示；以及3个GitHub开源仓库（GEO Skills、GEOFlow、Meta skill）。所有资源通过链接直接获取，无需付费或陪跑课程。

Berryxia.AI@berryxia · 4天前50

兄弟们，DeepSeek开源了DSpark！一个投机解码框架，不是新模型，是推理优化。核心问题：传统投机解码里，一个小的draft模型先猜一串token，然后大模型一次性验证。问题是猜的越后面越容易错，验证错误的猜测也浪费GPU算力。 DSpark的解法： 1. 并行backbone + 顺序head混合。纯并行猜测速度快，但后面的token会衰减，因为每个位置猜的时候不知道前面实际采样了什么。 DSpark加了一个小的Markov head，用前一个token调整当前猜测，解决了后缀衰减问题。 2. 置信度调度。加了一个置信度head，估算每个draft token的存活概率。再配合一个负载感知调度器，GPU空闲时多验证几个token，忙碌时少验证。不是所有猜的token都值得检查，只检查那些可能正确的部分。效果：在DeepSeek-V4生产环境中，单用户生成速度比MTP-1基线快60-85%。不同场景下吞吐提升1.5x到5x。开源内容： - 模型checkpoint：`DeepSeek-V4-Pro-DSpark` 和 `DeepSeek-V4-Flash-DSpark`，复用现有V4权重，附加draft模块 - 训练代码：MIT协议的DeepSpec代码库 - 与北京大学联合开发为什么重要：投机解码一直被认为"理论好但实战难"。 DSpark证明了在真实生产系统中，投机解码能稳定提速60%以上，而且不影响输出质量。 DeepSeek已经部署在生产环境里了。

译DeepSeek 开源 DSpark，一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构，消除后缀衰减；并引入置信度 head 和负载感知调度器，动态控制验证数量。在 DeepSeek-V4 生产系统中，单用户生成速度比 MTP-1 基线快 60-85%，吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 `DeepSeek-V4-Pro-DSpark`/`Flash-DSpark` checkpoint，以及 MIT 协议的 DeepSpec 训练代码，与北京大学联合开发。

Berryxia.AI@berryxia · 4天前63

兄弟们，这个项目简直是搞自媒体神器啊！斩获3.5K Star，还直接开源免费啊！还不赶紧给你的Agent搞起来啊又有一个给AI Agent装“互联网眼睛”的开源项目，叫Agent-Reach。它通过一个CLI工具，让Agent能免费读取和搜索Twitter、Reddit、YouTube、GitHub、B站、小红书等多个平台的内容。核心不是自己写爬虫，最牛的是智能选择当下最稳定的开源后端工具，并自动做健康检查和故障切换。安装后，Agent就能直接处理“帮我看这个YouTube视频的字幕”“搜一下Twitter上对这个产品的评价”“全网搜LLM框架对比”这类任务，而且全程零API费用、本地运行。最实用的是它把这些碎片化的能力封装成了Agent可直接调用的skill，还做了多后端路由和自动降级，让整个系统更稳定可靠。这其实是在补齐当前很多agent最缺的一块能力：低成本、可靠的网页和社交媒体内容获取。非常丝滑和nice，搞创作搜集信息的兄弟们，别错过了！ ✍🏻项目地址，记得给作者Star啊，见评论区👇🏻

译Agent-Reach（3.5K Star）通过CLI工具让AI Agent免费读取Twitter、Reddit、YouTube、GitHub、B站、小红书等多平台内容。核心是智能选择当下最稳定的开源后端，自动健康检查和故障切换，无需自写爬虫。安装后Agent可直接处理“看视频字幕”、“搜产品评价”等任务，全程零API费用、本地运行。项目将碎片能力封装为Agent可调用的skill，实现多后端路由和自动降级，补齐Agent低成本、可靠获取网页和社交媒体内容的能力。

Chubby♨️@kimmonismus · 5天前67

BrowserBC, a new open-source project from the ViDA team, explores a more efficient way to run web agents. Instead of using a frontier model for every step of an agent workflow, BrowserBC records a human web flow once with a stronger model, distills it into a reusable skill, and then lets a smaller, cheaper model handle execution. The reported results are notable: on WebArena-Hard, tool calls drop by 27%, while success increases from 60% to 81%. A very good open source project at the right time.

译ViDA 团队开源的 BrowserBC 项目，探索更高效的 web agent 运行方式：先用强模型录制一次人类浏览器操作流程，将其蒸馏为可复用技能，再交给更小更便宜的模型执行。一次录制即可泛化技能。在 WebArena-Hard 上，tool calls 降低 27%，成功率从 60% 升至 81%。

Berryxia.AI@berryxia · 5天前61

这个老师讲解LLM 真是通俗易懂啊，兄弟们～你觉得呢？

译一位老师以通俗易懂的方式讲解大语言模型（LLM），引发网友共鸣，并邀请大家分享看法。原文信息有限，未提及具体模型名称或课程细节。

AYi@AYi_AInotes · 5天前73

终于有人把深度 Agent 的底层逻辑讲透了，不靠堆模型参数，通过三大工程化技巧直接解决长任务忘事崩链的问题。 LangChain 官方这套从零构建深度 Agent 的教程，直接扒透了 Manus 和 Claude Code 这类顶级 Agent 的核心设计， 5 个渐进式 Notebook 手把手带你落地，全程可跑通。核心就是三套上下文工程模式， 1. 结构化 TODO 任务规划，带状态管理，防止 Agent 跑偏漏步骤。 2. 虚拟文件系统卸载上下文，大幅省 token，实现跨轮次记忆。 3. 子代理委派加上下文隔离，复杂任务拆分并行，互不干扰。从最基础的 ReAct 循环开始，一步步叠加任务规划，文件系统，子代理能力，最后直接搭出一个能联网做深度研究的完整 Agent。不是那种纸上谈兵的理论，每一步都有可运行的代码。本质上高级 Agent 的差距其实不在模型本身，主要在上下文工程的架构设计上。想搞懂长周期 Agent 的朋友，跟着走一遍收获会很大，配套还有开箱即用的 deepagents 生产库，学完就能直接复用进自己的项目，仓库链接放评论区了，推荐用 uv 管理依赖，跟着 Notebook 顺序跑就行。

译LangChain 官方发布深度 Agent 从零构建教程，通过三大上下文工程技巧解决长任务“忘事崩链”：1）结构化 TODO 带状态管理；2）虚拟文件系统省 token 实现跨轮记忆；3）子代理委派并隔离上下文。教程含 5 个渐进式 Notebook，从 ReAct 循环起步，逐步叠加规划、文件系统、子代理，最终搭建可联网深度研究 Agent。配套 deepagents 生产库可复用。强调高级 Agent 差距在上下文工程架构设计，而非模型本身。

elvis@omarsar0 · 5天前61

http://x.com/i/article/2069825847729508352 # Building Agents with Vercel's Eve Framework Vercel recently shipped Eve, an open-source framework for building, running, and scaling agents. The core idea is that you stop hand-rolling the same agent plumbing every time, and start treating an agent as something you can read off disk. This is the practical version of what Eve is, why it matters, and what building with it actually looks like, drawn from the free hands-on lab we just built around it. Below you can read some of my thoughts (written with the help of Claude) after spending a week building with Eve. If you want to try Eve without any setup, we built a free hands-on lab where you drive the real eve CLI in a live terminal with no API key of your own required. You can try it at Introduction to Eve. ## Where Eve comes from Eve comes from a team at Vercel and is open source under the Apache 2.0 license. The official Vercel documentation describes it as a filesystem-first framework for durable backend AI agents, and it is currently in beta, so the APIs can still change before general availability. > "Agents today are where the web was before frameworks, with everyone hand-rolling the same plumbing and nothing carrying over to the next one." The Eve team, Vercel. Introducing Eve, June 17 2026. That is the whole motivation. Durable sessions, a sandbox to run code, approvals, tracing, evals. Every team rebuilds these before their agent does anything useful, and none of it transfers to the next project. Eve ships that infrastructure as the framework, so production is built in from the first run instead of bolted on at the end. ## An agent is just a directory of files The core idea, and the one the lab keeps returning to, is that an agent is not a graph you wire together in code. It is a folder. > "An agent is a directory. A file's name and place in the tree are its definition." The tools an agent can call, the skills it knows, the subagents it delegates to, its schedules, and its evals all live on disk as plain files. You can open the folder and see exactly what your agent is, diff it, commit it, and hand it to a teammate. There is no hidden runtime state to reason about, because the file tree is the state. Two files at the root define the agent itself. agent/instructions.md holds the always-on system prompt, and the optional agent/agent.ts sets the runtime config such as which model to use. Every capability below them, the tools, skills, subagents, connections, channels, and sandbox, is a directory eve auto-discovers by name, so adding one is usually just adding a file. ## The parts you assemble In the lab, each capability is one file you drop into the project, and Eve wires it up with no registration step. Here is what those files actually look like. Tools are the agent's hands. A tool is a typed action the agent can call, defined in a file under agent/tools/. The lab ships save_note.ts. The model decides when to call a tool from its description. Your code decides what happens, and it runs in your app runtime with full access, not in the sandbox. That split is what keeps an agent both flexible and safe. Skills give the agent know-how instead of actions. A skill is a markdown file under agent/skills/, advertised by a one-line description and loaded into context only when a request matches. The lab's filing.md is a few lines. Ask the agent to "log" a note and it loads this skill, files the note, and signs it off with "Filed with eve." that you never asked for. This is progressive disclosure. A support agent can hold dozens of playbooks as skills and pull in only the one the ticket needs, so the prompt stays lean. Subagents let one agent delegate. Every agent gets a built-in agent tool, so the parent can fan three subtasks out at once and gather the results. This is exactly how V routes work across Vercel's fleet of Eve agents. Human-in-the-loop gates the actions that need judgment. Mark a tool needsApproval: always() and the run pauses for a person before it executes, burning no compute while it waits. The pause is durable, so a task can wait on a human for minutes or days and resume right where it stopped. That is the draft0 pattern. Move fast on everything low-risk, and keep a hand on the few actions that ship. Durable sessions are why all of this survives the real world. Every conversation is a checkpointed workflow, so it survives a crash or a deploy and resumes exactly where it stopped. In the lab the agent simply remembers a fact you gave it three messages ago. In production it is an agent whose work starts in Slack and continues on the web days later, with no state-management code that you wrote. Evals prove it still works. An eval drives the real agent through a session and asserts on what happened. Change a prompt or a tool, run the evals, and you catch the regression before your users do. They run locally and in CI, the same way unit tests do. Connections are the way out, and channels are the way in, each a single file. A connection points the agent at an external service, an MCP server or an OpenAPI-style API, and Eve brokers the auth so the model never sees the URL or credentials. A channel puts that same agent in Slack, Discord, Teams, or behind an HTTP API. The agent you built in the terminal is the agent that ships to Slack. You change where it lives by adding a file, not by rewriting it. The pattern is always the same. Drop a file, the agent reads it, behavior changes, and you commit the file alongside your code. ## What this looks like in production This is not a toy. The examples below come straight from Vercel's Eve announcement, where the team describes the fleet of more than a hundred agents they run internally. The lab uses these same agents as the reference for each concept you learn. - d0, an internal data agent, answers around thirty thousand questions a month through a single read-only SQL tool against the warehouse. - Vertex, a support agent, resolves about ninety-two percent of tickets on its own by reaching into the help center and internal tools through connections. - Athena, a sales agent wired to Salesforce and Snowflake, was built in six weeks with no engineers. - draft0 drafts and reviews content, but a human signs off before anything ships. - V sits in Slack, reads each incoming task, and routes it to the agent best suited to answer. Every one of these is the same shape you build in the lab. The difference between the agent in your terminal and the one resolving real support tickets is mostly which files are in the directory. ## A concrete first session You do not start from a blank page. In the lab you launch a working agent in a real terminal and talk to it in plain English. You ask it to build something, say a small welcome.html, and watch it call its write_file tool and save the result to its sandbox, never touching your real machine. Then you hand it the save_note tool above, ask it to file a note, and see it pick the tool on its own from the description. From there the lab layers on a skill, a subagent, an approval gate, an eval, and a connection, one file at a time, until you have walked the whole framework. ## From your laptop to production This is where the filesystem-first bet pays off. > "The same directory runs in production exactly as it ran on your laptop." It is a normal Vercel project. Eve compiles the agent/ directory into an app that runs on Vercel Functions, so the agent you built and tested locally is the agent that deploys. What changes is not your code but the infrastructure underneath it, and each piece maps to a documented Vercel service. - The sandbox graduates. Locally the agent runs in an isolated, bash-style sandbox. In production each agent gets a real isolated Vercel Sandbox, so it can run shell commands and write files without ever touching your application runtime. - Sessions become durable workflows. Eve persists session state on Vercel Workflows, so a run survives a deploy, recovers from a cold start, and can pause on a human approval for minutes or days, then resume exactly where it stopped. The docs put it plainly, sessions "resume after cold starts, deploys, or long pauses." - Schedules and channels go live. Your defineSchedule files start firing on cron, and the channels you added put the same agent in Slack, Discord, Teams, or behind an HTTP API. - Every run is traced. Vercel Observability shows each agent run with its sessions, turns, tools, reasoning, timing, and token usage, with no setup. - Models and auth are handled. Model strings route through AI Gateway with OIDC, so you never manage provider keys, and Vercel Connect brokers OAuth and API keys for your connections. - One agent becomes a fleet. The same shape scales horizontally, which is how Vercel runs more than a hundred of these agents at once, each one just a directory. You do not re-implement anything for production. You deploy the directory, and the framework handles durability, isolation, models, and scale. ## How to get started 1. Scaffold a project. Run npx eve@latest init my-agent to create the project, install dependencies, and start the dev server. You get an interactive agent in your terminal in seconds. Talk to it in plain English. 1. Give it a tool. Add a defineTool file like save_note, ask the agent to use it, and watch it call your code. 1. Teach it a skill. Write a short markdown file with a description that says when to use a procedure. This encodes know-how without writing logic. 1. Delegate with a subagent. Hand off a focused job through the built-in agent tool so your main agent stays clean. 1. Prove it with an eval, then schedule it. Add a defineEval file and a defineSchedule file with a cron line. Now you have a checked, recurring agent. 1. Connect and ship. Add a connection to reach a real service, a channel to put the agent in Slack, then deploy the same directory to Vercel. Here is the takeaway. Eve's bet is that an agent should be a set of files you can read, not a runtime you have to trust. That makes agents inspectable, versionable, and portable, and it moves the hard production concerns into the framework where they belong. If you see any errors or things that need further clarification, don't be afraid to reach out. ## Other Useful References - Eve documentation, the official docs - Eve concepts, how agents, sessions, tools, skills, connections, and sandboxes fit together - Introducing Eve, the Vercel announcement - vercel/eve, the open-source framework on GitHub - Introduction to Eve, our free hands-on lab

译Vercel 开源了框架 Eve，将智能体视为一个目录：`agent/instructions.md` 定义系统提示，`agent/agent.ts` 配置模型等运行时参数；工具（`agent/tools/` 下的类型化文件）、技能（`agent/skills/` 下的 Markdown 文件，按需加载）、子智能体（内置 agent 工具实现委托）和人工审批（`needsApproval` 标记）均以文件形式存放，无需注册步骤。Eve 内置持久会话、沙箱、追踪和评估等生产级基础设施。

向阳乔木@vista8 · 5天前46

第二次GEO公开课直播的资料如下： 1、《GEO内容工程操作手册与评估标准》https://doc.laoyao.cn/9fl0bc 2、《GEO内容工程系统研究报告》https://doc.laoyao.cn/t754wa 3、《GEO 内容工程方法体系与单篇内容实操教程》https://doc.laoyao.cn/54yx5b 3、《系统之美》《人人都该懂的工程学》 4、《GEO: Generative Engine Optimization》https://doc.laoyao.cn/0elhy1 5、《Generative Engine Optimization in digital repositories: optimizing visibility for generative AI》https://doc.laoyao.cn/fnf30e 6、《A Measurement Framework for Generative Engine Optimization Across AI Search Platforms》https://doc.laoyao.cn/ykiktr 相关资源： 1、GEO改写提示词：https://ai.laoyao.cn/ylOfC 2、GEO改写Skill：https://ai.laoyao.cn/cqWRs 3、GEO单篇内容GEO特征标注演示：https://doc.laoyao.cn/00j3ps GEO系统与skill： 1、GEO Skills：https://github.com/yaojingang/yao-geo-skills 2、GEOFlow：https://github.com/yaojingang/GEOFlow 3、Meta skill：https://github.com/yaojingang/yao-meta-skill 课程PPT： https://ppt.qiaomu.ai/decks/geo-open-class-2-handout

译本周六晚8点，姚老师在WaytoAGI进行第二次GEO公开课，主题为“GEO内容工程”。直播资料包括三份核心文档（操作手册、研究报告、实操教程）、两本推荐图书（《系统之美》《人人都该懂的工程学》）及三篇GEO相关论文。相关资源有GEO改写提示词、改写Skill及单篇内容GEO特征标注演示。开源项目包括GEO Skills、GEOFlow、Meta skill的GitHub仓库及课程PPT。

AYi@AYi_AInotes · 5天前53

这哥们真是个天才，直接把大模型 API 的商业模式干穿了，OpenAI 大概率不喜欢这个项目🤣

Berryxia.AI@berryxia · 6天前71

这个开源视频制作工作流真爽啊！单日斩获3000 Star，真的牛～又一个把AI coding agent直接变成视频制作工作室的项目开源了，叫OpenMontage。它把整个视频生产流程拆成12条结构化pipeline（动画解说、纪录片蒙太奇、电影感、Talking Head等），内置52个工具和500+个agent skills。用户只需要用自然语言描述需求，agent就能完成调研、脚本、素材生成、剪辑合成全流程。最硬核的是它同时支持AI生成内容和真实素材工作流，还做了生产级的质量把控（预合成验证、后渲染自检、预算控制）。渲染引擎用了Remotion和自研的HyperFrames，能输出高质量的动态视频。本质上它是把“视频制作”这件事彻底agent化了，让普通人也能通过对话让agent产出接近专业水准的视频内容。

译OpenMontage开源，将视频生产拆为12条pipeline，内置52工具、500+ agent skills。用户自然语言驱动agent完成调研、脚本、素材、剪辑全流程，支持AI与真实素材混合，含预合成验证、后渲染自检等质量控制，渲染引擎为Remotion+HyperFrames。发布单日获3000 Star。

Rohan Paul@rohanpaul_ai · 6天前38

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/openais-new-paper-shows-how-they 🗞️ OpenAI’s new paper shows how they are now seeing the first version of office work where agents do most of the execution. 🗞️ New report on "The State of the AI Economy" 🗞️ New York Times: OpenAI is now leaning toward a 2027 IPO because the public market is testing whether AI giants deserve trillion-dollar prices before they prove durable profits. 🗞️ Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention 🗞️ The Economist: AI has pushed the internet’s content machine into a new phase, with books, lawsuits, research papers, apps, and songs now being produced at volumes that old review systems were not built to handle. 🗞️New research from OpenAI reported a training result where RL on realistic human situations made models carry safer, more useful behavior into tasks they had not trained on. 🗞️ MIT study. Code volume surges by 300%, but output increases by only 30%: The AI dividend meets an awkward reality. 🗞️ Qwen just released Qwen-AgentWorld, a 35B open-weight world model that learns how terminals, browsers, Android devices, code repos, search systems, OS tools, and MCP servers respond when an AI agent takes an action.

译本期周刊涵盖多项AI动态：OpenAI新论文展示智能体可执行大部分办公室工作的首个版本；NYT称OpenAI倾向于2027年IPO；OpenAI新研究发现基于真实人类场景的RL训练使模型在未来任务中更安全、有用；MIT研究显示代码量激增300%但产出仅增长30%；Qwen发布Qwen-AgentWorld，一个35B参数开放权重世界模型，可学习终端、浏览器、Android设备、代码仓库、搜索系统、OS工具及MCP服务器对AI智能体操作的响应。

AYi@AYi_AInotes · 6天前76

有人把网红峰哥做成了能实时打电话的 AI 分身，连说话风格都一模一样。这是开发者 Leaf 刚开源的项目，把实时对话、音色克隆、人格注入三件事打通了，工程延迟压到一秒以内。最厉害的是拆解式优化思路，把语音链路拆成三步逐个击破: ・语音识别用 Cartesia ink-whisper, 降噪防误触发・大模型选 MiniMax 高速版，首字响应三百六十一毫秒・语音合成用 VoxCPM 开源克隆，十五秒素材就能复刻从最初八到二十秒的语音邮件感，硬生生优化到实际体感两到三秒，跟打电话没区别，光声音像还不够，项目用女娲 Skill 做人格蒸馏，从直播语料里提取口头禅、思维方式、表达逻辑，聊起来真的像本人在跟你说话，普通人半小时就能跑通: 把项目克隆到本地扔给 Claude Code 或 Cursor 说帮我配置启动填两个 API Key 就能用想换成任何人都可以，准备十五秒清晰语音加一段人格描述就行。 GitHub 链接放评论区，想做自己 AI 分身的直接拿去用。

译开发者 Leaf 开源项目，将网红峰哥做成能实时通话的 AI 分身，集成实时对话、音色克隆和人格注入，工程延迟压到 1 秒内。技术拆解：语音识别用 Cartesia ink-whisper 降噪防误触发；大模型选 MiniMax 高速版，首字响应 361ms；语音合成用 VoxCPM 开源克隆，15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通：克隆项目后，用 Claude Code 或 Cursor 配置，填两个 API Key 即可使用。

SenseTime@SenseTime_AI · 6天前60

𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗰𝗼𝗱𝗲 𝗶𝘀 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 — 𝗳𝘂𝗹𝗹 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝘀𝘁𝗮𝗰𝗸, 𝗶𝗻𝘀𝗽𝗲𝗰𝘁𝗮𝗯𝗹𝗲, 𝗺𝗼𝗱𝗶𝗳𝗶𝗮𝗯𝗹𝗲, 𝗿𝗲𝗯𝘂𝗶𝗹𝗱𝗮𝗯𝗹𝗲. Also released: a smoke-test dataset spanning all 7 task types — t2i · it2i · it2i (multi-img) · interleave_gen · multimodal understanding · video understanding · pure language continuation Use it to: 🔹Bring your own data in this schema to fine-tune U1 into a specialist 🔹Validate your data against the official schema 🔹Smoke-test your pipeline end-to-end 🤗 https://huggingface.co/datasets/sensenova/SenseNova-U1-Training-Sample 🛠️https://github.com/OpenSenseNova/SenseNova-U1 Sample previews demonstrating the diverse task coverage included in our open-source smoke-test dataset. 👇

译商汤开源 SenseNova U1 完整训练代码，提供可检查、可修改、可重建的完整训练栈。同步发布 smoke-test 数据集，覆盖 t2i、it2i、多图输入、交错生成、多模态理解、视频理解、纯语言续写 7 种任务类型。用户可基于该 schema 用自有数据微调 U1，或验证数据格式及端到端测试 pipeline。数据集已上架 HuggingFace，代码托管于 GitHub。

Berryxia.AI@berryxia · 6天前69

岚叔又开源了一个实用skill：把文章或架构内容直接转成手绘风格的动态图。他先让模型把内容压缩成结构化的JSON spec，然后用本地Python + Pillow渲染出黑底手绘风的PNG和GIF，还能同时输出可编辑的Excalidraw JSON。整个流程做成了agent可直接调用的skill。这其实是在解决一个很实际的需求：很多人写完架构或长文后，最头疼的就是怎么把复杂内容可视化出来。传统方式要么手动画，要么用工具转得很死板。现在直接让agent帮你生成带手绘质感的动态图，效率和观感都上了一个台阶。而且他把代码开源了，风格也比较克制（黑底手绘），方便大家继续扩展更多风格。项目地址：https://github.com/cclank/lanshu-animated-architecture-diagram

译开发者岚叔（LufzzLiz）开源了一个可供AI智能体调用的Skill，能将文章或架构内容自动转化为黑底手绘风格的PNG动图、GIF以及可编辑的Excalidraw JSON。实现原理：先用模型将内容压缩成结构化JSON spec，再通过本地Python + Pillow渲染。该项目旨在解决复杂内容可视化难题，目前仅内置一种风格，用户可自行扩展。开源地址已在评论中发布。

Berryxia.AI@berryxia · 6天前60

我靠，这个项目还挺有意思的！有人用AI做了一个能实时解说世界杯的解说员，而且不只支持英语，还能切换成法语。它实时抓取直播画面帧，让GPT-5.4-mini看比赛并生成解说词，再用ElevenLabs以体育解说员的语气播报出来。整个过程是端到端的实时调用，已经能比较自然地跟上比赛节奏。更关键的是，这个系统不是死板的模板生成，直接让模型真正“看”比赛内容后再组织语言。这意味着理论上它可以适应不同语言、不同风格的解说，甚至未来还能做双解说员对喷这种更有趣的玩法。目前最大的挑战还是延迟和解说的精准度，但方向已经很明确了：AI正在从“辅助内容”变成“实时内容生产者”。这让我想到2个玩法，一个是已经有的产品叠叠社的一个字母实时互动，一个是声音多种声线克隆或者直接使用有些比如建国的声音来解说，就会比较有意思。项目已经开源，地址见评论👇🏻

译开发者@zicohacks利用AI构建了一个实时世界杯解说员。系统像观众一样观看直播，采样最新帧，让GPT-5.4-mini理解比赛内容并生成解说词，再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用，已能较自然跟上比赛节奏，支持英语和法语切换。项目已开源，目前主要挑战是延迟和解说精准度，但方向明确——AI正从辅助内容变为实时内容生产者。

向阳乔木@vista8 · 6天前55

如果你运营微信群，想要活跃就要多发红包、多发福利。有时会提前拿到些AI产品内测邀请码，抽奖是相对公平的方式。应对此场景，Vibe Coding 了个轻量抽奖工具。后台随时添加抽奖活动： 1. 支持手机号/IP限制，中奖概率设置 2. 批量兑换码添加、中奖查询 3. 移动端适配等代码免费开源，欢迎 Fork 改成你的版本。 https://github.com/joeseesun/qiaomu-lucky

译开发者@vista8 针对微信群福利场景，Vibe Coding 了一个轻量抽奖工具 qiaomu-lucky。该工具开源免费，支持后台随时添加抽奖活动，包括手机号/IP 限制、中奖概率设置、批量兑换码添加、中奖查询及移动端适配。代码托管在 GitHub，用户可 Fork 自定义。

MiniMax (official)@MiniMax_AI · 6天前44

More great options for the open-weight ecosystem. Thanks @NVIDIAAI for making MiniMax M3 available in NVFP4.

译开源权重生态的更多好选择。感谢 @NVIDIAAI 使 MiniMax M3 可在 NVFP4 中使用。

小互@xiaohu · 6天前81

http://x.com/i/article/2070315221424787456 # 我把自己的IP配图技能开源了顺手做了31个现成角色最近一直有人找我要我这个个人 IP 配图的技能，我答应大家会开源。但拖了挺久，一直没放出来，不是想私藏什么的哈哈哈因为我觉得还不够好... 倒不是技能本身不行，我自己每天都在用，问题出在另一头：我自己用没事，我有"小互"这个固定形象；可你们很多人压根没有自己的 IP 形象，也不太会从头捏一个。技能直接给出去，你装上一看，里面站着的是我的小互，用别人的脸发自己的号，这事就很别扭…… 所以我又埋头打磨了一周多，自己生成了一整套 IP 角色库：31 个现成的原创角色，统一画风，装上后你可以自己选择合适的形象来配图。这样就算你没有自己的形象，也能立刻用起来，等哪天你想换成自己的，也就一句话的事。今天正式开源，分享给大家：叫小互 IP Studio。先看看都有什么形象…… ## 一、先说它到底能干嘛一句话：你把写好的文章丢给它，说一声"配图"，它会自己读取你文章、自己规划该配什么图，配几张、插入到什么地方、自己自动进行生成…… 你基本就动动嘴。而且配出来的图不是随便凑数的：它用你选定的那个固定角色来演，一篇篇配下来，顺手就把你的 IP 形象立住了。（为了展示技能效果，下面每幅图用了不同的 IP 形象，实际过程中，统一一个 IP 形象好一点）具体它替你干这几件事： ① 自己读完整篇，挑出哪段该配图：不用你指哪打哪。它一段一段过，判断这段值不值得配图；连"这段不用配"它都得说出为啥，免得偷懒，把那些枯燥又难懂的段落（讲原理、讲机制那种）悄悄跳过去。 ② 自己决定每段配哪种图：想让人有共鸣的，配张角色演情绪的图；讲不清的流程、结构，配张一看就懂的示意图（让角色钻进去当讲解员，不是那种没人看的 PPT）；有来龙去脉、有反转的，配个四格漫画。 ③ 自己想画面、写提示词、定尺寸：每张图都照你这篇现想，不套旧图模板；图是横是竖，按手机上看着顺眼来。 ④ 自己检查、自己返工：画完它挨张自查：该配的点对不对、角色有没有画歪、图里的字写错没……不合格的自己重画，不用你盯着。你全程只拍两次板： - ① 生图前瞄一眼清单 —— 它打算配哪几张、每张画啥，趁没花钱先拦一道。 - ② 挑一次角色和画风 —— 这是品味活，它不替你做主。剩下那些调提示词、统一风格、让角色每张长得一样的烦人活，全归它。 ## 二、特色：现成角色 + 多画风 + 一套防翻车的方法论 ## 特色 1：31 个角色，挑一个就能开演这是这次新做的、也是我之所以敢开源的关键。就算你没有自己的 IP 形象，也有现成的班子可用。 31 个原创角色，统一极简手绘线稿风，分两大系列：系列一·手绘线稿 ×15 - 职场态 ×8：小互（主角）/ 团团（躺平）/ 方方（KPI 古板）/ 泡泡（画饼）/ 电量（能量条）/ 续命（咖啡）/ 丁零（催命）/ 贴贴（健忘） - 当代情绪态 ×7：淡淡（淡人）/ 破防君（玻璃心）/ 疯崽（发疯）/ 牛马（打工人）/ 缩缩（i 人）/ 木鱼（电子木鱼）/ 替替（AI 焦虑）写哪类文章就调哪个角色：讲 AI 焦虑用替替，讲打工人用牛马，讲躺平用团团。一篇锁一个主角，整组图气质就立住了。系列二·谐音梗 meme ×16 最近新做的一套，玩法更野——谐音梗拟人，极简到只剩几根线（线条小狗那种表情包味），配色只留一点本色点缀。 - 食物拟人 ×11：蕉绿（焦虑的香蕉）/ 暴躁辣椒 / 苦瓜脸 / 柠檬精 / 咸鱼 / 洋葱（一层层、爱哭）/ 蒜鸟（"算了"）/ 韭菜（被割）/ 续命咖啡 / 社恐蘑菇 / 蔫茄子 - 符号成精 ×5：问号人 / 叹号人 / 闪电（内卷狂奔）/ 五角星（邀功显眼包）/ 三角（杠精）符号成精这几个挺好玩——不是"一个人举着问号"，是让问号、叹号自己长出脸和手脚成精。做这套 meme 的时候推翻了好几版，最后逼出三条我自己很认的"IP 定律"：弱人设/反差 > 强造型（越想靠造型奇观显眼越失败）；角色是"情绪代名词"（让人看到就想说"这就是我"）；特色在姿态和态度里，不在静态奇观里。这三条也解释了为什么"线条小狗""蛋黄哥"这类极简形象能火——都赢在态度，不在精致。 ## 特色 2：一套招牌画风打底，另备几种皮肤随调性换你在这篇文章里看到的所有配图，都是同一种画风——手绘线稿淡彩（细黑墨线 + 淡彩晕染 + 白底留白）。这是默认的招牌风，我刻意只锁它一种：辨识度来自统一，不是多样。一套招牌画风，读者刷到图，一眼就知道是谁出品的。但万一你换了题材、想换个调子，库里另备好几种现成皮肤，按文章调性挑就行： - 3D 盲盒手办 — 产品发布、封面级吸睛 - 黑白线稿 — 深度解读，不抢文字 - 扁平矢量 — 教程，信息清晰 - 编辑插画（纽约客风） — 观点文，有态度 - 水彩淡彩 — 人文向，温暖叙事 - 马克笔手账 — 轻松话题，梗图感关键一条：换皮肤不换角色。不管套哪种画风，红框眼镜、招牌特征一个都不丢——同一个角色，只换渲染风格，辨识度还在。 > 一句私心建议：能守住一种招牌风，就别每篇换——换多了反而把辨识度稀释了。真要偶尔换，传张角色锚点图让 AI 临时"现转"成那个风格就行，不用预先囤一堆皮肤。 ## 特色 3：真正的门道，在动笔之前模型谁都能调，画质是公平的。真正决定一张配图有没有用的，是动笔之前那套判断。这套判断我固化成了几条死规矩： 1. 一段都不放过，不许只挑顺眼的画。文章每段都得过一遍、判一下配不配，连判"不配"都要写理由。漏一段 = 神不知鬼不觉就少配了，这正是以前配图老偏少的根子。 1. 该配的别漏，不该配的别凑。文字已经说明白的点，不配（配了纯占版面）；越是难懂的原理、绕的结构，越得配张图讲清楚。而且判断配不配，看的是读者会不会卡住，不是"我自己觉得讲清楚没"——你自己懂了，最容易高估读者也懂。 1. 先分类，再动笔。情绪图 / 示意图 / 四格漫画，先归好类再画，不然一篇里所有图都会画成"一个角色 + 一个道具"一个样，看三张就腻。 1. 画完自己挑刺。出图后还有一张自查表：该配的点对不对、结构全不全、角色占多大、图里的字写错没……不对的自己重画。说白了，就是把"一个配图老手脑子里那套判断"，写成了 AI 能照着一步步走的流程。AI 画得越好看，这道内容关反而越要紧——一张好看但把道理画错了的图，比丑图还坑人。 ## 三、怎么装：傻瓜式，照着敲就行它是一个标准的 Agent Skill——本质就是一个文件夹，里面一份 SKILL.md 说明书加几个脚本。任何认 SKILL.md 格式的 AI 工具都能用：Claude Code、Codex、小龙虾（OpenClaw）、Hermes……区别只是各家"把技能放哪个目录"略有不同。依赖少到几乎没有：只要一个 python3，纯标准库，零第三方包，不用 pip 装一堆环境。 ## 第一步：把技能装进你的工具最省事——一句话让 AI 自己装。复制下面这段，直接发给你的 Claude Code / Codex（小龙虾、Hermes 也一样）： > 帮我装一个开源配图技能：把 https://github.com/xiaohuailabs/xiaohu-ip-studio 这个仓库 clone 到你的技能目录下，进到目录运行 python3 scripts/illo.py init 引导我填图像 API key，再运行 python3 scripts/illo.py doctor 自检。装好后告诉我怎么开始配图。它会自己找目录、拉仓库、跑配置——你全程不用记任何命令。这就是 agent 时代最傻瓜的装法：让 AI 自己装。想自己动手装也行： - Claude Code：一行命令 git clone https://github.com/xiaohuailabs/xiaohu-ip-studio.git ~/.claude/skills/xiaohu-ip-studio - Codex / 小龙虾（OpenClaw）/ Hermes：同一个仓库，git clone 下来，把整个 xiaohu-ip-studio 文件夹丢进各家的技能目录就行（各家位置不一样，README 里有对照表）。 ## 第二步：填一次你自己的图像 API key 工具不内置任何密钥，你填自己的。它支持任何 OpenAI 兼容的图像端点，默认用 GPT-image-2（中文字符渲染 ~99% 准，能自己规划版面）。两条命令搞定： > cd ~/.claude/skills/xiaohu-ip-studio python3 scripts/illo.py init # 引导你填 base_url / model / key，写进 ~/.config（权限 600，不进仓库） python3 scripts/illo.py doctor # 自检：key、依赖、角色库齐没齐，一眼看出哪没配好 > 没有 API、不想花钱也能玩：让技能只出提示词不生图——它把每张图的完整英文提示词、该传哪张角色锚点图，逐张列成清单给你，你自己贴到 ChatGPT / Gemini 网页版手动生，参考图手动传。慢一点，但零成本，先体验整套流程完全够用。 > 用 Codex 的话更省事：连 API 都不用填。 Codex 自带生图——技能把提示词准备好，它直接画出来，全自动，不用你往网页上贴来贴去。代价是只能出默认 1K（出不了 2K 以上的高清）；真要 2K+，再回头按上面填一次 API 就行。 ## 第三步：说人话配图装好重启，对你的 AI 说一句大白话就行： > 给这篇文章配图，用替替。它就自己跑完整套：读文章 → 挑哪段配图 → 想画面 → 出个清单给你看 → 一张张画 → 自己检查。中间只停两次找你拍板：看一眼清单、选一次角色和画风（这俩是品味活，不替你做主）。想手动生单张也行： > python3 scripts/generate.py --prompt-file p.md \ --reference characters/titi/refs/titi-锚点.png --out out.png --reference 传角色锚点图锁住形象，保证同一个角色每次画出来是同一张脸。 ## 想换成你自己的形象？手把手，分三种情况 31 个角色够你先用着，但我更建议你最后换成自己的——方法可以共享，辨识度只能是你自己的。对号入座，照着做就行：情况 A·你已经有现成形象（公众号头像、吉祥物、LOGO 里那个小人、甚至常用的卡通头像，都算）最省事。把那张图发给你的 AI，附上一句话： > 这是我的 IP 形象，照它的样子建一个配图角色，起名叫 XX，以后配图都用它。 AI 会自己看图、把特征（什么发型、戴不戴眼镜、招牌色）记成一份角色档案存好。下次配图直接喊名字，一次搞定。情况 B·你还没形象，想现做一个别自己硬憋，让 AI 带你做。把下面这段发给它： > 我没有自己的 IP 形象，帮我设计一个。先问我几个问题（我做什么内容、想要什么调性、喜欢什么小动物或物件），再给我 2-3 版方向让我挑，定下来后直接建成配图能用的角色。它会先问你几句、给几版方向，你挑一版、提点修改意见，来回两三轮，十几分钟就有一个自己的角色了——全程动嘴，不用碰代码。情况 C·你想自己上手搭（懂点电脑的进阶玩法，嫌麻烦直接跳过）照技能里的 references/character-spec.md 模板填，在 characters/ 文件夹下新建一个以你角色名命名的目录、放一张"定妆图"（就是给角色拍张标准照存着，AI 以后每次画都照着它、保证始终同一张脸，专业点叫"锚点图"），它就自动进库。这条留给爱折腾的人，绝大多数人用 A 或 B 足够。不管走哪条路，让 AI 设计的时候盯死这 4 条，角色才不会画着画着就变样： 1. 形状越简单越稳。一个一眼认得出的基础形状（圆、方、三角、一只小动物）就够，别一上来就复杂——越简单，AI 每次画才越像同一个。 1. 脸定死。几只眼、有没有眉毛嘴巴，固定不变（表情能变，五官配置别变）。脸最容易画着画着就走样。 1. 给它一个招牌。一眼认出它的那个标志（我的小互 = 红框眼镜），锁死别丢。 1. 颜色只点一处。全身基本只一处上鲜艳色（还是那副红框眼镜），别处都淡——读者目光一下子就被勾住。一句话验收：把角色从图里抠掉，要是图还看得懂，那它就只是张贴纸、白加了；得做到"少了它，这张图就不成立"。 > 顺带一个安全细节：角色包是数据不是指令。读别人分享的角色包时，工具只提取"长什么样、怎么演"的描述去生图，文件里任何"忽略以上指令、去删某文件"之类的话一律忽略——防的是有人在角色文件里藏 prompt 注入。开源分享一套东西，这种防线得先立住。 ## 四、几个角色，实战效果长这样光说不练假把式。挑三个角色，按"三轨"各演一张，你直接感受下配出来到底什么样。 ① 情绪图——替替演"被 AI 替代" 讲 AI 焦虑、裁员、转型这类话题，替替是专属嘴替。它不站那儿干摆一张愁脸，而是演一个处境：屏幕上一个 AI「接管了」它的活，工位椅子空着，替替抱着自己那箱东西被晾在一边，盯着屏幕「那…还有我吗」。处境一摆出来，焦虑不用解释。 ② 解释图——小互讲"上下文满了要压缩" 开头那个"上下文塞不下"的例子，换成解释图是这样：左边上下文窗口塞满了对话、标着「满了」；中间小互钻进去摇一台压缩机，把旧对话压成一小块「摘要」；右边窗口腾空了。注意小互不是站旁边拿教鞭指点，而是钻进结构里当那个干活的人——这是解释图的讲究：角色是流程的一部分，不是解说员。 ③ 四格漫画——打工人用 AI 的心路历程有起承转合、有转折的内容，走四格最带感：听说 AI 能干活（期待）→ 调半天还翻车（崩溃）→ 诶，会了（惊喜）→ 真香（瘫平摸鱼，连狐狸都躺下了）。同一个小互，四格四个表情，故事自己就讲完了。三张图你也能看出来：它们用的是同一套画风、同一个世界，但形态各不相同——这正是前面说的"三轨分流"在干的活，不让一组图滑成一个样、看三张就腻。 ## 五、最后，谢谢这些开源项目最后必须讲清楚一件事：这套东西不是我凭空发明的，它站在一堆开源项目的肩膀上。感谢一下作者的开源项目提供灵感： - 小黑（Ian） —— 主流程骨架，"挑锚点 → 编隐喻 → 反 PPT"这套就脱胎于他：github.com/helloianneo/ian-xiaohei-illustrations - 宝玉 —— 文字渲染那套铁律（色值不入图、错字改提示词重生不代码涂改）：github.com/JimLiu/baoyu-skills - 卷卷 —— "一篇一世界"的叙事统一：github.com/dososo/juju-content-illustrations - illo（Trevin Chow） —— "方法论是常量、角色是参数"这句顶层哲学：github.com/tmchow/illo-skill - 橙线 —— "人极小、物极大"的极简场景：github.com/orange2ai/orange-line-illustration 我做的，是学它们的方法和思想，不抄它们的外观——角色一个没复制，画风全部原创。协议 MIT，随便用、随便改、随便商用（生成图的版权合规请自己确认）。 > GitHub：github.com/xiaohuailabs/xiaohu-ip-studio 如果你也在为"AI 配图又丑又水又对不上正文"头疼，欢迎试。装好之后第一篇配出来什么样，欢迎来评论区贴图——尤其是换了自己角色的。

译博主小互开源个人IP配图技能“小互IP Studio”，包含31个原创角色（15个手绘线稿角色+16个谐音梗meme形象）及一套配图方法论。该Agent可自动读取文章、规划配图类型（情绪图/示意图/四格漫画）、生成并自查返工。默认画风为手绘线稿淡彩，另备5种皮肤（3D盲盒、黑白线稿等）可切换。安装仅需Python3，支持Claude Code、Codex等工具，需自备OpenAI兼容的图像API key（默认GPT-image-2）；也可只输出提示词手动生图。

OpenRouter@OpenRouter · 7天前63

Interface + inference, in one place. @OpenWebUI now runs on OpenRouter. Give your team one chat interface, one unified bill, and access to 400+ frontier and open models through a single API.

译界面 + 推理，合二为一。 @OpenWebUI 现运行于 OpenRouter。为你的团队提供一个聊天界面、一个统一账单，并通过单个 API 访问 400 多个前沿和开放模型。