New from Hivemind: continual learning for AI coding agents, available to everyone starting today. It takes the traces from every agent your team runs (Claude Code, Codex, Cursor, Hermes, Pi) and turns them into reusable skills, then pushes those skills across all of them, all on your own cloud! With the new SkillOpt built in, those skills get trained as they accumulate: +19.1 points of accuracy in Claude Code +24.8 in Codex best or tied on all 52 setups tested Agents that learn on the job and share what they learn. Really exciting.

译Hivemind发布面向AI编程智能体的持续学习功能，即日起开放。该工具收集团队运行的每个智能体（Claude Code、Codex、Cursor、Hermes、Pi）的轨迹，转化为可复用技能并推送到所有智能体，数据存储在用户自己的云存储中。内置SkillOpt使技能持续训练：Claude Code准确率提升+19.1分，Codex提升+24.8分，在全部52个测试设置中最佳或持平。开源，一行命令安装。

OpenBMB@OpenBMB · 6月8日75

🚀 VoxCPM2 Technical Report is now available on arXiv! VoxCPM2 is the latest speech generation model in the VoxCPM family. Built with 2B parameters and trained on over 2 million hours of multilingual speech data, it supports 30 languages and 9 Chinese dialects, along with natural-language voice design, controllable voice cloning, and high-fidelity continuation-based voice cloning. In this technical report, we provide a comprehensive overview of: 🔹 The VoxCPM2 architecture 🔹 A unified sequence formulation for speech generation and control 🔹 The design of AudioVAE for high-fidelity speech reconstruction 🔹 Large-scale multilingual training and evaluation 🔹 Benchmark results across zero-shot and instruction-following TTS tasks With 16kHz semantic encoding and 48kHz waveform reconstruction, VoxCPM2 delivers high-quality speech generation and achieves SOTA or highly competitive performance on public TTS benchmarks. To support open research and development, we have open-sourced the model weights, fine-tuning code, and inference toolkit under the Apache 2.0 license. 📄 Paper: https://arxiv.org/abs/2606.06928 💻 GitHub: https://github.com/OpenBMB/VoxCPM We hope VoxCPM2 helps advance the open-source multilingual speech ecosystem. Feedback, experiments, and contributions are always welcome! 🔥 #AI #OpenSource #TTS #SpeechAI #VoiceAI #GenerativeAI #MachineLearning

译面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型，拥有 2B 参数，基于超 200 万小时多语言语音数据训练，支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估，以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建，在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

meng shao@shao__meng · 6月8日60

X Article 编辑器敢说最难用，没人反对吧？！不支持 Markdown 格式，也不支持 Markdown 导入自动转换，自己的编辑器又太难用，真心佩服这些还能坚持写 X Article 的朋友们，他们一定花了很多时间来调整各种布局和格式，远多于其他平台。让 Codex 做了一个 Skill，把 Markdown 转为 X Article 展示格式，留着自己用，也分享出来，大家用得上可以 Fork 再微调。 md-to-x-article-skill https://github.com/shaom/md-to-x-article-skill

译邵猛批评 X Article 编辑器难用、不支持 Markdown 格式，并用 Codex 创建了一个 Skill「md-to-x-article-skill」，可将 Markdown 自动转换为 X Article 展示格式。该工具已开源在 GitHub（shaom/md-to-x-article-skill），用户可 Fork 后按需微调。

小互@xiaohu · 6月8日79

http://x.com/i/article/2063968924019163136 # 一句话，翻译任何视频：我把用了半年的视频翻译工具开源了有人说，现在 AI 自动翻译字幕的工具一大把，你这个还有啥用？确实有不少工具能在线翻译视频，我自己也用了很多。但总觉得翻得不太准、不太好，有时候还冒出一堆错误。另外我经常在推特、视频号上分享海外视频，干脆就顺手做了这么一套——所以它其实还能帮你把海外视频搬运到国内平台，嘿嘿。这套工具我用了半年，来回调了很多次，现在比较成熟了，整理干净开源给大家。装好以后，你只要对它说一句「把这个链接翻译成中文字幕视频」，剩下的它全自动做完：下载、转写、翻译、润色、烧字幕、出文稿，一条龙到底。转写完全在你自己电脑上跑，不花一分钱 API 费。翻译用的就是你已经装好的 AI，顺手就做了。而且不只英文，日语、韩语、法语这些外语视频，一样能转成中文字幕。还有它本质就是几个脚本加一份说明书，没绑死 Claude Code 一家——小龙虾（OpenClaw）、Gemini、Codex 这些 AI 编程工具也都能用，区别只是各家装技能的方式不同。下面手把手带你装上、跑通第一个视频。 ## 这玩意儿到底能干嘛给它一个视频链接（YouTube、Bilibili、抖音都行），或者一个本地视频文件，它会一条龙做完这五步： > 下载 → 转写 → 翻译 → 润色 → 烧字幕，最后顺带出一份文稿拆开说就是： - 把视频下下来（本地文件就直接用） - 提取音频，用 Whisper 转写成带精确时间戳的原文字幕 - 把原文翻译成中文，再润色成符合中文观看习惯的字幕 - 把字幕烧进画面，输出一个带中文字幕的视频 - 顺便再出一份 Markdown 文稿，方便你存档或者改成文章语言不挑。英语、日语、韩语、法语、西班牙语，只要 Whisper 听得懂的，都能转成中文字幕。它会自己识别原视频是什么语言，再翻成中文。中文视频就只做转写出文稿，不绕翻译这一步。字幕有两种可以选。一种是纯中文，画面干净。另一种是中英双语，中文大、英文小，主次分明，适合想顺便练听力的人。你全程不用记任何命令。想要什么就用大白话说，比如「这个要双语字幕」「不要水印」「用快速模式」，它都听得懂。 > 简单说，它把「下载 + 转写 + 翻译 + 配字幕」这条原本要开四五个软件、来回折腾一两个小时的流水线，压缩成了说一句话。 ## 跟现成的翻译工具有啥不一样市面上字幕工具不少，我自己用下来最在意三件事，这套工具就是冲着这三件事做的。第一，本地、免费、能离线。转写用的是 OpenAI 开源的 Whisper 模型，苹果芯片的 Mac 上还会自动调 GPU 加速。整个转写过程在你电脑里完成，不上传、不收费。翻译复用你已经在用的 AI，不用再单独买一个翻译 API。第二，时间戳是真的准。很多工具的字幕会跑在说话人前面，或者半句话挤进下一条，看着难受。这套工具拿到的是精确到每个词什么时候说出口的时间戳，再按「一句话 + 换气停顿」来切，字幕基本说完正好换条。第三，字幕是给人看的，不是机翻直出。它会自动纠正转写听错的专有名词（Claude 经常被听成 cloud，MCP 被听成 NCP），按语义断句，每行不超过十二个字，技术术语保留英文。双语模式下中文大、英文小，同一条里拉开字号，不是两行一样大堆在一起。这些都是我自己做了上百条视频踩出来的细节，全写进规则里了。 ## 效果长这样拿 a16z 刚发的一条访谈试试。受访的是前 OpenAI 首席技术官 Mira Murati，我让工具配了中英双语字幕。她原话里有个比喻： > It's more like a tandem bike where both people are pedaling. 机翻大概会甩给你「串联自行车」这种读着别扭的词。这套工具翻成的是： > 它更像一辆双人自行车，两个人一起踩着踏板。接地气、不绕口。专有名词也拎得清，Thinking Machines 这种公司名直接留英文，不硬翻。你只要发一句「链接 + 翻译这个视频」，它会先问你要纯中文还是中英双语——我平时主要翻成中文，就默认留了这两个选项，实际上翻成任意语言都行。除了带字幕的视频，它还会同时出一份文稿，原文加中文对照。整段读下来是这样： > 它更像是去造这样一种系统：不会自己闷头狂奔、把整个文明甩在身后，而更像一辆双人自行车，两个人一起踩着踏板。上坡的时候，也许更有劲的那个人踩得更用力，但两个人的手都在车把上。不挑语言是这套工具最实在的地方。同一段访谈，中文、日语、韩语、阿拉伯语、法语都能翻成双语字幕——各国译文在上、英文原文统一压一行在下，主次分明，连从右往左写的阿拉伯语也排得整整齐齐：十几分钟的视频没问题一个半小时以上的长视频也能轻松应对 ## 它其实是三个技能打开仓库你会看到三个文件夹，各管一段活，可以单独用，也可以串起来用： - xiaohu-video-md：总指挥。负责下载、转写、调翻译、烧字幕、出文稿 - xiaohu-subtitle-polish：专门管字幕翻译润色。纠错、翻译、断句、对时间轴、做双语 - xiaohu-video-download：纯下载工具。下视频、下音频、下整个播放列表，也能给本地视频烧字幕翻译一个视频的时候，是 xiaohu-video-md 在总调度，翻译那一步它自己会去叫 xiaohu-subtitle-polish。你不用管这些，知道有这么三块就行。 ## 手把手安装这套工具目前是给 Mac 调的，苹果芯片的机器跑得最顺。装法有两种，挑一种就行：嫌麻烦，就把下面那段话整段丢给 AI，让它替你全装完；想搞清楚每一步在干嘛、或者怕中途出岔子，就照着后面的手动三步敲。 ## 偷懒版：把这段话丢给 AI 打开你的 AI 编程工具，Claude Code、Codex、小龙虾（OpenClaw）都行，把下面这段原样复制进去发给它。它会自己判断你是什么系统、装好依赖、拉仓库、跑安装脚本，一条龙搞定，中间该问你的会停下来问： > 帮我安装这个视频翻译工具：https://github.com/xiaohuailabs/xiaohu-video-translate 按下面的顺序来： 1. 先看我的系统：Mac 还是 Windows；Mac 的话是不是苹果芯片（M 系列） 2. 装依赖：yt-dlp、ffmpeg、whisper-cpp（Mac 用 brew install，Windows 走 WSL 或 winget）。转写引擎——苹果芯片装 mlx-whisper，其它机器一律装 faster-whisper 3. git clone 这个仓库，进目录跑 bash install.sh，把三个技能装进我的技能目录 4. 装完找到 xiaohu-video-md 技能里的 config.json（Claude Code 在 ~/.claude/skills/ 下），问我成品想存在哪个文件夹，帮我把 output_dir 改成完整路径 5. 最后检查依赖都装齐了没，告诉我能不能开始用每一步做完简单说一句你干了啥；依赖装失败就停下来问我，别硬往下跑。它替你跑的其实就是下面这三步，只是你不用自己敲。想自己动手、或者中途卡住想排查，就照着手动版来。 ## 第一步：装几个基础工具先确认你装了 Homebrew（Mac 上最常用的软件包管理器，没装的去 brew.sh 按提示装一下）。然后一行命令把三个工具装上： > brew install yt-dlp ffmpeg whisper-cpp > 这三个分别是：yt-dlp 负责下视频，ffmpeg 负责音视频处理和烧字幕，whisper-cpp 是「只下载」子技能在本地转写时用的备用命令，主翻译流程不靠它，真正干转写的是下面这步要装的引擎。再装一个转写引擎。苹果芯片的 Mac 用这个，会走 GPU 加速，最快：（命令里 --break-system-packages 看着吓人，其实只是绕过新版系统的一个安装限制，不动你系统本身，放心敲。） > pip3 install --break-system-packages mlx-whisper 如果不是苹果芯片，就换成通用版本： > pip3 install --break-system-packages faster-whisper ## 第二步：把技能装进 Claude 把仓库拉下来，跑一下自带的安装脚本： > git clone https://github.com/xiaohuailabs/xiaohu-video-translate.git cd xiaohu-video-translate bash install.sh 这个脚本会把三个技能复制到 Claude 的技能目录，自动生成配置文件，还会帮你检查依赖装齐没有。脚本跑到最后会逐项打印 [OK] 或 [缺]，看到 yt-dlp、ffmpeg、转写引擎都是 [OK] 就说明装齐了，哪个显示 [缺] 就按提示补那一个。这里路径以 Claude Code 为例（技能在 ~/.claude/skills/）；你要是用 Codex、小龙虾，把这个目录换成你那家工具的技能目录就行，其余都一样。 ## 第三步：告诉它把成品放哪打开 ~/.claude/skills/xiaohu-video-md/config.json 这个文件，把里面的 output_dir 改成你想存放成品的文件夹路径（要写完整路径，比如 /Users/你的用户名/Documents/视频翻译）。中间的临时文件会进 tmp/，最终的文稿进 data/，烧好的视频默认放在下载文件夹里。 > 转写模型不用手动下。第一次跑的时候，mlx-whisper 会自己从网上把模型拉下来（一点五个 G 左右），下一次就直接用了。装完，重启一下你的 AI 工具，就能用了。 ## Windows 用户看这里上面是 Mac 的装法。Windows 也能跑，但有几处不一样，别照搬。最省事的办法是用 WSL，也就是 Windows 自带的 Linux 子系统。装好以后把下面这几样装上，脚本就能原样跑： > sudo apt install ffmpeg pip3 install yt-dlp faster-whisper 如果不想用 WSL，想直接在 Windows 上装，记住三点： - 转写引擎用 faster-whisper，别装那个苹果芯片专用的版本。脚本检测不到苹果引擎，会自动用它兜底 - 安装脚本得用 Git Bash 跑，或者干脆手动把三个技能文件夹复制到工具的技能目录，再把每个配置模板复制成正式配置 - 字幕字体要换。默认用的是 Mac 的苹方，Windows 上没有这个字体，中文会显示成方块。把命令里的 PingFang SC 换成系统自带的微软雅黑就行直接在 Windows 上装依赖的话，命令是这样： > pip install yt-dlp faster-whisper winget install Gyan.FFmpeg > 字体这条 Linux 上也一样，苹方是苹果独有的，得换成系统里的中文字体。想让非苹果系统也能自动选对字体、开箱即用，我正在做适配，可以去仓库提 issue 催我。 ## 怎么用装好以后就一句话的事。下面这些话你都可以直接说：你说的话它做的事把这个链接翻译成中文字幕视频 + 链接全流程，下载到出成品翻译这个视频，要中英双语字幕 + 链接同上，字幕换成中英双语把这个视频转成文字 + 链接只出 Markdown 文稿，不烧字幕给我本地这个视频加中文字幕 + 文件路径本地文件直接处理下载这个视频 + 链接只下载，不翻译用快速模式转写换更快但精度略低的模型翻译时不要水印关掉水印 ## 几个坑先跟你说在前面都是我自己踩过的，提前知道能少走弯路。 YouTube 有时候下不动，报一串 403 之类的错。这是 YouTube 近一年风控变严了。脚本会自动从你浏览器里读 cookies 重试，一般能过。还不行就挂个代理。烧出来的中文字幕是一个个方块。这是 Mac 字体索引的老问题，脚本默认已经绕开了，正常装完不会遇到。只有你手动改过字体设置、或换了系统里没有的字体才会冒出来，真碰上就把字体换回 PingFang SC（苹方）。第一次用抖音，要先登录一次。跑一下 python3 ~/.claude/skills/xiaohu-video-md/scripts/douyin_login.py，弹出来的浏览器里扫码登录，登录状态只存在你自己电脑上，不会上传到任何地方。开源仓库里我也把我自己的登录信息全删干净了，你拿到的是空的。 ## 拿去用，随便改仓库地址在这： > github.com/xiaohuailabs/xiaohu-video-translate 代码是 MIT 协议，水印、字幕样式、默认字号这些你都可以照自己喜欢改。唯一提醒一句：别把你自己的配置文件和抖音登录信息传到公开仓库上去，仓库里已经默认帮你挡掉了。这套工具是我日常真在用的，不是写来演示的玩具。觉得好用，点个 star，有问题提 issue，我会接着维护。下期我会开源自己的文章 IP 配图技能——用个人 IP 形象给文章生成配图，本文里那些插画就是这么来的。

译小互（@xiaohu）开源视频翻译工具（xiaohu-video-translate），只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行，不花API费。支持YouTube、Bilibili、抖音等链接及本地文件，英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳，按语义断句，每行不超过12字，双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成，可单独或串联使用，适配Claude Code、Codex、OpenClaw等AI编程工具。已开源，附安装指南。

Rohan Paul@rohanpaul_ai · 6月8日68

A longer context window does not solve the real memory problem in AI work. Kocoro just made AI memory a local Mac feature. It’s an open-source Mac AI agent framework at the engine level. Kocoro works by running a local agent on your Mac that can read your past sessions, files, apps, browser, screen, and terminal, then compress useful facts into memory so it can continue work without you repeating everything. Its security model is mostly local-first control: tool actions need permission, risky commands are blocked or re-asked, actions are audit-logged, secrets are auto-redacted, and memory/session sync is opt-in rather than always uploaded. Its Episodic Memory turns past sessions into selected project facts, decisions, collaborators, deadlines, and habits, so the agent can resume work like a teammate rather than a help desk ticket. Every night it distills your workday into a local knowledge graph — projects, decisions, open tasks. Next morning it picks up exactly where you left off. No context re-pasting. Github links in comments

译Kocoro 是一个引擎级的开源 Mac AI agent 框架。它通过本地 agent 读取用户的过往会话、文件、应用、浏览器、屏幕和终端，将有用事实压缩为记忆，使 agent 无需重复上下文即可继续工作。安全模型以本地优先：工具操作需授权，危险命令被拦截或二次确认，行为可审计，秘密自动脱敏，记忆/同步默认不上传。其“情景记忆”将历史会话转化为项目事实、决策、协作者、截止日期和习惯。每晚自动将工作日蒸馏成本地知识图谱，次日直接恢复进度。

Alibaba Cloud@alibaba_cloud · 6月8日66

🚀 AgentScope Java 2.0 released! Solving enterprise AI agent challenges: ✅ Distributed & Stateless: Seamless K8s scaling with session recovery ✅ Multi‑tenant Isolation: Secure data separation via Workspace abstraction ✅ Long‑term Stability: HarnessAgent for context management & fault tolerance ✅ Safe Execution: Granular permissions & Human-in-the-Loop support Build production-ready agents on JVM now! 🛠️ https://int.alibabacloud.com/m/1000414189/ #AgentScope #Java #AIAgents #LLMs #OpenSource

译阿里云发布AgentScope Java 2.0，面向企业级AI智能体开发。新版本主要特性：分布式无状态架构，支持K8s弹性扩缩容与会话恢复；多租户隔离，通过Workspace抽象实现安全数据分离；长期稳定性，HarnessAgent负责上下文管理与容错；安全执行，提供细粒度权限控制和Human-in-the-Loop支持。适用于JVM生产环境。开源地址见推文链接。

meng shao@shao__meng · 6月8日78

最近看了不少 Design Skill、Taste Skill、Anti-AI-slop design skill 等等，我自己也开源了一个 Brand to DESIGN.md Skill (https://github.com/shaom/brand-to-design-md-skill) 目的都是学习借鉴优秀的设计、积累设计品味，让 Agent 去学习沉淀到 DESIGN.md 再复刻生成新的网站。但是这种复刻看多了，就又从 Anti-AI-slop 而生成了新的「AI Slop」，还是缺少设计精髓，皮毛相仿而已。

译邵猛关注 Design Skill、Taste Skill、Anti-AI-slop design skill，并开源 Brand to DESIGN.md Skill（GitHub: shaom/brand-to-design-md-skill），让 Agent 学习设计品味后复刻网站。但他指出，这种复刻看多了反而从 Anti-AI-slop 衍生新“AI Slop”，缺少设计精髓，仅皮毛相仿。

宝玉@dotey · 6月7日75

最近为了研究 Claude Design，专门写了一个工具，可以解析 HAR 文件，解密 Claude Design 传输的二进制内容，这样可以方便的看到请求的 Prompt

Berryxia.AI@berryxia · 6月7日66

🚀 mlx-audio v0.4.4 已发布——这是我们迄今为止推出的功能最强大的版本。新增了 15 个 TTS（文本转语音）、ASR（自动语音识别）及 VAD（语音活动检测）模型，提升了长文本内容转录的速度，并改进了与 OpenAI 兼容的音频服务器功能。所有这些技术都运行在 Apple Silicon 平台上。 🎤 新增的 TTS 语音引擎： • VoxCPM2（支持 2B 语言库、48kHz 音频格式、30 种语言） • MOSS-TTS / TTSD / 1.5 • Higgs Audio v3 • Miso、Dramabox、Irodori-TTS v3（VoiceDesign 技术支持） 📝 新增的 STT/ASR （语音转文本/自动语音识别）工具： • Mega-ASR（基于 Qwen3-ASR 1.7B 模型，支持 LoRA 路由技术） • Nemotron 3.5 ASR（支持实时语音识别功能） • granite-speech-4.1-2b-nar、Fun-ASR-Nano • Cohere ASR（长文本转录速度提升 1.7 倍） 🔊 新增的语音处理组件及编码器： • Silero VAD、FSMN-VAD、Step-Audio 2 ⚙️ 服务器改进：新增了与 OpenAI 兼容的数据格式（response_format），支持 /v1/audio/voices 格式以及逐词时间戳功能；服务器端的语音活动检测功能已由 lllucas 完成开发。安装方法：`uv pip install -U mlx-audio` 明天安装测试看看实际效果，对于中文的支持效果如何？

译mlx-audio v0.4.4 发布，所有模型均运行在 Apple Silicon。新增 15+ 个模型：TTS 包括 VoxCPM2（2B 参数、48kHz、30 种语言）、MOSS-TTS、Higgs Audio v3 等；ASR 包括 Mega-ASR（基于 Qwen3-ASR-1.7B + LoRA 路由）、Nemotron 3.5 ASR（实时流式）、Cohere ASR（长文本转录速度提升 1.7 倍）等；VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令：`uv pip install -U mlx-audio`。

向阳乔木@vista8 · 6月6日70

http://x.com/i/article/2063275048157458432 # 设计师花90%时间在对齐像素？这个开源工具想终结这件事一个月，接近 60K GitHub Star，全球30多个国家用户，340名贡献者，这个项目叫Open Design。 > https://github.com/nexu-io/open-design 这个数字放在Github开源历史上，20 天达到 50k Star + 的项目中，能排进全球前十。但更有意思的不是这个数字，而是它背后的逻辑：Open Design 的创始人 Tom，自己就是这个工具的重度用户。他们团队已经完全抛弃了 Figma 和 PRD，从想法到产品上线，最快两个小时。这是"未来硅世界"第17期直播的核心内容。 Tom 是 Open Design 的创始人，此前做过 Refly（画布+工作流产品），在字节飞书做过产品设计和研发。这次直播聊了产品本身、技术路线、开源哲学，以及一些很少被公开讨论的实践细节。 ## Open Design 到底是什么一句话：用本地 Agent 驱动的设计工具，目标是替代 Figma 和 Claude Artifacts。它是一个本地客户端，免费开源，下载即用。核心逻辑是：把你本地已有的 Code Agent（Claude Code、Codex、Hermes、PI 等）识别出来，直接作为设计引擎。你不需要切换工具，你的本地 Agent 就是它的引擎。对于没有本地 Agent 的用户（统计下来占85%），Open Design 提供了自己的付费 Agent，这是它目前主要的商业化入口。它能做什么： - 原型设计（替代 Figma 流程） - 后台系统（Live Artifact，数据实时刷新） - PPT（集成了歸藏老师等300+模板） - 营销落地页和海报 - HTML 视频（基于 Hyperframes 框架，30秒短视频）更关键的是，它打通了从设计到交付的全链路：做完设计，可以直接用 Cursor 把 HTML 转成 React 代码，交给下游工程师上线。 ## 为什么选 HTML，而不是 React 这是整个产品最底层的技术判断，也是第一次听到有人把它说得这么清楚。 Open Design 生成的设计产物，核心是 HTML 单文件，而不是 React 或 Vue 这类工程框架。原因不是技术能力的问题，而是模型注意力的分配问题。让模型写一个 React 项目，它要花70%到80%的注意力在"怎么让这段代码能跑起来"：组件怎么连接、状态怎么管理、框架规范怎么遵守。剩下20%的注意力，才能用来关注"这个东西好不好看"。 HTML 单文件完全不同。没有框架负担，模型可以把80%到90%的注意力压在一件事上：让这个东西变得更美。这就是为什么同样的模型，用 Open Design 做出来的设计，视觉质量会比直接用 Claude Code 或 Codex 生成的 React 代码好看。不是因为 Open Design 更聪明，而是它让模型的注意力花在了正确的地方。当然，HTML 不是终点。做完设计之后，可以直接交给 Cursor，让它把 HTML 转成生产可用的 React 代码。设计归设计，工程归工程，各自在最擅长的介质里工作。 ## 设计系统抽取：品牌一致性的正确打开方式 Tom 在直播中演示了一个功能：把 WaytoAGI 官网的设计系统整体抽取出来，包括品牌色、阴影、圆角、暗黑模式表现等，然后基于这套设计系统，对官网做整体风格刷新。这个功能的价值在于一致性。如果你要做十几个设计产物，每次都从零开始，风格必然散乱。有了设计系统，你可以让 Agent 基于同一套品牌规范，生成落地页、海报、PPT，风格自然统一。 Tom 演示时，先用抽取的设计系统生成了一版官网，觉得不够好看，又调用了歸藏老师的瑞士风格模板刷新了一遍。整个过程就是：@模板名发送，等几分钟，完成。 ## 反 AI 味：不是玄学，是规则 Open Design 在生成设计时，会做"反 AI 味"校验。 Tom 梳理了大概二三十条规则。 > https://github.com/nexu-io/open-design/blob/main/craft/anti-ai-slop.md AI 味的本质，是风格用错了场景。 Claude 默认生成米黄色背景，因为 Anthropic 自己的品牌就是米黄色。这个颜色在 Claude 的界面上是好看的，但你拿它做一个科技公司的落地页，就显得廉价。大量训练语料来自 Shadcn/UI 这类组件库，所以模型默认在背景上加网格。网格在后台管理系统里是合适的，在对外的营销落地页上就是 AI 味。模型还喜欢在标题前加 emoji，用标准化的颜色搭配，用特定字体。这些都是训练数据带来的偏好，本身没有对错，只是被用在了错误的语境里。反 AI 的做法很直接：告诉模型"你现在在设计落地页，不能用后台管理系统的思路"，然后在最终输出时让模型做自检，有问题就改，改到没问题为止。同场嘉宾也补充了另一层更有意思的视角：即使用 AI 生成好看的风格，用的人多了也会变成 AI 味。就像流行色，一旦泛滥，就失去了吸引力。真正对抗 AI 味的，是融入自己的审美和思考，而不是套用一个流行模板。本质上，人讨厌的不只是 AI 味，还有“没有用心”、“没有个性”。 ## Memory：把审美变成可迁移的数据这是 Tom 认为最被低估的功能，也是整场直播里我觉得最有意思的地方。你做一个设计，可能要调优30轮。每一轮你告诉 Agent"这里字太小""这里去掉""这个颜色换一下"，这些反馈在隐性地定义你的审美偏好。Open Design 会把这30轮记录下来，提炼成你的设计 Memory。下一次生成类似设计，这些偏好自动生效。更激进的应用：Tom 提到，他们在用 DeepSeek V4 Flash（比 Claude 便宜近100倍）结合用户沉淀的审美 Memory，做出接近 Claude Opus 水平的设计效果。这个逻辑值得停下来想一想。模型的能力是有上限的，但"什么是好看"这件事，是可以被系统化定义的。你把"好看的标准"用 Memory 的形式喂给一个便宜的模型，它就能在这个标准下发挥出远超其基础能力的表现。审美，第一次变成了可以传输的数据资产。因为是本地客户端，Memory 数据可以直接导出。理论上，你可以把一个审美很好的设计师的 Memory 文件导入自己的工具，直接复用他的"审美脑子"。 ## html-video：Hyperframes 的问题在哪里 Open Design 最近做了一个叫 html-video 的功能，用代码写视频。很多人会问：这和 Hyperframes 有什么区别？ Hyperframes 是 HeyGen 团队做的开源框架，通过自然语言写代码生成视频，技术上很厉害。 Tom 和 HeyGen 团队也有交流。问题在于两点。第一，Hyperframes 用了大量 Three.js 等动效库，这些库在训练语料里覆盖很少，模型写起来容易出错。第二，好案例不开源。 Tom 提到，Hermes Agent 团队的宣发视频就是用 Hyperframes 做的，效果很酷，但没有开源。结果就是大家知道 Hyperframes 厉害，但不知道怎么用它做出好看的东西。 Open Design 的 html-video 做的事情是：底层继续用 Hyperframes 框架，上层加一套产品化的模板库和工作流。你只需要输入简单的文字描述，它帮你套用模板，默认就能出一个高级感的视频。这是一个很典型的"在开源项目上盖产品层"的思路：不重复造轮子，解决"最后一公里"的易用性问题。 ## 为什么不直接用 Claude Code 或 Codex 这个问题很关键，Tom 给出了两个核心理由。第一，精准定位元素，节省 Token。用 Codex 直接改一个设计元素，它需要通过截图识别、搜索代码、定位元素，经历多轮工具调用，Token 消耗很大。 Open Design 可以让你直接框选一个元素，然后说"帮我删掉"，Agent 已经拿到了这个元素的上下文，直接改，消耗更小、速度更快。为什么 Codex 不做这个优化？ Tom 的判断是：Codex 要兼容更通用的场景，未来可能支持 iOS、安卓界面，有些界面没有可以直接选取的 DOM 元素，只能通过截图。为了长期通用性，它选择了更保守的方案。垂类工具的优势就在这里，专注一个场景，可以做更多针对性优化。第二，越用越顺，Memory 积累。通用工具不会记住你的设计偏好。你今天告诉它"不要在顶部加小字"，下次它还是会加。 Open Design 会把这些偏好记下来，下次默认就不会出现同样的问题。 ## Agent Native 团队是什么感觉 Tom 的团队十几个人，完全不写 PRD，完全不用 Figma。具体是什么样的工作方式？改一个文案，以前的流程：写 PRD 说明语境，丢给设计评审，拉会讨论，研发排期，可能要三天。现在的流程：产品同学直接把代码库丢给 Codex，说"帮我把这个词改成对应语言的翻译"，推代码，上线，可能要三分钟。做一个浏览器内嵌功能（支持灵感抓取、颜色提取、动效参考），传统大厂可能是两个月的工作量，他们三天上线。这不是说他们的工程师特别厉害，而是整个协作模式变了。产品、设计、研发之间的沟通成本几乎归零，因为所有人都直接对着代码说话。 Tom 说了一句话让人印象深刻："反而不在于写代码本身，而是在于你能不能让审代码这件事变得更加自动化和准确。" 他们为此专门建了一套 AI 审代码的流程：自动截图对比 UI 变化，跑自动化测试，识别是否改动了主框架。平均不到3小时可以合入一个外部贡献者的 PR。这套能力，让340个贡献者的代码能被有效管理，而不是变成一团乱麻。 ## GitHub 是 AI 时代的小红书这个类比是 Tom 提出来的，说得很准。以前在小红书上分享内容，门槛是会拍照、会写文案。现在在 GitHub 上分享项目，门槛是会用 Codex 写代码，而这件事已经变得和发一条小红书一样简单。分享经验的媒介变了，但逻辑没变：有价值的内容，会被自动传播。 GitHub 上的好项目，会有媒体、自媒体、YouTuber 主动盯着，发现了就录视频介绍。你不需要主动推广，只需要把东西做好放上去。 X（Twitter）是 GitHub 的冷启动最佳平台。 Tom 的方法论是：做完一个有价值的东西，录一个好看的演示视频，发到 X 上。即使你没有很多粉丝，也很容易达到几万甚至几十万的阅读量。他还给了一个具体的冷启动建议：每天 GitHub Trending 上都有新项目，选一个你觉得有价值的，让 AI 帮你写一段"为什么它有价值"，写段文字或录个视频发到 X 上，这种内容天然有受众，也很容易积累关注。 X 的算法，Tom 的描述是：它在反哺一种类似乔布斯时代的荣光，让真正有价值的想法被推给需要它的人。你只要做出来的东西是真实有价值的，它会帮你推给西班牙的人、北美的人、日本的人。 ## 开源的护城河：贡献者，不是 Star Tom 在直播里说了一句暴论： "如果你这个项目只有二十几个贡献者，它本质上应该是个闭源产品。" Refly 做了一年，7.3K Star，37个贡献者。 Open Design 一个月，接近 60K Star，340个贡献者。这个对比让 Tom 彻底想清楚了开源的意义。 Star 可以被买，可以被刷，可以被复制，但贡献者网络不能。逻辑是这样的：假设你的开源项目代码全公开，另一家公司把你的代码 fork 过去，重新开源，能不能超过你？不能，因为他没有你的贡献者。贡献者是在 Google 搜索权重上留下印记的，是在开发者心智中建立位置的，是在各自的国家和文化背景下持续产生真实需求的。花钱可以雇400个人提 PR，但他们不会持续贡献，因为他们没有真实的使用场景。 Open Design 的北极星指标，不是 DAU，不是 Token 调用量，而是贡献者数量。今年目标1000人，明年2000人。这个指标背后的逻辑是：一旦你成为某个领域的"事实标准"，商业化是后来的事，生命力是先决条件。 ## 两个意外的用户场景 Tom 提到两个他完全没预料到的使用方式。一个是企业内部宣讲。有用户把公司文化、规章制度等大段文字，直接用 Open Design 做成可视化图片，下载后用于内部传播。不是设计需求，是信息降噪需求。一张图比一页文字传递效率高得多，但以前做一张图要找设计师，现在自己做。另一个更有意思：西班牙的牙医，用 Open Design 做诊所门口的告示，指导患者就诊流程。他们完全不知道 Claude Code 是什么，通过 YouTube 或 Instagram 看到了这个工具，发现能做海报，就用了。 Open Design 正在从"设计师工具"变成"可视化信息传递工具"，用户边界比产品预设的宽得多。视觉表达的门槛降低之后，第一批受益的不是设计师，而是那些一直有表达需求、但没有表达能力的人。 ## 模型选择的实测排名直播里讨论最热闹的部分，Tom 给出了他们实测的结果。评估分两个维度：能不能完成任务，以及完成得好不好看。完成任务维度： Claude Opus 4.8 和 GPT-5.5 大约95分，Kimi 2.6 和 GLM 5.1 在85到90分之间，DeepSeek V4 Flash 大约85分，基本够用。好看程度维度，差距就拉开了： Claude Opus 4.8 断档领先，GPT-5.5 弱不少。 Kimi 2.6 因为有专门的前端美学训练数据，和 GPT-5.5 大概在同一水平，甚至略强。 GLM 和 DeepSeek 再往下。直播间彭超、元子等朋友也做了讨论，最终大家列了一个非常主观的LLM前端审美排名，仅供参考 > Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1> Deepseek v4 Flash Tom 的建议：追求极致效果用 Claude Opus 4.8，追求性价比用 Kimi 2.6，追求极致省钱用 DeepSeek V4 Flash 加上大量审美约束，80分水平完全够用。他们团队自己目前全员在用 Codex，局部修改效果不错，全局大改动还是上 Claude。 ## 给你的行动建议如果你有本地 Agent（Claude Code 或 Codex），Open Design 对你完全免费。 > https://open-design.ai/ 下载客户端，让它识别你的 Agent，然后做一个你真实需要的设计，落地页、PPT、海报都行。调优10到20轮，把你的偏好沉淀进 Memory。下次做类似设计，起点就已经不一样了。另外，Tom团队在招各种“工程师”，比如设计工程师、GTM工程师等，地点在上海张江。感兴趣的话也可以投个简历，学习 AI Native 的团队是如何工作的。 > https://powerformer.feishu.cn/wiki/E3gYwEe6Aiv7ihkGQvLcCpyKnKh

译Open Design 是一个用本地 Agent 驱动的开源设计工具。一个月内获得近 60K GitHub Star（20 天达 50k+），全球 30 多国用户，340 名贡献者。它识别本地的 Claude Code、Codex 等 Code Agent 作为设计引擎，生成 HTML 单文件而非

宝玉@dotey · 6月6日48

当时发这个 PR 的时候，只是实现了最基本的多语言，所以语言覆盖不够，还有很多是英文；另外设计上是参考颜色模式的选择，会有个隐含的问题：如果语言数量一多，就无法在一屏显示下了所以昨天花了不少时间做了多语言的覆盖，基本上能找到的硬编码文字都换成了多语言；另外把语言选择换成了可以检索的 Dropdown List。现在 PR 已经被合并了，下个版本 Hermes Desktop 可以支持更多语言了，为了测试语言的支持，加上了完整的繁体中文和日文的支持。翻译主要借助于 Web 版的翻译和 AI 辅助的翻译，所以难免有错误，建议如果有错误可以自行提交 PR。

译开发者 @dotey 提交的 PR 已被合并，Hermes Desktop（Hermes Agent Desktop）将在下个版本支持多语言。该 PR 将硬编码文字替换为多语言支持，并把语言选择改为可检索的 Dropdown List，解决语言数量多时无法一屏显示的问题。为测试语言支持，加上了完整繁体中文和日文。翻译借助 Web 版和 AI 辅助，可能存在错误，鼓励用户自行提交 PR 修正。

AYi@AYi_AInotes · 6月6日53

分享一个 GitHub 5 万星的开源AI剪辑神器，本地处理、永久免费、不要水印、没有会员墙。它叫 OpenCut，想干掉剪映最让人不爽的那件事—— 你做的视频，再也不用先传到别人的服务器上了。现在就能用，但作为一个免费开源产品，想完全媲美年费700多块的剪映肯定不太可能，先说说OpenCut 现在的状态，属于 Early Beta：打开网页就能剪，导入视频、拉时间线、切一刀、修个头尾，完全免费、没水印、不要会员。但导出、特效、转场这些功能还在路上，只追求今天就能高效出片？现阶段剪映还是更强，这话我得说在前面。那么他的优势是什么？剪映是云端处理，你的素材要先上传， OpenCut 是本地优先，视频压根不离开你的机器。一个把你的内容当数据，一个把你的内容当你的，这一条差别，剪辑的时候你感觉不到，等哪天平台改规则、加水印、涨会员价的时候，你就全懂了。 OpenCut没把自己当成又一个剪映，它的路线图里写着： Rust 重写核心、Web + 桌面 + 移动统一、插件系统、Editor API，还有 MCP Server—— MCP Server 是让 AI Agent 直接调工具的协议，也就是说，以后你的 AI 能直接调 OpenCut 来替你剪，它想做的也不是一个剪辑软件，而是一个能被你自己的工作流调用的、可编程的视频底座。所以把视频编辑四个字去掉，这其实是所有工具正在发生的同一件事—— 过去的工具是一个封闭的盒子，你只能按它给你的按钮，未来的工具是一个开放的接口，你能把它焊进自己的系统，让 AI 替你按。剪映卖的是一次出片的效率， OpenCut 赌的是你愿不愿意为"这东西永远是我的、还能被我编程"多等几年。

译OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具，主打本地优先，视频无需上传服务器，永久免费、无水印、无会员墙。目前处于 Early Beta 阶段，网页版支持基础剪辑（导入视频、时间线、切割），但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server（让 AI Agent 直接调用工具），目标是成为可编程的视频底座，而非对标剪映的封闭工具。

宝玉@dotey · 6月6日67

《图解Skill》需要复制粘贴的内容基本都在 GitHub Repo，包括一些我之前没开源的自己用的 Skills，比如从播客文字稿生成访谈稿的 Skill，理论上来说你不买书也可以的。 Repo地址： https://github.com/JimLiu/Illustrated-Agent-Skills 电子书版本已经发布了，购买链接：https://www.ituring.com.cn/book/3616

译宝玉的新书《图解Skill》已出版，配套 GitHub Repo 开源了书中涉及的所有可复制粘贴的 Skills，包括之前未公开的播客文字稿转访谈稿 Skill。读者理论上可以不买书直接使用 Repo 内容。电子书版本同步上线，方便读者复制粘贴。

eric zakariasson@ericzakariasson · 6月6日42

>npx --yes was-gpt-here@latest >yes

译如果你仓库里没有至少20个这个函数的副本，你就不是tokenmaxxing。

Artificial Analysis@ArtificialAnlys · 6月6日52

Google’s newly released open weights model, Gemma 4 12B, supports transcription but is far from the frontier, scoring 8.8% on AA-WER (#58) Gemma 4 12B is the latest release from @GoogleDeepMind in the Gemma 4 family. With a score of 8.8% on AA-WER, it is able to capture a reasonable amount of conversation context, but underperforms compared to transcription-focused open weights models like Voxtral Mini Transcribe 2 (3.6% WER, with 4B parameters) and slightly larger open weights language models like Voxtral Small (2.8% WER, with 12B parameters). The new model launched alongside their local dictation app, Eloquent, available on MacOS and iOS. Gemma 4 12B is the largest in the Gemma 4 family to support transcription, alongside Gemma 4 E4B and Gemma 4 E2B, with Gemma 4 31B and Gemma 4 26B A4B supporting text, image and video input only. These models are available on a variety of platforms including Hugging Face, Ollama and LMStudio. We are currently running Gemma 4 12B through the full Artificial Analysis Intelligence Index and will share results soon.

译Google DeepMind 发布开源权重模型 Gemma 4 12B，支持语音转录，在 AA-WER 基准上得分为 8.8%（排名第 58），远低于专注转录的开源模型 Voxtral Mini Transcribe 2（4B 参数，WER 3.6%）和 Voxtral Small（12B 参数，WER 2.8%）。该模型是 Gemma 4 系列中支持转录的最大型号（另有 E4B、E2B），而 31B 和 26B A4B 仅支持文本、图片和视频输入。Google 同步推出本地听写应用 Eloquent（MacOS/iOS）。模型已在 Hugging Face、Ollama 和 LMStudio 上架。

Rohan Paul@rohanpaul_ai · 6月6日68

Google just made Gemma 4 much easier to run on phones and laptops by releasing QAT (Quantization-Aware Training) checkpoints that shrink the smallest model from 11.4GB to 1.1GB, or 0.84GB for text-only use. Normal PTQ (Post-Training Quantization.) compresses after training and can damage quality because the model never learned to survive that rounding. QAT fixes this by simulating compression during training, so Gemma 4 learns while its weights are being squeezed, making the final compressed model less likely to lose reasoning quality. Google also built a mobile-focused format with static activations, channel-wise quantization, targeted 2-bit quantization, and KV cache optimization, which means the phone does less scaling work, stores some token-generation parts more aggressively, and keeps long chats from eating memory too fast.

译Google 发布 Gemma 4 的 QAT（量化感知训练）检查点，将最小模型从 11.4GB 缩小至 1.1GB（纯文本版 0.84GB），便于手机和笔记本运行。常规 PTQ（训练后量化）因模型未学会应对舍入而损伤质量；QAT 在训练中模拟压缩，让模型在权重被挤压时学习，压缩版不易丢失推理能力。Google 还构建了移动端优化格式，包含静态激活、通道量化、定向 2-bit 量化及 KV 缓存优化，减少手机缩放计算并防止长对话过快消耗内存。

Perplexity@perplexity_ai · 6月6日69

Nemotron 3 Ultra is now available for Pro and Max subscribers on Perplexity and Computer. It's @nvidia's new open model built for long-running agents.

译Nemotron 3 Ultra 现已面向 Perplexity 和 Computer 上的 Pro 和 Max 订阅用户开放。这是@nvidia 为长期运行的智能体打造的全新开源模型。

elvis@omarsar0 · 6月6日67

Neat little tool! Ran my AI Wrapped, expecting to be humbled. Top 1%. Nice! I use coding agent all day for everything. Try it with `npx standout`

译不错的小工具！跑了一下我的 AI Wrapped，本以为会被打击。前 1%。不错！我整天都用编程智能体做所有事。试试 `npx standout`

宝玉@dotey · 6月6日74

感谢 @Teknium 合并了 PR，现在 Hermes Agent Desktop 支持中文了，还不够完整，会继续贡献 PR，以及修复一些因此带来的错误。

Google AI Developers@googleaidevs · 6月6日72

New @GoogleGemma 4 QAT (Quantization-Aware Training) checkpoints are here, so you can run models locally on consumer GPUs and mobile devices with minimal quality loss. What’s new: 🔹 GGUF (Q4_0): Checkpoints: Max local performance across all sizes and drafter models 🔹 Custom Mobile Schema: We shrunk Gemma 4 down to less than 1GB for mobile devices by using a custom mixed precision schema designed for edge hardware (featuring targeted 2-bit decoding layers, optimized KV caches, and static activations) By simulating compression during training rather than after (Post-Training Quantization), we've drastically reduced the memory footprint and accelerated decode speeds while preserving reasoning quality. https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/

译谷歌发布 Gemma 4 量化感知训练 (QAT) 检查点，支持在消费级 GPU 和移动设备上本地运行，质量损失极小。新检查点提供 GGUF（Q4_0）格式，覆盖所有尺寸及起草模型，实现最佳本地性能。自定义移动模式采用混合精度方案，将 Gemma 4 压缩至 1GB 以下，包含 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练中模拟压缩（而非训练后量化），大幅降低内存占用并加速解码，同时保持推理质量。

AYi@AYi_AInotes · 6月5日27

明天老马要发工资了，我这里研究平台算法有一阵了，基本拿到了底层收益算法逻辑，准备做一个x创作者收益预测平台，宝子们可以给我一下最近两周自己的数据，我来打磨一下我的预测模型和算法，做好了我会开源出来，大家可以拿去分析自己的数据。

译博主@AYi_AInotes研究X平台算法后，称已掌握底层收益算法逻辑，正计划构建X创作者收益预测平台。为打磨预测模型，博主公开征集用户近两周的创作数据，承诺完成后将开源该平台，供创作者分析自身收益数据。

歸藏(guizang.ai)@op7418 · 6月5日43

发现有些朋友在用 GitHub 的时候，什么发言啊什么的，什么原生啊，看得老重了。但是就是不知道看那个版权协议。注意哦，这个 PPT skill 的版权求必须署名并且开源。如果不想开源的话，联系我走商业授权。就是抄点子也就算了，直接抄代码，还有的直接抄名字。

译歸藏指出，部分用户在使用 GitHub 时过于关注发言、原生等细节，却忽略版权协议。其 PPT Skills 要求必须署名且开源，如需闭源可联系作者获取商业授权。他同时提醒，抄袭点子、代码甚至项目名称的行为不可取。在引用推文中，歸藏表示 PPT Skills 将继续更新，得益于近期赞助，将推出第三套惊艳的主题，并将小红书图文卡片的经验融入新版。

Tencent Hy@TencentHunyuan · 6月5日74

Planning is where LLMs move from “saying” to “doing.” Tencent Hy, in collaboration with the Gaoling School of Artificial Intelligence at Renmin University of China, is excited to open-source PlanningBench - a scalable, verifiable framework for evaluating and training LLM planning capabilities. With PlanningBench, you get: ✅ 30+ real-world planning tasks ✅ Automated verification ✅ Evaluation and training support See how top-tier LLMs perform on PlanningBench 👇 Resources: arXiv: https://arxiv.org/abs/2605.20873 GitHub: https://github.com/Tencent-Hunyuan/PlanningBench HuggingFace: https://huggingface.co/datasets/tencent/PlanningBench #PlanningBench #TencentHunyuan #OpenSource 📷

译腾讯混元（Tencent Hunyuan）与中国人民大学高瓴人工智能学院合作，开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务，支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。

jason@jxnlco · 6月5日41

codex for oss update few more hundreds of plans have been distributed! we have some spam and I got 30k applicants and got flooded...

译codex for oss update 又发放了几百个计划！我们遇到了一些垃圾信息，我收到了3万份申请，被淹没了...

Berryxia.AI@berryxia · 6月4日71

卧槽！老黄牛逼啊！这下直接收藏当可以直接拿html轻松制作视频了，今天正好也在拿hyperframe和remotion捣鼓视频。这下可以直接拿来用了，直接送枕头了啊！地址👇 https://github.com/nexu-io/open-design

译open-design（项目名html-video）正式开源，被形容为“html版剪映”。Agent可通过编写HTML生成世界级产品宣传、知识解说视频，成本极低。项目历时3天、3万行代码，支持20多套视频风格模板，分页编辑，可导出mp4，支持Claude Code等主流Agent接入。

OpenClaw🦞@openclaw · 6月4日64

OpenClaw 2026.6.1 is live 🦞 🪟 native Windows node host 🛠️ Skill Workshop for self-learning agents 📋 Workboard orchestration 🧠 MiniMax M3 support Windows joins the cluster. No penguin costume required. https://github.com/openclaw/openclaw/releases/tag/v2026.6.1

译OpenClaw 2026.6.1 已上线 🦞 🪟 原生 Windows 节点主机 🛠️ 用于自主学习型智能体的技能工坊（Skill Workshop） 📋 工作板（Workboard）编排 🧠 支持 MiniMax M3 Windows 加入集群。无需企鹅服。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.1

fofr@fofrAI · 6月4日69

Ideogram v4 is really good, and open weights. Images are crisp and feel fresh.

译Ideogram v4 真的很好，而且开源权重。图像清新锐利，令人耳目一新。

小互@xiaohu · 6月3日71

被 AI 不听话折磨了大半年，终于找到解法了发现一个开源项目 OpenSquilla，国内团队做的他们用 Python 把"小龙虾"重写了一遍解决了它太费token、不按照规则执行以及安全的问题 100 次对话就能省下 100万 Token 先说省钱：它集成了一个本地的小模型，你发的每一个请求，在真正发给大模型之前，会被这个小模型极速向量化，分析这个请求到底是简单任务还是复杂任务。简单的发给便宜模型，复杂的才派顶级模型上场。就跟医院分诊台一个道理，感冒发烧不用挂专家号。关键是这个分类在本地跑，不花 token，速度极快，基本感知不到。官方跑了个测试，25 个任务，纯用 Claude Opus 4.7 总成本 6.2 美金，用 OpenSquilla 路由 Opus4.7、GLM5.1、DS4 Flash 混着跑，分数几乎一样，成本只要 0.68 美金。同样的效果，成本砍到九分之一！这下我终于敢把 Opus 和 GPT 接进去了！每轮对话还会显示本轮省了多少 token。而且省 token 不只省在模型调用上。我装了九十多个 Skill，每轮对话都把所有 Skill 的 description 全塞进上下文里，算了一下每轮要消耗 9000 左右 Tokens。 OpenSquilla 会根据当前对话语义只注入匹配度最高的几个 Skill，按我的规模大概 100 次对话就能省 100万 Token

译国内团队开源项目OpenSquilla用Python重写“小龙虾”，解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类：简单任务走便宜模型，复杂任务走顶级模型。测试25个任务，纯Claude Opus 4.7成本6.2美金，OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金，分数几乎一样。同时，它根据对话语义只注入匹配度最高的Skill（原90+个），每轮省约9000 Token，100次对话累计省100万Token。

🚨 AI News | TestingCatalog@testingcatalog · 6月3日74

TinyFish launched Bigset, an open-source multi-agent system that builds a verified, structured dataset from a single plain-language sentence, pulled live from the web and refreshed on whatever cadence you set. Describe the data, agents research it across real sources, deduplicate, and hand back a table you can export as CSV or XLSX.

译TinyFish发布了Bigset，一个开源的多智能体系统。用户只需用一句自然语言描述所需数据，系统的智能体便会从网络实时抓取、去重并整合信息，生成一个结构化的数据集。该数据集可导出为CSV或XLSX格式，并支持用户自定义的刷新频率以保持数据始终为最新状态。

AYi@AYi_AInotes · 6月3日73

Damn，一个独立开发者用 23.5 小时 + Codex，把 Whoop 5.0 的订阅墙拆了。没有破解，没有越狱，就是一个开源 App，连上你的 Whoop，心率、血氧、恢复数据直接看， zero 订阅费。这大概是订阅制硬件今年最不想看到的故事。这个 App 叫 Goose， GitHub 上完全开源。作者Bennett晒了时间线，从 0 到能连上 Whoop 5.0 并读出 HR、SpO2、皮肤温度、恢复分数，总共 23.5 小时，而且大比例代码是 Codex 写的。能做到这件事，不是因为 Whoop 太弱，是因为它的 BLE 广播协议本身没封死。 Judes Club 之前就有过完整的 Whoop BLE 分析， Goose 本质上是在这个公开协议底子上，用 Rust 搭了座桥，SwiftUI 做了层皮，把原本必须走 Whoop 服务器的数据，直接留在了本地。很多人以为 Whoop 的护城河是硬件精度，其实不是。 Whoop 真正的护城河，是你一旦戴了半年，历史数据、恢复曲线、睡眠趋势全锁在服务器里，你根本懒得走。 Goose 撕开的不是技术缺口，是订阅制硬件最脆弱的那层窗户纸：用户惯性。这就好比住高级酒店和买房的区别。 Whoop 让你交年费，给你一张房卡，房间里确实打扫得挺干净，但你的所有行李、照片、生活习惯，退房那天全得留在房间里。 Goose 不是另盖了一家酒店，是告诉你：这房子本来就有扇后门，你自己拿钥匙进去，东西全带走，不用看前台脸色。过去两年 AI 写代码的故事，大家都在比谁写得更快。但 Bennett 这件事真正的信号是， AI 把一人挑战封闭硬件生态的成本，压到了一天之内。以前逆向硬件需要团队、需要数月、需要固件提取，现在一个开发者 + Codex， 23.5 小时就能让订阅墙看起来像个笑话。当然，我非律师，这只是我作为开发者的技术观察。硬件公司的护城河不会明天消失，但定义已经在变。过去的护城河是传感器精度和 App 封闭，未来的护城河，可能是你愿不愿意把数据主权交出去。当一个人的周末就能拆一扇墙，订阅制硬件的终局可能不是被另一家硬件公司打败，是被一群不想交月租的开发者，一人一天，逐个拆光。所以说，Whoop 真正的对手不是 Apple Watch，是每一个周末有空、手边有 Codex、还觉得 30 美金月费有点贵的开发者。 GitHub 仓库我放一楼了，有用自取。

译独立开发者Bennett利用Codex AI编程工具，在23.5小时内开发出开源App Goose。该应用可直接通过蓝牙读取Whoop 5.0的健康数据，无需订阅。实现基于公开的BLE协议分析，使用Rust和SwiftUI将数据本地化存储。此举暴露了依赖用户数据锁定和惯性构成的订阅制硬件护城河的脆弱性，并展示了AI工具如何降低个人挑战封闭生态的成本。

向阳乔木@vista8 · 6月3日73

英伟达竟然有 Skill 安全扫描工具，还开源了。地址见评论区，Skill 安全是个问题，但好像身边很少有人做Skill安全扫描。可能目前还没听到特别严重的 Skill 造成破坏的案例，但警惕性不能没有。最好写个 Meta Skill，生成各种自用 Skill。他人Skill只做 AI 的学习参考。

译英伟达开源了一款针对AI智能体Skill（技能）的安全扫描工具。推文指出，Skill安全虽是一个实际问题，但目前专门做此方向扫描的工具和人员似乎较少。尽管尚未出现由Skill引发的严重破坏性案例，但仍需保持警惕。推文建议，用户可以考虑编写一个Meta Skill（元技能）来自动生成各种所需的Skill，并强调他人的Skill应主要用作学习和参考，而非直接使用。

SenseTime@SenseTime_AI · 6月2日81

Power smarter AI agents with #𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗦𝗸𝗶𝗹𝗹𝘀 🚀 𝗔𝗻 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲 𝗔𝗜 𝗼𝗳𝗳𝗶𝗰𝗲 𝘀𝗸𝗶𝗹𝗹 𝘀𝘂𝗶𝘁𝗲 𝗳𝗼𝗿 𝗮𝗻𝘆 𝘀𝗸𝗶𝗹𝗹𝘀-𝗰𝗼𝗺𝗽𝗮𝘁𝗶𝗯𝗹𝗲 𝗮𝗴𝗲𝗻𝘁, 𝗶𝗻𝗰𝗹𝘂𝗱𝗶𝗻𝗴 #𝗢𝗽𝗲𝗻𝗖𝗹𝗮𝘄 𝗮𝗻𝗱 #𝗛𝗲𝗿𝗺𝗲𝘀𝗔𝗴𝗲𝗻𝘁. 🖼️ 𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 — image generation & graphic design; mirror visual style from a reference 📊 𝗗𝗮𝘁𝗮 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 — multi‑sheet parsing, data cleaning, image-based data extraction and visualization 📑 𝗣𝗣𝗧 𝗖𝗿𝗲𝗮𝘁𝗶𝗼𝗻 — outline & content generation, intelligent layout design; outputs editable PPT files 🔍 𝗗𝗲𝗲𝗽 𝗥𝗲𝘀𝗲𝗮𝗿𝗰𝗵 — multi‑source search across academic, tech, social platforms & more; synthesizes insights & generates reports Now fully #OpenSourced. 👉 ＧitHub https://github.com/OpenSenseNova/SenseNova-Skills ⚡ Quick installation (bundled with Hermes Agent & OpenClaw) https://github.com/OpenSenseNova/SenseNova-Skills/blob/main/INSTALL.md 👾 Discord https://discord.gg/BuTXPHmQub

译商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体（如OpenClaw与HermesAgent）设计的开源技能集合，提供四大核心功能：图像信息图表生成（可镜像参考风格）、数据分析（支持多表解析、清洗与可视化）、PPT创建（生成大纲内容并智能排版，输出可编辑文件）以及深度研究（跨学术、技术、社交等多源搜索并生成报告）。该技能套件现已完全开源。

OpenBMB@OpenBMB · 6月2日56

🎉 Exciting News! MiniCPM-o 4.5 has officially been merged into vLLM-Omni! 👏 💡 Currently, it supports simplex non-streaming usage—a solid first step for what's to come. 🚀 The journey continues! We will keep pushing forward with the amazing open-source community to integrate duplex streaming capabilities next. Get ready for an even more powerful and seamless interactive experience. Stay tuned! 💪 http://github.com/vllm-project/vllm-omni/pull/4067 http://huggingface.co/openbmb/MiniCPM-o-4_5

译🎉 好消息！MiniCPM-o 4.5 已正式合并至 vLLM-Omni！👏 💡 目前，它支持单工非流式使用——这是未来发展的坚实第一步。 🚀 旅程继续！我们将与出色的开源社区一起，继续推进下一步的双工流式功能集成。敬请期待更强大、更无缝的交互体验。敬请关注！💪 http://github.com/vllm-project/vllm-omni/pull/4067 http://huggingface.co/openbmb/MiniCPM-o-4_5

StepFun@StepFun_ai · 6月2日73

Open weights are moving from model cards into real coding workflows. Step 3.7 Flash is designed for fast agentic coding, reliable tool calling, and multimodal understanding. Big thanks for the blog from the @kilocode team: https://blog.kilo.ai/p/new-models-from-stepfun-and-minimax

译阶跃星辰发布 Step 3.7 Flash 模型，强调其为快速智能体编程设计，具备可靠的工具调用与多模态理解能力。该模型采用开放权重。同期，MiniMax 也开源了 M3 模型。两者已均在 Kilo 中上线。此次发布凸显了开放权重模型正从模型卡片走向实际编程工作流的趋势。

Alibaba Cloud@alibaba_cloud · 6月2日60

🚀 AgentScope Java 1.1: Build Self-Evolving Agents ✨ Claw: Local "MinQwenPaw" with shell access ✨ Builder: Multi-tenant, zero-code enterprise platform ✨ Workspace-driven evolution & distributed isolation Scale from laptop to cluster seamlessly. 👇 https://int.alibabacloud.com/m/1000413896/ #AgentScope #AIAgents #Java

译🚀 AgentScope Java 1.1：构建可自我进化的智能体 ✨ Claw：具备Shell访问权限的本地“MinQwenPaw” ✨ Builder：多租户、零代码企业平台 ✨ 工作区驱动的进化与分布式隔离从笔记本电脑到集群无缝扩展。👇 https://int.alibabacloud.com/m/1000413896/ #AgentScope #AIAgents #Java

Berryxia.AI@berryxia · 6月2日55

Don哥又来做赛博菩萨了，直接将价值万元的内容生成工程系统免费开源。强烈建议大家安装学习，我已经安排AGENT去安装了。

译Don哥（@dontbesilent）将其宣称价值万元的“内容生成工程系统”完全免费开源。主推文作者Berry Xia建议大家安装学习，并表示已安排“AGENT”（指AI智能体）执行安装任务。推文内容侧重于推荐和行动呼吁，但未提供该开源项目的具体名称、技术细节、参数规模或性能基准。

宝玉@dotey · 6月2日67

baoyu-image-gen Skill 支持 Codex-cli 作为 Provider 画图也就是说你可以在 Claude Code、hermes agent 之类的 Agent 里面用它调用 Codex 出图，而不需要用 Codex，当然前提是安装了 codex cli 并且有订阅。感谢网友的 PRs： https://github.com/JimLiu/baoyu-skills/pull/158 https://github.com/JimLiu/baoyu-skills/pull/161 Skill 地址：https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-image-gen

数字生命卡兹克@Khazix0918 · 6月2日84

http://x.com/i/article/2061667400723156992 # 为了不花那120刀，我把电脑清理软件做成了开源skill。这两天干了一个我觉得还挺有意思的事，虽然很小，但是我也想写下来，因为感觉它可以非常非常直观的让大家感受到。 Ai时代，Agent对于传统应用的冲击。故事是这样的。前天我在推上刷到了一条帖子，X上有位老哥分享了一条prompt。就这么一句话。 do a FULL read only analysis on my Macbook to help me optimize storage。大概意思是他让Codex对他的MacBook做一次全面的只读存储分析。然后他发现可以清出500G的空间，Codex还找到了一个116G大的codex-tui.log文件。。。正好我当时这台MacBook Air赔了我快2年的时间，装了一堆乱七八糟的东西，我就想着，要不要我给我的电脑也试试查一下，看看有没有啥可以删掉的垃圾文件。于是我当场就把原Prompt丢给我的Codex试了一下，然后加了一句用中文回答。而Codex，给出了这样的结果。先不说其他的，不扫我都不知道，我发现电脑上竟然有快100个G的B站视频？？？我都懵了。而且还藏在一个相当深的Containers目录下面。我去B站客户端里翻了一下，发现是我为了坐飞机上的时候有东西看，下载了一堆以为会看的动漫、纪录片还有乱七八糟的各种视频。然后每次在飞机上都直接昏睡过去，几乎没有真的看过。。。然后，他们就默默的留在了哪里，我甚至都忘了，我还有B站客户端这回事，更忘了，这里面还有我的缓存视频。。。然后是Chrome、开发、Claude环境balbalabla。 Codex最后给了一个判断，按这个清单清，保守能腾出120G，激进一点能到140G以上。我不知道大家，反正我自己是个强迫症，是个洁癖。就是我就喜欢电脑干干净净的，垃圾能删就删。而且在之前，Mac系统清理垃圾，是一件特别恶心的事情，我还记的我17年刚上班的时候，当时为了清理Mac的垃圾，找到了一个软件，叫ClaeanMyMac。这玩意不是免费用的，正版一年近40刀，一次买断要120刀。当时刚毕业你让我买这个，我真的是掏不起，然后就满大街的搜破解版，然后功能又不全。可以说，到了今天，清理Mac的垃圾，都没有一个很好用的产品。 Windows生态也差不多，有多少装安全管家或者360，其实就是为了清垃圾的，可以举个手。。。但是现在，好像，Agent就能直接干了啊。本身你直接清理电脑垃圾也就是包装了一层UI，然后对我电脑底层进行扫描和操作，那我让Agent直接操作，岂不是更牛逼一点？说干就干。不过原版prompt其实有个问题，它只是一个比较专业一点的只读文档，然后给你列了一个占用清单，又给了一些不太清楚的清理建议。对没太熟悉系统的朋友，看完整份报告，其实还是会不太敢动手。哪些能放心清，哪些得自己看一眼再判断一下，哪些绝对千万别碰，这些判断它没有帮你直观清晰地列出来。而且他也没法帮你删东西。所以我想，要不然，圆一下我9年轻的梦，直接干脆自己搓一个skill，来解决清理电脑垃圾的需求？说干就干，大概烧了一些Token之后，这个清理垃圾.skill，就顺利面试了，而且，Mac和Windows都能用。同样，老规矩，也已经开源在我自己GitHub上的skills仓库了。 https://github.com/KKKKhazix/khazix-skills 我在我的MacBook Air上跑了一下，给大家看一下效果比如说一句帮我看看存储，它就可以自动触发了。它会先找你要权限，然后扫描你电脑上面的文件，然后直接在浏览器里打开一份可交互的HTML报告，帮助你可以化的了解，同时，你也可以直接在网页上点按钮清理。就这么简单，但是究极实用，而且效果甚至比收费的专业清理软件效果还要好。。。而且速度也不错，几分钟就跑完了。最终的网页是这样的。第一部分是磁盘总览。总容量多少，用了多少，还剩多少，可以通过一条彩色进度条方便直观看到。同时因为后续要给出清理命令，所以他会去扫描你电脑的系统环境。接着是占用排行Top 5。和上面prompt分析的结果一样，B站离线下载缓存96.7个G排第一，然后Google Chrome应用数据等等等等。每一项都有颜色标签、类型、完整路径和一句话说明。再往下是执行建议，帮你排好了清理的优先级。性价比最高的是去B站客户端清看完的离线视频。然后跑绿灯纯缓存命令，合计约27个G。这里虽然给了清理执行建议，但是你可能还不知道要怎么去清理。这就是随后的三色分级详情区用来做的事情，也是整个skill最核心的部分。 🟢 绿灯，可以放心让agent帮你清理。这类东西寄都全是纯缓存、临时文件、安装包残留，垃圾大户，不影响任何功能。每项都可以展开。展开之后路径、清理前要不要关进程、清理命令全列好了，每条命令旁边有复制按钮，你想去复制自己运行的，你也可以自己去运行着玩。但是我们也贴心的在下面也设计了两个操作按钮，移到废纸篓和直接删除。无论你点哪一个键，它都会有一个弹窗跟你进行二次确认。移到废纸篓是可逆的，删错了能捞回来。直接删除立即释放空间但不可恢复。你就自己选择就行。比如我这里点移到废纸篓，然后点确定。这几个安装包就会被移到我的废纸篓里面去了。然后这一项在网页上，也会实时更新，被标记为已清理。如果不想逐项清理的话，你也可以直接点击右上角，一键把这些绿灯文件移到废纸篓，或者是一键删除。 🟡 黄灯文件，是我们建议你自己看一眼再决定的。这类东西需要人去把关，比如B站缓存的视频、下载文件夹里的安装包、某个项目文件夹。 agent会告诉你它是什么、为什么建议你看一眼、删了有什么影响，最终你自己拿主意。黄灯项不会给你直接删除的按钮，只给在访达中打开让你自己去看，你确定了以后手动去删。有安全子路径的会额外给一个移到废纸篓，但也只是移到废纸篓，可逆的。比如这里没有用的B站视频，它会建议我去b站应用里面删视频。当然，你也可以快捷打开访达（就是Mac的文件夹），直接跳到那个地方，然后手动山东。也提供了一个移到废纸篓选项，这里的仅安全部分，它也会解释是经过核实过可安全清理的子目录。因为这个文件夹下面除了视频，还保留了我的登录派和设置，所以是不能完全删除的。点这个键，它会只删除视频，而保留我的B站登录态和设置，这也是我们的一些小小体验设计。 🔴 红灯里就是一些比较重要的文件。比如系统文件、正在使用的应用核心数据、sleepimage这些，agent会解释为什么不能动，然后跳过清理。如果你非要清理的话，那他也给你提供了一键在访达中访问的按钮，点一下就能找到这个应用了。最后是长期优化建议，这里面的一些建议，我觉得还是值得一看的。整个skill全程只读，扫描阶段禁止任何写操作。只有你在报告页面上主动点了删除之类按钮，浏览器弹出确认框，你再点一次确认，才会真正执行清理操作。我自己一直的原则是，对待AI，还是需要谨慎一点，稍微花点时间确认一下，虽然现在在代码层面，这种小东西幻觉率已经极低了，但还是防一手。给大家看看我清完之后的内存。直接清理掉了了快120个G。。。就像我前面说过的，这个skill它是不挑电脑环境，也不挑你的Agent工具。所以我也拿同事的Windows电脑的Codex试了一下。给大家放一下效果。欢迎大家试试，如果跑出来了什么有意思的发现，也欢迎来评论区分享，我很好奇大家的电脑里有没有像我一样藏了些奇奇怪怪的东西。也再次提醒一下大家，删东西一定要慎重慎重再慎重。当然我知道，肯定很多人也好奇，这种Agent+skill的方式来清垃圾，跟之前的专业清理软件比，效果到底怎么样。所以呢，为了方便对比，在用这个skill清理内存前，一开始我就专门在我的MacBook Air上同样拿CleanMyMac扫了一遍。跑了快半小时才出结果，扫出了15.8G的垃圾可清理。点进垃圾清理是这样的。左边把垃圾分成了几个大类，系统垃圾里面也给你分好了文件的种类。但是这些信息并不足够让我做决定。比如这个Google Chrome 3.8G的文件夹，他告诉我，这是用户缓存文件，属于系统垃圾，可以删。但是我其实并不知道这个文件里面到底是什么内容。这3.8个G里有多少是Service Worker离线缓存，扩展数据，或者IndexedDB，清完之后哪些网站要重新登录、哪些离线功能会失效。我全都不知道。那作为一个普通用户，我只能单凭他说的用户缓存文件，相信他，让他删了。而且他只能扫描到传统意义上的垃圾文件，扫不到我瞎下的b站视频，因为他不能像agent一样去读到每个文件的内容。相比起来，Agent给的信息比CleanMyMac细多了，也透明多了，每一项都有具体路径、具体大小、具体说明，告诉你这个文件夹是干嘛的、删了会怎样、建议你怎么操作。这个能力，现在一个skill就能做到了。而且做得更透明、更灵活、可以根据你的具体情况定制。在我的skill之上，进一步，你想让他找哪种想清理的文件都可以大白话跟他说，CleanMyMac做不到这种程度的个性化，因为它是一个写死了规则的软件，而Agent能理解你的各种奇奇怪怪的需求。我不是说CleanMyMac不好。但其实你可以发现，这类工具型软件，在Agent时代，确实正在遭受冲击。我之前写过一篇文章叫AI正在吞噬所有软件，里面有一个判断，软件正在从资产变成耗材。还有，软件的本质就是人和机器之间的翻译层，而Agent正在填平这道鸿沟。两个月，这个清垃圾的小skill，其实就可以验证了。我自己的电脑里，在很久很久以前，其实还装过很多工具类的软件。解压缩的、PDF编辑的、图片格式转换的、文件重命名的、重复文件查找的…… 这些软件的共同点是它们都在执行一个相对明确的、规则可定义的任务。而这恰恰是Agent最擅长的事。所以那些曾经靠一个明确功能养活团队的软件公司，它们面对的竞争对手已经不是另一家软件公司了，而是用户手里的一条prompt，是Agent的一个skill。这个skill今天能清垃圾，明天能做什么，那谁知道呢。反正我挺期待的。这个有趣的未来。

译作者受一条推文启发，使用Codex对自己的MacBook进行了只读存储分析，发现了B站缓存视频等大量可清理空间（激进方案超140G）。为替代收费软件CleanMyMac，作者制作并开源了一个跨平台（支持Mac/Windows）的AI清理skill。该skill会扫描文件并生成可交互的HTML报告，通过三色分级（绿灯可放心清理、黄灯需人工判断、红灯禁止动）直观展示，并提供安全执行按钮。实测清理后释放了近120G空间，相比CleanMyMac仅扫描出的15.8G，其信息更透明、建议更详细。

StepFun@StepFun_ai · 6月2日69

This is exactly the philosophy: don't bolt on efficiency, design for it from day one. MFA + AFD aren't tricks. They're what lets Step 3.7 Flash serve at a fraction of the KV-cache cost. Huge thanks to @FireworksAI_HQ for making Step 3.7 Flash one-click to run. Go build something agentic with it.

译阶跃星辰发布其推理优化型模型Step 3.7 Flash。该模型为196B MoE架构，从设计之初就专注于推理效率。其采用多矩阵分解注意力机制，使KV-cache成本仅为DeepSeek模型的约22%；同时通过注意力与FFN解耦技术，实现了硬件优化的高效服务。该模型已通过Fireworks AI提供，采用Apache 2.0许可，并可用于构建智能体应用。

Berryxia.AI@berryxia · 6月2日65

有朋友问我这个翻译工具是什么。我用的视频翻译工具主要是 Memo 软件，它是一个免费开源的软件，功能非常强大。目前我日常主要在两个场景中使用转录+剪辑+翻译工具： 1. Memo 软件 (a) 场景：主要用于处理下载到本地的视频。 (b) 流程：这软件可以下载了 Whisper 的本地大模型，下载完视频后先进行转录，不再烧Token。 (c) 翻译：虽然也可以用本地模型翻译，但速度和效果可能没有 API 快，所以我接入了 DeepSeek-V4 -Flash 来进行翻译，价格便宜又好用。 (d) 体验：Memo就可以完成烧录字幕，编辑，导出整个片子的剪辑其实都挺快的，但在 X 上发布时速度贼慢，搞了一整晚才上传完毕。 2. 沉浸式翻译 (a) 场景：主要用于网页、YouTube 视频以及一些图书的翻译。 (b) 优点：它能保持比较不错的格式，方便后面做分享。我觉得这两个工具都挺好的，自由度比较高。你可以接入自己订阅的 API 模型，自由切换，非常方便。此外，Memo的这个时间戳总结关键内容的功能还挺不错的。

译推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件（免费开源）：用于处理本地视频。流程为下载视频后，使用Whisper本地模型进行转录以节省成本，再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出，但在X平台上传速度慢。2. 沉浸式翻译：主要用于网页、YouTube视频及图书翻译，优点是格式保持较好。两者均支持接入用户自定义的API模型。