6月9日

08:43

meng shao@shao__meng

精选75

GitHub 122K⭐的Skills推出新技能「Teach」：把工作目录变有状态学习空间

GitHub 122K⭐的Skills仓库推出新技能Teach，可将当前工作目录变为有状态学习空间。设计理念从Knowledge（概念事实）→Skills（动手操作）→Wisdom（真实判断）。工作区以文件即学习状态：MISSION.md定目标、lessons/提供课程、learning-records/记录已会内容、reference/生成速查手册。五个关键机制：Mission定方向、ZPD根据记录调整难度、Lesson一课一事+即时反馈、Learning Record记“会了什么”而非“讲了什么”、Reference形成长期可回看手册。可通过npx skills add mattpocock/skills --skill teach安装，适用于从魔方到软件基础等学习场景。

Matt Pocock: /teach is live Learn anything, from rubik's cube to vocal harmonies to software fundamentals. npx skills add mattpocock/...

GitHub 开源/仓库部署/工程

推荐理由：mattpocock 这个 Teach Skill 把学东西从看文章变成写代码，用文件作为学习状态机，做开发者的可以立刻用起来，思想比同类教程工具高一个档次。

08:00

HuggingFace Daily Papers（社区热门论文）

WebChallenger：不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

WebChallenger 围绕核心模块 PageMem（从 DOM 确定性构建的带摘要语义层次页面结构）设计三种机制：分而治之的观测管线（让智能体扫读摘要、仅提取任务相关区域细节）、轻量级网站探索与记忆系统（遍历一次网站即可复用页面与元素行为地图）、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型，在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%，接近前沿闭源系统但成本极低。代码已开源。

智能体 GitHub 开源/仓库论文/研究

02:21

jason@jxnlco

如果你用 poke，可以看看我的自动化工具，用来跟踪 codex 的发布。也许有一天你会在其中看到 @interaction 被提及。 http://poke.com/r/7ZaRDldAw3s

OpenAI 开源/仓库编码

6月8日

23:12

Chubby♨️@kimmonismus

精选78

Hivemind推出面向AI编程智能体的持续学习功能，即日起开放

Hivemind发布面向AI编程智能体的持续学习功能，即日起开放。该工具收集团队运行的每个智能体（Claude Code、Codex、Cursor、Hermes、Pi）的轨迹，转化为可复用技能并推送到所有智能体，数据存储在用户自己的云存储中。内置SkillOpt使技能持续训练：Claude Code准确率提升+19.1分，Codex提升+24.8分，在全部52个测试设置中最佳或持平。开源，一行命令安装。

Davit: Coding agents that actually get better the more your team uses them. Introducing Hivemind: continual learning for AI cod...

智能体开源/仓库编码

推荐理由：Hivemind 让 Claude Code、Cursor 等不同 AI 编码助手互相学习，团队用得越多代理越准，开源一行安装，做工程管理的值得立刻试试。

22:46

OpenBMB@OpenBMB

精选75

VoxCPM2 技术报告发布

面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型，拥有 2B 参数，基于超 200 万小时多语言语音数据训练，支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估，以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建，在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

多模态开源/仓库模型发布语音

推荐理由：面壁把语音生成压进2B参数，支持30种语言加方言克隆，还附完整技术报告和Apache 2.0开源，做语音产品的可以直接拉代码跑起来了。

21:50

Hugging Face：Blog（RSS）

精选62

开源社区支持 OpenEnv 用于智能体强化学习

今日，Hugging Face 宣布 OpenEnv 项目进一步开放，由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调，并获得 PyTorch Foundation、vLLM、SkyRL（UCB）等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具，定位为训练器与环境间的互操作层，标准化环境的发布、部署和消费，但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API（reset()、step()、state()），支持 HTTP、WebSocket、Docker 打包，并将 MCP 作为一等公民，使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证，以推动开源智能体 RL 基础建设。

智能体 Hugging Face MCP/工具 Meta

推荐理由：开源社区在 agent RL 环境上终于开始合流，Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准，不做奖励框架，只做插线板。搞开源 agent 训练的人，这是少有的统一基础设施的机会。

21:40

meng shao@shao__meng

邵猛开源 Markdown 转 X Article 格式 Skill

邵猛批评 X Article 编辑器难用、不支持 Markdown 格式，并用 Codex 创建了一个 Skill「md-to-x-article-skill」，可将 Markdown 自动转换为 X Article 展示格式。该工具已开源在 GitHub（shaom/md-to-x-article-skill），用户可 Fork 后按需微调。

GitHub 开源/仓库

21:36

小互@xiaohu

精选79

小互开源视频翻译工具：一句话自动下载、转写、翻译、烧字幕

小互（@xiaohu）开源视频翻译工具（xiaohu-video-translate），只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行，不花API费。支持YouTube、Bilibili、抖音等链接及本地文件，英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳，按语义断句，每行不超过12字，双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成，可单独或串联使用，适配Claude Code、Codex、OpenClaw等AI编程工具。已开源，附安装指南。

GitHub 开源/仓库视频语音

推荐理由：小互把自己用了半年的视频翻译工具开源了，本地Whisper转写加AI润色，下载、翻译、烧字幕一句话搞定，做海外视频搬运或想省时间的，装一下就能省掉大半天手工。

19:40

Rohan Paul@rohanpaul_ai

Kocoro：开源 Mac AI agent 框架，本地化记忆管理

Kocoro 是一个引擎级的开源 Mac AI agent 框架。它通过本地 agent 读取用户的过往会话、文件、应用、浏览器、屏幕和终端，将有用事实压缩为记忆，使 agent 无需重复上下文即可继续工作。安全模型以本地优先：工具操作需授权，危险命令被拦截或二次确认，行为可审计，秘密自动脱敏，记忆/同步默认不上传。其“情景记忆”将历史会话转化为项目事实、决策、协作者、截止日期和习惯。每晚自动将工作日蒸馏成本地知识图谱，次日直接恢复进度。

Wayland Zhang: The models keep getting smarter. The users keep turning into assistants. You paste the file. Re-explain the project. Nar...

智能体 MCP/工具开源/仓库端侧

18:10

Alibaba Cloud@alibaba_cloud

阿里云发布AgentScope Java 2.0，面向企业级AI智能体开发。新版本主要特性：分布式无状态架构，支持K8s弹性扩缩容与会话恢复；多租户隔离，通过Workspace抽象实现安全数据分离；长期稳定性，HarnessAgent负责上下文管理与容错；安全执行，提供细粒度权限控制和Human-in-the-Loop支持。适用于JVM生产环境。开源地址见推文链接。

智能体开源/仓库部署/工程

16:38

meng shao@shao__meng

精选78

邵猛开源 Brand to DESIGN.md 技能，提醒复刻易生新"AI Slop"

邵猛关注 Design Skill、Taste Skill、Anti-AI-slop design skill，并开源 Brand to DESIGN.md Skill（GitHub: shaom/brand-to-design-md-skill），让 Agent 学习设计品味后复刻网站。但他指出，这种复刻看多了反而从 Anti-AI-slop 衍生新“AI Slop”，缺少设计精髓，仅皮毛相仿。

智能体 GitHub 开源/仓库

推荐理由：邵猛这个 skill 把品牌手册一键转成 Agent 可用的 DESIGN.md，虽然 AI 复刻设计仍缺灵魂，但至少能让 Agent 立刻有规范可循，做设计的可以直接套用。

08:12

Simon Willison 博客

datasette-agent-edit 0.1a0 发布

datasette-agent-edit 0.1a0 插件发布，为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor，实现三个工具：view（按行号查看文件片段）、str_replace（精确替换唯一字符串）、insert（在指定行号后插入文本）。该插件作为基础组件，可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。

智能体 MCP/工具开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

SearchSwarm：面向长周期深度研究的代理大语言模型委托智能

研究团队提出SearchSwarm，通过设计引导框架将长周期任务分解与委托决策编码为高质量轨迹，并用作监督微调数据，将委托智能内化到模型权重中。由此训练的SearchSwarm-30B-A3B模型在BrowseComp上达到68.1分，在BrowseComp-ZH上达到73.3分，均为同规模最佳。团队将开源引导框架、模型权重和训练数据。

智能体开源/仓库论文/研究

6月7日

21:28

Hacker News 热门（buzzing.cc 中文翻译）

Symbolica 2.0：适用于 Python 和 Rust 的可编程符号系统

Symbolica 2.0 发布，这是一款可编程符号系统，支持 Python 和 Rust 语言。该版本在 Hacker News 上获得 100 点热度。

产品更新开源/仓库编码

12:30

宝玉@dotey

最近为了研究Claude Design，专门写了一个工具，可以解析HAR文件，解密Claude Design传输的二进制内容，这样可以方便的看到请求的Prompt

宝玉: Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...

MCP/工具开源/仓库

关联讨论 1 条

08:00

HuggingFace Daily Papers（社区热门论文）

PaperMentor：面向AI研究论文的以人为中心的多智能体写作导师（基于Overleaf）

PaperMentor是一个开源的写作辅导系统，在Overleaf中以内联评论形式提供可操作的建议，而不替代作者写作。系统集成了专家技能库和12个专门智能体，覆盖格式规范、措辞准确性、术语一致性等论文写作方面。用户研究（n=14）中，90.6%的评论被评为可操作，67.5%的评论有效，显著优于不使用技能库的GPT-5.2基线。代码以AGPL-3.0许可证公开。

智能体 arXiv 开源/仓库论文/研究

00:58

Berryxia.AI@berryxia

mlx-audio v0.4.4 发布：新增 15+ 个 TTS/ASR/VAD 模型及服务器改进

mlx-audio v0.4.4 发布，所有模型均运行在 Apple Silicon。新增 15+ 个模型：TTS 包括 VoxCPM2（2B 参数、48kHz、30 种语言）、MOSS-TTS、Higgs Audio v3 等；ASR 包括 Mega-ASR（基于 Qwen3-ASR-1.7B + LoRA 路由）、Nemotron 3.5 ASR（实时流式）、Cohere ASR（长文本转录速度提升 1.7 倍）等；VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令：uv pip install -U mlx-audio。

Prince Canuma: 🚀 mlx-audio v0.4.4 is out - our biggest model drop yet. 15+ new TTS, ASR & VAD models, faster long-form transcription, ...

开源/仓库开源生态语音

6月6日

23:26

向阳乔木@vista8

Open Design：用本地Agent替代Figma的开源设计工具

Open Design 是一个用本地 Agent 驱动的开源设计工具。一个月内获得近 60K GitHub Star（20 天达 50k+），全球 30 多国用户，340 名贡献者。它识别本地的 Claude Code、Codex 等 Code Agent 作为设计引擎，生成 HTML 单文件而非

智能体开源/仓库开源生态教程/实践

23:25

宝玉@dotey

Hermes Desktop 下个版本支持多语言及中文界面

开发者 @dotey 提交的 PR 已被合并，Hermes Desktop（Hermes Agent Desktop）将在下个版本支持多语言。该 PR 将硬编码文字替换为多语言支持，并把语言选择改为可检索的 Dropdown List，解决语言数量多时无法一屏显示的问题。为测试语言支持，加上了完整繁体中文和日文。翻译借助 Web 版和 AI 辅助，可能存在错误，鼓励用户自行提交 PR 修正。

宝玉: 感谢 @Teknium 合并了 PR,现在 Hermes Agent Desktop 支持中文了,还不够完整,会继续贡献 PR,以及修复一些因此带来的错误。

GitHub 产品更新开源/仓库

21:17

IT之家（RSS）

精选70

OpenCV 5 发布：升级全新 DNN 引擎、原生支持大模型

OpenCV 5 正式发布，采用基于图的 DNN 引擎，ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%，原生支持 Transformer、视觉语言模型（VLM）和大语言模型（LLM）。其他更新包括：更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars，每日安装量超一百万次。

多模态开源/仓库推理部署/工程

推荐理由：OpenCV 5 是一次架构级大更新，DNN 引擎重写、ONNX 覆盖率从 23% 跳到 80%，原生支持大模型推理，做模型部署的该关注了。

19:48

Hugging Face：Blog（RSS）

精选58

Persona Atlas：Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索，生成公众人物的资料、事实清单和风格假设，然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量，从而在向量空间中对不同人物进行距离比较，并基于十个特质锚点绘制热力图。前端采用 Gradio，提供研究、比较和检查代理完整追溯三个标签页，预设多个人物角色，无需 token 即可直接体验。

智能体 Hugging Face 开源/仓库

推荐理由：把苏格拉底和乔布斯放在一起比思维方式，这个实验更像智力玩具，但背后用小模型跑 agent 搜索做嵌入比较的流程，做角色扮演的人可以学研究方法。

18:59

The Decoder：AI News（RSS）

Audio Interaction：开源语音模型持续监听，每0.4秒决定是否说话或保持沉默

Audio Interaction是一个开源语音模型，持续监听环境，每0.4秒判断是否应该说话或保持沉默。与GPT-4o或Qwen3.5-Omni不同，它无需等待录音结束，可在单个流中同时进行翻译、转录、对话并识别咳嗽等日常噪音。代码和模型权重已在GitHub上以Apache 2.0开源许可发布，训练数据稍后公布。

开源/仓库模型发布语音

18:24

AYi@AYi_AInotes

OpenCut：GitHub 5万星开源AI剪辑工具，本地优先、永久免费、无水印无会员

OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具，主打本地优先，视频无需上传服务器，永久免费、无水印、无会员墙。目前处于 Early Beta 阶段，网页版支持基础剪辑（导入视频、时间线、切割），但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server（让 AI Agent 直接调用工具），目标是成为可编程的视频底座，而非对标剪映的封闭工具。

AYi: http://x.com/i/article/2060717603987791878

GitHub MCP/工具开源/仓库开源生态

12:24

宝玉@dotey

《图解Skill》发布，GitHub 开源多个 Skills

宝玉的新书《图解Skill》已出版，配套 GitHub Repo 开源了书中涉及的所有可复制粘贴的 Skills，包括之前未公开的播客文字稿转访谈稿 Skill。读者理论上可以不买书直接使用 Repo 内容。电子书版本同步上线，方便读者复制粘贴。

Leon.ai: @xiaohu @dotey 这类书只想看电子版,毕竟适合复制粘贴

智能体 GitHub 开源/仓库

12:06

Simon Willison 博客

Simon Willison 发布 micropython-wasm：基于 WebAssembly 的 Python 沙箱执行方案

Simon Willison 发布 alpha 包 micropython-wasm，用于在 Python 应用中安全执行代码。该包将 MicroPython 编译为 WebAssembly，通过 wasmtime 库运行，实现内存和 CPU 限制、严格的文件与网络访问控制，并支持主机函数交互。它可作为 Datasette Agent 的沙箱插件 datasette-agent-micropython。

开源/仓库部署/工程

09:11

eric zakariasson@ericzakariasson

如果你仓库里没有至少20个这个函数的副本，你就不是tokenmaxxing。

Christoph Nakazawa: You are not tokenmaxxing if you don't have at least 20 copies of this function in your repo.

开源/仓库编码

09:01

Artificial Analysis@ArtificialAnlys

Gemma 4 12B 语音转录表现不佳，落后于专有转录模型

Google DeepMind 发布开源权重模型 Gemma 4 12B，支持语音转录，在 AA-WER 基准上得分为 8.8%（排名第 58），远低于专注转录的开源模型 Voxtral Mini Transcribe 2（4B 参数，WER 3.6%）和 Voxtral Small（12B 参数，WER 2.8%）。该模型是 Gemma 4 系列中支持转录的最大型号（另有 E4B、E2B），而 31B 和 26B A4B 仅支持文本、图片和视频输入。Google 同步推出本地听写应用 Eloquent（MacOS/iOS）。模型已在 Hugging Face、Ollama 和 LMStudio 上架。

Google 开源/仓库评测/基准语音