AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 211 条
全部一手资讯X论文
标签「GitHub」清除
MiniMax (official)@MiniMax_AI · 6月18日51

image input with M3 carrying a full sim. good build @coldopn

译MiniMax 官方转发用户 @coldopn 的体验:前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code,切换至 MiniMax M3 模型,仅凭一句“将此截图动画化为可工作的黑洞模拟器”的提示词,M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元,展现了 M3 强大的视觉理解与生成能力。

AYi@AYi_AInotes · 6月18日76

被 vibe coding 反噬过的AI玩家和开发者们看过来,这个工具包把 Token 消耗砍掉了 63%,注意可不是单纯的砍功能,主要是砍废话。 @mattpocockuk Pocock(Total TypeScript 作者,前 Vercel)把资深工程师开工前的肌肉记忆拆成了可触发的技能——/ask-matt,就好像他本人站你身后一样,你扔任务进去,它先推荐该用哪个技能,再让 AI 按流程走,需求拷问、领域建模、TDD 红绿,每一步都有纪律。 v1 版更狠的地方是 AI 可以自己判断时机触发技能,你不用盯着喊停,有点像个老钳工把动手前先划线灌进了 AI 的身体里。 现在有人把 prompt 当咒语攒,有人把 prompt 当流程拆,v1属于后者。 开源在 GitHub,链接放评论区啦~

译Matt Pocock(Total TypeScript 作者)开源了 skills v1,将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用,新增 /codebase-design、/domain-modeling、/grilling 三项技能;重写 /writing-great-skills;将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用;新增 /ask-matt 路由技能,帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。

meng shao@shao__meng · 6月17日60

在你的 Coding Agent 里切换任意模型 推荐 @Jason_Young1231 的开源项目「CC Switch」 https://github.com/farion1231/cc-switch Github 103K ⭐️,远高于原作者的 X 关注数量,这不合理,关注 CC Switch 的朋友们,关注起来!

译邵猛推荐 @Jason_Young1231 的开源项目 CC Switch,GitHub 获 103K 星。该项目解决 OpenAI Codex Responses API 与多数第三方 API Chat Completions 接口不兼容的问题,使更多模型可在 Codex 中直接使用,完全开源免费。

Rohan Paul@rohanpaul_ai · 6月17日54

From that famous repo by @elder_plinius Claude Fable 5 — System Prompt

译来自@elder_plinius的那个著名仓库 Claude Fable 5 — 系统提示词

宝玉@dotey · 6月17日75

baoyu-design skill 可以在本地生成动画视频,导出 mp4 格式,就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频,但你需要在网页上才能看到视频,无法下载。也有人基于第三方插件录屏软件实现过,不过很麻烦,效果也不是很好。 在这套 Skill 基础上,我已经实现了直接把动画导出成 mp4 视频的能力。 生成动画和导出视频,其实原理差不多,就是每一帧画面,都是根据所在时间坐标算出来的,就像一个函数 f(t),你传入给动画引擎任意一个时间点 t,它能直接算出那一瞬间屏幕上每个元素的位置、透明度、大小,所有视觉状态完全由 t 决定。不需要从头播放到那个时刻,也不需要记住之前发生了什么。 传统写动画的方式是命令式的:到了某个时刻,去改某个元素的位置,把透明度调一下。状态散落在各处,时间一乱画面就乱。这套引擎反过来,用的是声明式思路:你不去驱动元素运动,只描述在第 t 秒,每个元素应该长什么样。 打个比方,传统动画像看电影,你必须从头看才知道第 30 分钟画面是什么。这套引擎更像一本特殊的书,翻到任意一页,画面都是完整的、确定的。 这个设计带来了三个能力: 1. 拖动播放条跳到任意位置可以,因为 f(t) 随时能算; 2. 反复调试同一个画面可以,因为同一个 t 永远产出同一帧; 3. 把动画导出成视频也可以,而且方式很巧妙。 那么导出视频是怎么实现的呢? 直觉上,把浏览器里的动画变成 MP4,录个屏不就行了? 录屏是实时的。机器稍微一卡就掉帧,拍出来的视频不可复现。而且播放条、黑色背景、圆角阴影这些"播放器外壳"会一起被录进去。 baoyu-design 用的方法更像定格动画的拍摄:启动一个无头浏览器(没有界面的 Chromium),加载动画页面,通过引擎预留的一个控制接口精确操控时间轴。每设定一个时间点,等浏览器把画面渲染完成,截一张图,通过管道直接喂给 ffmpeg 编码。一段 95 秒、30fps 的动画就是 2850 次"摆好时间,拍照"的循环。慢,但每一帧都是精确的,绝不掉帧。 这里有个容易忽略的细节:设定时间后,工具会等两帧 requestAnimationFrame 再截图。因为修改时间只是改了 React 状态,浏览器还需要一到两帧才能把新画面真正画到屏幕上。等少了,截到的可能是上一帧的残影。 为了让画面更锐利,截图时用 2 倍设备像素比渲染,实际按 3840×2160 出图,最后由 ffmpeg 缩回 1080p。原理和高分辨率印刷一样:先在更大的画布上精细绘制,再高质量缩小,文字边缘和细线会明显更清晰。 baoyu-design 在 GitHub 开源(MIT 协议),目前 1.2K star。感兴趣的可以去看看它的 skills/baoyu-design 目录,动画引擎的完整实现都在里面。 https://github.com/jimliu/baoyu-design

译baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

jason@jxnlco · 6月17日65

codex you say????

译NVIDIA GEAR实验室推出ENPIRE项目,首次实现物理世界自动研究。8个Codex智能体被授权控制机器人舰队、GPU及token预算,自主完成绑扎带、整理精密插针、安装GPU等高精度任务。系统无需人类干预,agent可自学视觉线索、复位场景、调参、翻阅论文、辩论反思,并直接硬件试错。团队发现“物理规模扩展”效应:8台机器人并行探索效率显著高于少数台。部分实验室已实现夜间自主改进,每天早上看报告。ENPIRE将全部开源,支持在家搭建自运行机器人实验室。

meng shao@shao__meng · 6月16日60

LandingAI 把 Agentic Document Extraction 从「API 文档 + 手写脚本」升级成 Agent Skills ——让 Codex、Claude Code、Cursor 等 Coding Agents 在对话里直接写出可用的文档处理流水线 http://github.com/landing-ai/ade-document-processing-skills # 两个 Skill 的分工 1. document-extraction — 原子操作 · Parse:结构化 Markdown + 层级 JSON · Extract:JSON Schema / Pydantic 字段抽取(发票、表单、表格等) · Split:混合批次按文档类型拆分 · Classify:按页分类路由(Preview) · TOC:生成目录结构(Preview) · 大文件:异步处理(最高约 1GB / 6000 页) · Visual grounding:元素级坐标与置信度 2. document-workflows — 生产级组合 · 并行批处理(ThreadPool / async) · Classify → Extract 混合文档流水线 · RAG 准备:语义分块、embedding、ChromaDB/FAISS · 导出 DataFrame / CSV / Snowflake · 可视化标注(bbox 叠加、词级高亮) · Streamlit 交互 UI

译LandingAI 将 Agentic Document Extraction 升级为 Agent Skills,支持在 Codex、Claude Code、Cursor 等 coding agent 的对话中直接调用,实现零脚本文档处理流水线。两个 Skill 分工明确:document-extraction 提供结构化 Markdown/层级 JSON 解析、基于 JSON Schema/Pydantic 的字段抽取、按文档类型拆分、按页分类路由(预览)、目录生成(预览)、异步大文件处理(最高约 1GB/6000 页)及元素级坐标与置信度可视化;document-workflows 封装并行批处理、Classify→Extract 混合流水线、RAG 准备(语义分块、embedding、ChromaDB/FAISS)、DataFrame/CSV/Snowflake 导出、bbox 标注叠加及 Streamlit 交互 UI。安装命令:`/plugin marketplace add landing-ai/ade-document-processing-skills`。

宝玉@dotey · 6月16日50

这哥们搞了个 Llama 3.3 70B 扫描代码库,报的问题都是错的,纯制造互联网垃圾,我得去拉黑了 https://github.com/JimLiu/baoyu-design/issues/9

译用户指责某人使用Llama 3.3 70B扫描代码库,生成的错误报告全是错误的,认为这种行为纯粹是在制造互联网垃圾,并决定将其拉黑。该推文附带了相关GitHub issues链接。

meng shao@shao__meng · 6月16日66

Generative UI × Agent Harness Coding Agent(Claude Code / Codex / Pi)在 Vercel Sandbox 里真实改代码、跑命令、测用例;汇报时不再只返回 Markdown,它基于「json-render」输出受约束的 JSON UI 规格,前端实时渲染成步骤、Diff、终端、测试结果、图表等组件。 https://github.com/vercel-labs/json-render/tree/main/examples/harness-chat 这个实现思路,和 Claude Code 核心开发者 @trq212 「Using Claude Code: The Unreasonable Effectiveness of HTML」异曲同工: https://x.com/trq212/status/2052809885763747935 技术架构(三层解耦) 用户 Prompt ↓ HarnessAgent(AI SDK 7 实验 API) ├─ Claude Code / Codex / Pi(可互换) └─ Vercel Sandbox(隔离 Linux 环境,真实 bash/edit/test) ↓ Agent 输出:短 prose + ```spec 围栏内的 JSONL ↓ pipeJsonRender(从流中提取 spec → data-spec parts) ↓ 前端 useChat + useJsonRenderMessage → 渲染组件树 关键设计点: 1. Harness 抽象与模型抽象对称 AI SDK 7 的 HarnessAgent 让你像换模型一样换 Harness——claudeCode 换成 codex 或 pi,调用方式不变。Harness 管 skills、sandbox、session、权限、compaction 等「模型之上的层」。 2. UI 层与执行层完全解耦 HarnessAgent. stream() 返回标准 AI SDK StreamTextResult,因此 json-render 管道与单模型 chat 示例 完全相同。换 Agent Harness,前端代码不用改。 3. Catalog 约束 = 安全 + 可预测 Agent 只能使用预定义组件(Steps、FileChange、Terminal、TestResults、Metric、BarChart…),输出必须符合 Zod schema。AI 生成 UI,但 在你划定的组件边界内。 4. Session 绑定 Sandbox 每个 chat 维护一个 live session + sandbox;首条消息冷启动较慢,后续复用同一工作区。10 分钟 idle 或「Start Over」会销毁 sandbox。 一次完整交互里发生了什么 1. 用户选 Agent(Claude Code / Codex / Pi)并发送任务 2. 服务端 getSession(chatId, agent) 创建或复用 Harness session 3. Agent 在 sandbox 内执行真实操作(写文件、跑测试、benchmark 等) 4. 回合结束时 Agent 输出: · 一两句 conversational 总结 · 一个 ```spec 围栏包裹的 JSONL UI 报告 5. pipeJsonRender 把 spec 从文本流中拆出,变成 typed data-spec parts 6. 前端同时渲染:Markdown prose、工具调用活动行(bash/edit/read…)、结构化报告组件 Agent 的 system instructions 明确要求:不得虚构结果——失败就展示 error step、非零 exit code、失败测试;Terminal 必须用 session 中真实捕获的输出。

译Vercel Labs 利用 AI SDK 7 实验 API 推出 HarnessAgent,结合 json-render 为 Claude Code / Codex / Pi 等 Coding Agent 提供生成式 UI。Agent 在 Vercel Sandbox 隔离 Linux 环境中执行写文件、跑测试等真实操作,输出受 Zod schema 约束的 JSONL UI 规格(仅限 Steps、FileChange、Terminal 等预定义组件),前端通过 useChat + useJsonRenderMessage 实时渲染。核心设计:Harness 抽象允许像换模型一样互换 Agent;UI 层与执行层完全解耦;Session 绑定 Sandbox,10 分钟空闲或“Start Over” 销毁。Agent 不得虚构结果,失败必须展示 error step、非零 exit code 或失败测试。

meng shao@shao__meng · 6月16日66

AI 驱动开发的七阶段 1. Grill 2. Research 3. Prototype 4. PRD 5. Issues 6. Implement 7. Review 来自 Skills For Real Engineers 作者 @mattpocockuk https://github.com/mattpocock/skills 7 个阶段:目的 | 产出 1. Grill:把模糊想法变成共享理解 | 问题陈述 + 对齐 2. Research:缓存难探索的外部信息 | research.md 3. Prototype:用可玩代码验证设计/UX | 可丢弃原型 4. PRD:描述终点,而非路径 | 需求文档 5. Issues:拆成可并行执行的垂直切片 | 带依赖的工单 DAG 6. Implement:Agent 执行(TDD、Ralph 等) | 可运行代码 7. Review:人工 QA,发现问题再回环 | QA 计划 + 新工单 /grill-with-docs:这是 /grill-me 的升级版,专为有代码库的场景设计 额外能力: 1. 领域语言(CONTEXT.md) 来自 DDD 的 ubiquitous language。CONTEXT.md 只是术语表,不是 spec、不是实现笔记。 例:「materialization cascade」比「lesson 被 real 化时文件系统里占坑」省 token、可搜索、命名一致。 2. ADR(docs/adr/) 只在三条件同时满足时写:难逆转、无上下文会令人惊讶、存在真实 trade-off。 3. 会话中的四类动作 · 对照 glossary 挑战用词 · 用具体场景压测边界 · 对照代码发现矛盾 · 决策即时写入 CONTEXT,不批量攒 与 /grill-me 的分工:有代码库 → /grill-with-docs;无代码库(写悼词、纯产品构思)→ /grill-me。

译@mattpocockuk 提出 AI 驱动开发七阶段:Grill(模糊→共享理解)、Research(缓存外部信息)、Prototype(可玩代码验证)、PRD(需求文档)、Issues(垂直切片)、Implement(Agent 执行)、Review(人工 QA)。/grill-with-docs 是 /grill-me 的升级版,专为有代码库场景设计,新增领域语言(CONTEXT.md)、ADR(docs/adr/)及会话四类动作。无代码库时仍用 /grill-me。作者认为 pre-PRD 阶段需更多结构,/grill-with-docs 将再次调整。

宝玉@dotey · 6月16日73

《图解Skill》配套 Repo 里面带的一个我日常用来整理写作 AI 资讯的 Skill:info-digest Skill 就是我日常看到一些 AI 资讯、新闻,就把内容贴进去让它生成资讯,发到 X 和微博。默认是用 Claude 网页 + Opus 4.6。你看我发的大部分 AI 资讯的初稿都是出自它之手,当然我还会人工校验微调一下。 这套 Skill 的提示词还是有一些可以借鉴的地方 1. 是站在读者关心的角度去写 我在写作路上犯的一个错误就是自嗨型写作,只顾自己表达,而不是看目标读者是谁,读者需要什么想看什么。 2. 联网检索做事实核查 另一个容易翻车的地方就是资讯本身是有问题的,一不小心就可能会中招闹笑话,所以让 AI 辅助联网检索验证是有必要的,去做一些事实核查可以避免很多错误。 这也是为什么我是用 Claude 网页版,因为联网检索能力相对更好一些 3. 交代清楚背景信息 这个和第一点有点相关,也是要站在目标读者的角度,看里面的一些概念读者是否知道,这件事是否讲清楚了来龙去脉。 4. 生成格式 因为这个 Skill 生成的内容我是用来发 X 和微博的,而这两个平台就是默认用纯文本,而且篇幅不易过长,所以就需要内容短一点、精炼一点,开头有吸引力一点,以及纯文本格式。 完整内容可以参考: https://github.com/JimLiu/Illustrated-Agent-Skills/blob/main/skills/info-digest/SKILL.md

译宝玉(@dotey)公开了《图解Skill》配套GitHub仓库中的info-digest Skill,用于日常整理AI资讯并生成推文初稿,默认调用Claude网页版+Opus 4.6。核心提示词技巧:1)站在读者角度写作;2)联网检索做实核查;3)交代背景信息;4)生成短而精炼的纯文本格式。该Skill为项目库JimLiu/Illustrated-Agent-Skills的一部分。同步有抽奖活动(转发/引用/评论抽10人,本周五中午12点,使用Grok抽奖)。

elvis@omarsar0 · 6月16日73

I just open-sourced my /learn skill. Learn anything with agents and HTML artifacts. I have been learning about all kinds of topics with it. Install the skill and interact with any agent to help you through any topic. Ask it to generate visual and interactive artifacts and help you go deeper or generate knowledge checks (e.g., quizzes). Upskilling myself on any topic is one of the most impactful ways I have been able to use AI agents. If you are a DAIR Academy pro member, you can use it with our AI Builder. Skill: https://github.com/dair-ai/dair-academy-plugins Try now: https://academy.dair.ai/

译DAIR AI 创始人 Elvis Saravia 开源 /learn skill,允许用户通过 AI 智能体和 HTML artifacts 学习任意主题。该 skill 可安装后与任何 Agent 交互,生成视觉化、交互式的 artifact,帮助深入理解或生成知识检测(如测验)。支持 DAIR Academy pro 会员在 AI Builder 中使用。GitHub 链接及试用平台已开放。

宝玉@dotey · 6月15日39

在微信读书飙升版排名 15 了,感谢大家💗

译宝玉(@dotey)的《图解 Skill —— AI 提效实战指南》在微信读书飙升版排名第15。为回馈读者,抽10人送实体书(限内地)或电子书,北京时间本周五12点开奖,转发、引用、评论即可参与。抽奖借助@Grok进行,将注意防范提示词注入。已购书读者可前往配套GitHub项目JimLiu/Illustrated-Agent-Skills,内含interview-analysis、interview-writing、info-digest等入门级实用Skills。

凡人小北@frxiaobei · 6月15日62

未来已经发生了: 一条 GitHub issue,从发现 bug 到修复 merge,全程是 Agent 在对接。 组织视角, 这是 AI native 最真实的样子,默认执行者已经不是人了。 经济视角, 这是 Agent 经济最好的例子,干活的全是 bot,人在两头。 人类视角…… 人类负责决策,贡献一个 OK。🌚

译开发者@JeffreyCalm分享经历:他将GitHub链接交给Codex部署,发现Bug后Codex自动提Issue。官方仓库的Code Review Bot确认Bug并At Hotfix Bot,后者30分钟内提交修复PR,最后At真人开发者。真人仅回复“OK”即完成Merge。全程人类零编码,仅贡献一个决策确认,折射出Agent经济与A2A平台雏形。

Peter Steinberger 🦞@steipete · 6月15日43

Whenever you create an issue on one of oure open source projects, @clawsweeper will review it, and *if* it fits the VISION.md file, will pick it up and create+autoreview a PR. e.g.: https://github.com/openclaw/gogcli/pull/816

译每当你在我们的一个开源项目上创建issue时,@clawsweeper 会审核它,*如果*它符合VISION.md文件,就会接手并创建+自动审核一个PR。 例如:https://github.com/openclaw/gogcli/pull/816

Berryxia.AI@berryxia · 6月15日59

刚刚群里有人问哪里有PM经理的SKILLS。 这个PM产品经理的Skills已经斩获1.3W Stars 地址:https://github.com/phuryn/pm-skills 自己也mark一份~

译一个专门为产品经理准备的 Skill 包(pm-skills)在 GitHub 上 5 天内获得 13k Stars(约 1.3 万)。该项目覆盖产品经理日常工作范围,但发布者提醒用户警惕大而全的 Skill 包,建议根据实际需求进行微调后再使用。

Orange AI@oran_ge · 6月15日74

周末做了一套长文插图 skill,效果非常不错。 做完之后,我想找篇文章试试这个 skill 的效果,顺便可以作为这个项目的 readme。 在《鹅腿阿姨》和《置身钉内》之间,还是选了后者,毕竟这篇文章不仅是对阿里对钉钉的反思,也是对通用智能产品的反思。 虽然 AI 产品的功能是通用的,但人们对新事物的理解是简单的。 一个好产品只有一个主发心。 这篇文章的原文有 7.5 万字,在注意力涣散的今天,能看完的人寥寥无几,但把20张插图看完只要一分钟,应该人人都可以。 在制作这些插图的时候,我让 Agent 为每个场景生成了2套让我去挑,这样比较高效,也最终也更省 token。 为了展示这个 skill 本身的效果,我没有对任何一张图进行修改,另外最近的感觉是宁抽卡不修改。 我在挑配图的时候有些喜出望外,我发现我自己对文章也有了更强的画面感和更深的理解。 橙线插画.skill 下载地址: https://github.com/orange2ai/orange-line-illustration

译Oran Ge 发布了一套名为“橙线插画.skill”的 AI 智能体技能,可自动将长文生成插图。他以 7.5 万字的文章《置身钉内》作为测试,由 Agent 为每个场景生成 2 套插图供挑选,最终制作了 20 张插图,且未做任何修改。该技能旨在帮助读者快速理解长文内容,下载地址已公开在 GitHub。

Orange AI@oran_ge · 6月15日70

http://x.com/i/article/2066286219416469504 # 置身钉内的 20 个切片和 1 个 skill 上周写了一篇文章,与 AI 一起做产品的六条原则,很多朋友都喜欢这套插图,问我怎么做,就把它做成 skill,开源发布。 周六的时候,去出海去的活动做了一次分享,分享的 PPT 也是这套插图做的,也有很多朋友喜欢。 在 AI 信息图和 HTML 文字块泛滥的今天,也许一张有空白的插画反而能让注意力聚焦在一点。据说 PPT 做到极致,每页就只有一句话。 于是周末这两天在家,都在持续迭代这个插图,目标是让它变得更稳定、更好看、更有趣。 我想要的效果是,让人一眼就懂,会心一笑。 这套插图是 Fable 5 以纽约客的插图为灵感设计做了初版设计,可惜这个视觉能力很强的模型已经绝版了。 让其他模型来迭代插图的绘制,比想象中要吃力一些,最难的是让插图的小人 IP 保持一致性。AI 很不擅长设计 IP,每次都出点我不喜欢的东西,我给它意见每次给他修改意见,它的下一版都会引发新的问题。 细节修改越来越多,整体效果越改越差,像极了 vibe coding 出来的交互界面。 试了几个模型,迭代了数十张图片,发现同时让模型设计几个 IP 还折腾很久之后,终于搞定。 我想找篇文章试试这个 skill 的效果,顺便可以作为这个项目的 readme。 在《鹅腿阿姨》和《置身钉内》之间,还是选了后者,毕竟这篇文章不仅是对阿里对钉钉的反思,也是对通用智能产品的反思。 虽然 AI 产品的功能是通用的,但人们对新事物的理解是简单的。 一个好产品只有一个主发心。 这篇文章的原文有 7.5 万字,在注意力涣散的今天,能看完的人寥寥无几,但把20张插图看完只要一分钟,应该人人都可以。 现在,正文开始: ## 01 — 雨燕不落地 > 钉钉的动物园形象钉三多,是一只尖尾雨燕。它最特殊的地方在于,可以吃喝、睡眠、交配通通在空中完成;每年最多可以连续飞行三百多天不落地。在钉钉飞行了300多天,将满一年,最近也到了重新踩回地面的,离开的节点。 ## 02 — 族谱上钉 > 钉钉面试前要先完成的那份大作业,题目是'族谱上钉'。要求把家族成员拉进钉钉,建立一个6人以上的族组织。他反复追问:为什么做不成?父亲家还有人吗?母亲家还有人吗?外公外婆还在吗?真的凑不齐六个能上钉钉的家人吗? ## 03 — 贪心是七罪之一 > 当一个产品的发心又多又没有主次的时候,就会成为一个贪心而焦虑的产品。贪心是七罪之一。什么都想要,容易什么都得不到。 ## 04 — 事找人 > 我们当时的slogan叫,'让人找事变成事找人。'ONE想解决的是这个问题:让重要的事自己浮上来,让用户少一点遗漏,少一点翻找。 ## 05 — 成功留下手感 > 一个产品经理最难摆脱的,往往不是失败,而是成功。因为失败会留下伤口,而成功会留下手感。钉钉早年的胜利,给无招留下了一套很深的身体记忆:站在发信人一侧,替组织争取确定性,用强触达把事情往前推。 ## 06 — 发信人立场 > 钉钉的基因,从诞生的第一天起,就是永远站在'发信人'立场、为'发信人'所驱策的。为什么卡片里的消息一定要算已读?为什么系统要主动把事情推到用户面前?为什么AI忍不住要替组织去催促个体? ## 07 — 旗帜 > ONE承担了这个角色。它既是产品,也是旗帜。旗帜能聚拢人,也容易把太多东西都挂上去。 ## 08 — 最美逆行者 > 在那个节点,很多朋友开玩笑说我是'最美逆行者'。原因是,四月初无招回归后,雷厉风行地举行一系列措施:工时调整、开固定晨会晚会、午休缩短、周末单休,再兼全员Python考试,组织整体在人口净流出。在当时有其他明显更好条件的offer的情况下,跳上轻舟,平薪平职来了钉钉。 ## 09 — 穿过旧系统的技术债 > 钉钉不是白纸,它有多年积下来的产品逻辑、权限系统、端侧差异、多组织问题、客户定制和用户习惯。AI要在这里做事,必须穿过旧系统的技术债。 ## 10 — 孔乙己 > 钉钉像孔乙己一样走进咸亨酒店,空气里就弥漫着快活的气氛。 ## 11 — 常数与变行 > '凡历术在于常数,而不在于变行。'编订历法,需要归纳规律性的常数,而不在于一味记载关注期变化。这份文档既想记录我这三百天亲历的'变行',也想尽可能凝练出在反复实践、受挫和复盘之后得到的'常数'。 ## 12 — Context 不平权 > 智能是平权的,但是context是不平权的。有context,才能判断用户的背景和偏好,才能提供用户想消费的商品/服务/内容。 ## 13 — Stay Hungry, Stay Foolish > 无招的钉钉签名用它,钉钉的文化衫印它。他也在寻找精神偶像的寄托时,每每提到那个男人。一个人骤然发现命运之书被风吹开到和偶像相似的一页,很难不教人动心、疑心这是命运的召唤。 ## 14 — 学徒与空厨房 > 做产品和做菜、做手工一样,是一门手艺。在各个大中小司流转,学到本领,最后在哪里栖身独当一面,或者自立门户。在ONE超过3个月的产品只有3个人,我是其中一个。 ## 15 — 薛定谔的用户 > 在初始定位的构思中,用户究竟是普通员工还是老板的问题,始终没有闭环。但是事情总不能无休止地讨论下去,我们就这样,带着一盒薛定谔的用户出发了。 ## 16 — 旧城中央的风口 > 它站在一个很有吸引力的风口,但是取景再往远退一舍,就会发现,这个风口正处在一片难以改造的旧城中央。 ## 17 — 高压之后的补课 > 当你开了一个两小时的长会,或者半天没看手机,再次打开钉钉时,面对的是几十个群里炸开的海量未读消息。此时用户的核心诉求是'快速赶上进度'。 ## 18 — 重峦叠嶂 > 工时调整-提前到9点上班、开固定晨会晚会、午休缩短、周末单休,再兼全员Python考试,节假福利削减,部分职级以上薪酬调整。现在回想起来,那时种种debuff,重峦叠嶂。 19 — 在ONE超过3个月的只有3个人 > 在ONE超过3个月的产品只有3个人,我是其中一个。我来的第二周,我的设计leader就离开了,第四周,联系并推荐我进组的师兄也被调离去了其他部门。 20 — 好产品只有一个主发心 > 产品的发心就是它的发起人最原始的出发点。大部分情况下,好产品只有一个主发心。大道至简,这也和许多投资人会提倡的'一句话说清产品价值'异曲同工。 在制作这些插图的时候,我让  Agent 为每个场景生成了2套让我去挑,这样比较高效,也最终也更省 token。 我在挑配图的时候有些喜出望外,我发现我自己对文章也有了更强的画面感和更深的理解。 不知道看完之后,你的感受如何,如果喜欢的话,可以在这里安装下载: 橙线插画.skill: https://github.com/orange2ai/orange-line-illustration 这个 skill 免费开源发布,支持各类 Agent , Cola / Claude Code / Codex 等等。 另外要补充一句,这个 skill 不仅支持文章配图,还能直接生成带插图的 HTML 幻灯片。 拿去试试看吧。

译Oran Ge发布开源技能“橙线插画.skill”,基于Fable 5模型(已绝版)的纽约客风格插画迭代而来,支持Cola、Claude Code、Codex等Agent。该skill可生成文章配图及带插图的HTML幻灯片。作者同时分享了在钉钉工作期间的20个反思切片(如“好产品只有一个主发心”),配图由Agent为每个场景生成2套方案,最终免费开源发布在GitHub。

karminski-牙医@karminski3 · 6月15日53

27B小模型挑战Fable 5? 还成功了? 劲爆消息, 在 Iterative-Contextual-Refinements 这个框架的加持下, Qwen3.6-27B 跑分超过了 Anthropic Fable5! 真的不是做梦吗? 还是跑分没输过, 实战没赢过? 于是赶紧看了一下这个框架, 发现设计的很有启发性, 能学到很多东西, 给大家详细讲下. 这个框架主要提升的是软件性能优化, 即如何才能让代码性能更高. 大家如果还记得我那个 vector-db-bench, 给大模型提供了火焰图, perf, 各种测试 tool_call 让大模型自己迭代去优化代码性能. 而这个框架更进了一步, 它瞄准了小模型的最核心弱点, 参数量不足导致的"脑残", 即小模型更容易长上下文衰退或陷入局部最优. 于是这个框架出手了, 先针对技术方案, 它搞了个BFS探索模式, 在写代码的 plan 过程, 让小模型自己提出多种解决方案, 比如写个字符串匹配, 小模型直接搞了个O(N^2)的暴力搜索, 而这一步它的Agent会让小模型思考, 你能想到哪些可能的解决方案? 于是就拓展了小模型的视野, KMP, 滑动窗口等技术方案没准就出来了. 然后就是写代码的过程中使用的DFS模式, 它会借助Agent让小模型借助代码性能测试工具不断跑分, 然后让小模型反思, 有哪些性能热点可以优化, 然后进行优化. 最后, 他还有个统筹全局的路由, 不但负责在BFS/DFS过程中选取最佳的技术方案, 而且还会在DFS过程中, 总结模型优化过程中面临的问题, 再反馈到BFS过程, 告诉模型, 需要注意xxx优化是有价值的, xxx优化面临xxx问题. 从而形成优化闭环, 解决掉模型陷入死胡同不断仰卧起坐的问题. 最后, 在框架加持下, Qwen3.6-27B 在 CGRE 测试得到了95.5分, 成功超越了 Fable5(Mythos) 的94.1分! 我只能说这真的是 Agentic 工程的胜利了! 不要模型写的不好就无脑怪模型, 也要看看是不是Agent本身有问题. 那么代价是什么呢? 当然就AI硬通货是 token 了, 这个框架正是用了25-40x的token消耗完成了这一壮举. 值得学习. 框架:http://github.com/ryoiki-tokuiten/Iterative-Contextual-Refinements 论文:http://arxiv.org/abs/2605.15222 #mythos #fable5

译Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分,超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案(如KMP、滑动窗口)、DFS结合性能工具迭代优化代码,以及路由统筹形成闭环,克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。

elvis@omarsar0 · 6月15日73

To use an LLM Council with your own agent, check out my llm-council skill. It works with Fireworks AI APIs, but you can easily adapt it to OpenRouter. Built for Claude Code, but it might work with other agents. I use it a lot for deep research tasks. Let me know if you would like a full tutorial for this. I have a ton of ideas on how to expand this to other domains and use some of the more recent ideas like dynamic workflows. https://github.com/dair-ai/dair-academy-plugins/blob/main/plugins/llm-council/skills/llm-council/SKILL.md

译Elvis Saravia 开源了 llm-council 技能,专为 Claude Code 等 AI 智能体设计,适用于深度研究任务。该技能默认集成 Fireworks AI 的 API,可轻松适配 OpenRouter。项目代码托管在 GitHub,地址为 dair-ai/dair-academy-plugins。

向阳乔木@vista8 · 6月14日82

想写职场、武侠、修仙等任意风格小说? 可自己完全没有思路,能创作吗?必须可以! 今天开源一个乔木小说创作 Skill。 你只需说:“我想写一个小说” 或 “想写一个类似xxx的小说”。 AI自动给出剧情梗概,人物设定,还能把钩子、经典桥段、人物欲望、冲突升级和结尾自动处理好。 跟AI讨论没问题后,再生成完整、低 AI 味的小说。 小说 Skill 安装: npx skills add joeseesun/qiaomu-novel-generator Github免费开源,地址见评论区

译开源乔木小说创作 Skill,用户只需说“我想写一个小说”或指定风格,AI 自动生成剧情梗概、人物设定、钩子、经典桥段、人物欲望、冲突升级和结尾。与 AI 讨论确认后,可生成完整、低 AI 味的小说。安装命令:npx skills add joeseesun/qiaomu-novel-generator,Github 开源地址见评论区。

Orange AI@oran_ge · 6月14日73

一直想找个画架构图的趁手的兵器 这个 skill 很好 比大模型默认的审美好多了

译Oran Ge推荐一个用pi+DeepSeek绘制架构图的skill。该skill无需生图模型,通过LLM将自然语言描述转为结构化JSON,再由Node.js渲染器用纯几何算法生成SVG,最终注入为自包含HTML。仓库:https://github.com/tt-a1i/archify。用户评价其审美优于大模型默认输出。

meng shao@shao__meng · 6月13日65

趁周六把我的「infocard-skills」更新了一版,主要对不同比例下的布局合理性做了提升,避免出现大块空白、或拥挤、截断等问题,保持了原有的瑞士国际主义风格。 看看八种风格下的展示,我自己还比较满意,感兴趣的朋友看这里: https://github.com/shaom/infocard-skills

译邵猛(@shao__meng)更新开源项目 infocard-skills,提升不同比例下的布局合理性,避免空白或截断,保留瑞士国际主义风格。支持 16/9、4/3、1/1 等常见信息卡比例及封面比例,默认 4/3。用户输入内容和比例,AI Agent 使用该 Skill 生成 HTML 并截图输出 PNG。项目开源于 GitHub。

Berryxia.AI@berryxia · 6月13日73

直接有人开源一键开启国行的Mac Siri AI,逻辑就是修改地区伪装美区。 地址:https://github.com/SkyBlue997/enableMacosAI

译开发者 SkyBlue997 在 GitHub 开源 enableMacosAI 工具,通过修改系统地区伪装美区来开启国行 Mac 的 Siri AI。此前有用户发现 macOS 的 GenerativeModels.plist 文件中存在 EnhancedSiriWaitlist 开关,关闭 SIP、挂载系统卷、修改键值并重启即可解锁 WWDC 新发布的 Siri AI 增强版。社区已整理出详细步骤,证明该 AI 能力早已内置,仅被等候名单屏蔽。

Orange AI@oran_ge · 6月13日75

今天凌晨五点的时候,我让 AI 帮我打磨一段文案,打磨三遍给我看。 AI 改完之后,我发现一遍比一遍讲究,但是一遍比一遍缺人味儿。 我已经用上最贵的 Claude Fable 5 了,还这样,让我很生气。 最后我跟 AI说,你改完之后,人味儿变少了。 我说不清什么是人味儿,只知道我感受不到文字背后的那个人了。 我们讨论很久,最后讨论出的结论是,AI 写的东西,背后缺少一个东西: 存在感。 人写的字背后站着一个具体的人,他在具体的位置上,付出过具体的代价。 然后把聊的关键信息做成了一个技能,这就是: 《人味儿写作心法.skill》 它特别适合自己写文章或口述后,让 AI 来改稿的场景。 开源免费发布。 给你的 Agent 装上它,让你的文字变得有人味儿 http://github.com/orange2ai/renwei-writing

译Oran Ge 让 Claude Fable 5 打磨文案三遍,发现改稿越来越讲究却缺“人味儿”。他与 AI 讨论后得出结论:人写的文字背后有“存在感”——作者在具体位置付出过具体代价,而 AI 无法复现。为此他制作了《人味儿写作心法.skill》,专用于自写文章或口述后让 AI 改稿的场景,旨在保留文字的人味。该技能已开源免费发布在 GitHub。

meng shao@shao__meng · 6月12日75

Spec 驱动开发 (SDD) 需要这三个 Skills:覆盖 Spec -> Implement -> Verify 闭环 Agent 出错往往是需求理解偏差。解决办法是把规格当作 PR 的一部分,让队友和 Agent 都能对照同一份文档。 规格分两层: 1. 产品规格:PRODUCT.md 做什么,用户视角、用户故事、可验证的产品不变量 2. 技术规格:TECH.md 怎么做,架构、代码位置、实现策略 都放在 specs/<issue>/ 目录,随实现 PR 一起提交、一起 Review。 # SDD 五步流程(包含三个 Skills) 1. 写产品规格(/write-product-spec) 从用户行为出发,写用户故事和详细的不变量(invariants)——即「无论什么情况都必须成立」的规则。可附 Figma、截图等。这些不变量后续可被代码检查,甚至用计算机操作(computer use)验证。 2. 写技术规格(/write-tech-spec) 在同一目录生成 TECH.md,说明架构思路、改哪些文件、实现时要注意什么。这是给 Agent 的「施工图纸」。 3. 让 Agent 按规格实现 理论上任何 Agent、包括推理能力较弱的模型,只要有清晰规格,实现质量都会更稳定。 4. 规格一致性校验(/validate-changes-match-specs) 实现后不能默认「做完了就对」。用 Skill 让 Agent 对照 PRODUCT.md 和 TECH.md 自查,列出与规格不一致之处,再由人决定如何处理。这是规格驱动开发里容易被忽略、但很关键的一步。 5. 用计算机操作做端到端验证 Warp 内部用 Oz 做 UX 验证:在云端沙箱里给 Agent 鼠标键盘权限,模拟真实用户操作。对他们这种 Rust 原生桌面应用尤其必要——单元测试覆盖不了完整交互链路。 # 为什么用这三个 Skills 编码流程 Skills 把「怎么写产品规格」「怎么写技术规格」「怎么校验」固化成可复用指令,不绑定 Warp,流程可移植。 @warpdotdev 开源仓库:warpdotdev/common-skills 安装:npx skills add warpdotdev/common-skills 本质是把人的工程习惯(先 PRD、再设计、再实现、再验收)变成 Agent 可执行的流水线。

译邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。

AYi@AYi_AInotes · 6月12日70

一群 AI 研究员把量化金融的知识处理框架开源了,叫 QuantMind(MIT 协议)。 它不是 Bloomberg Terminal 的替代品,但确实在干一件类似的事:把 arXiv 量化论文、SEC filings、研报、博客等非结构化内容,批量解析成可查询的语义知识图谱。 核心优势在于两阶段架构:先把文献一次性提取并结构化(支持表格、公式、图表的多模态解析), 之后你用自然语言提问就能进行多跳推理和交叉验证,提取的知识会长期留存,后续查询成本很低。 它真正能替代的其实是对冲基金花六位数薪水让初级分析师干的「大量读论文、整理观点、做文献综述」这类工作。 以前的信息差很大一部分来自「我还没来得及读那篇关键论文」,但是现在这个借口正在快速失效, 但咱们也别误会,真正的 alpha 依然来自你问的问题、验证的严谨程度,以及把洞见转化为行动的能力, 工具只是把「读文献」这个基础环节的成本大幅降低了。

译一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

宝玉@dotey · 6月11日77

baoyu-design skill (让你本地运行 Claude Design 的 Skill)更新,现在支持导入 figma 本地文件(Figma可以保存成 xxx.fig 文件)。比如你有一个设计系统的 Figma 文件,可以根据 Figma 在本地重建一个设计系统,和 Claude Design 在线版一样的效果。 这个功能还挺复杂的,如果没有 Claude Fable 5 帮忙搞不定,就是 Token 不够用 😭 用法很简单,安装 Skill 后,把 Figma 路径发给它,让导入为 Design System,后续新建设计项目都可以用,也可以直接加到项目中。 Skill 地址:https://github.com/jimliu/baoyu-design

译baoyu-design skill 更新,现已支持导入 Figma 本地文件(.fig),可在本地重建设计系统,效果与 Claude Design 在线版一致。该功能依赖 Claude Fable 5 辅助(Token 不够用)。安装后提供 Figma 文件路径即可导入为 Design System,后续新建设计项目可复用。同时支持在新建项目时添加已导入的 Design System,保留了 Claude Design 原始的导入和编译方式,用户可通过提问选择设计系统。安装命令:`npx skills add JimLiu/baoyu-design`。项目地址:https://github.com/jimliu/baoyu-design。

Xiaomi MiMo@XiaomiMiMo · 6月11日79

🚀 MiMo Code V0.1 is now live and open-source! More than an AI coding assistant in your terminal — it's the smartest coding partner you'll ever work with. Comes with MiMo V2.5, a multimodal model available free for a limited time, featuring a million-token context window—ready to use out of the box. ♾️ Infinite Context: Knowledge accumulates automatically, and with lossless compression, even million-line projects keep every critical detail intact—quality never drops. 🧠 Agent-Model Synergy: An Agent framework deeply optimized for MiMo, with a full closed loop of testing, review, and validation—so complex tasks get done in one pass. 📝 Compose Mode: Specs → Plans → Build → Report. Design first, code second—clear thinking, no rework. 🔄 Self-Evolving System: Every session is automatically reviewed, distilling experience and best practices—the more you use it, the smarter it gets. 🎙️ Voice Input: Powered by MiMo-V2.5-ASR — just speak instead of type, and your voice becomes the prompt for truly hands-free coding. 🔌 Claude Code Compatible: Automatically loads your existing skills, MCP servers and commands, and reuses your API configuration—zero-cost migration, no setup required. 🌐 Open & Flexible: MIT licensed, with support for leading model providers including Anthropic, OpenAI, DeepSeek, Kimi, GLM and more. Install in one line: Mac & Linux curl -fsSL https://code.xiaomimimo.com/install | bash (For the best experience,we recommand Mac user use it on iTerm or vscode terminal) Windows npm install -g @mimo-ai/cli 🔗 Learn more Website ↓ http://mimo.xiaomi.com/mimocode Blog ↓ http://mimo.xiaomi.com/zh/blog/mimo-c… GitHub ↓ http://github.com/XiaomiMiMo/MiM…

译小米 MiMo 发布并开源 MiMo Code V0.1,一款终端 AI 编程助手。它附带多模态模型 MiMo V2.5(限时免费),支持百万 token 上下文窗口。核心特性包括:无限上下文(无损压缩,百万行项目质量不降)、深度优化的 Agent 框架(测试/审查/验证闭环)、Compose 模式(规格→计划→构建→报告)、自动学习每轮会话经验的自我进化系统、MiMo-V2.5-ASR 语音输入、与 Claude Code 兼容(可复用现有 skills/MCP/API 配置)、MIT 许可,并支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。一键安装(Mac/Linux 用 curl,Windows 用 npm install)。

AYi@AYi_AInotes · 6月10日74

分享一个开源免费的省token神器,17k star,本周增速最快的项目之一, 可以把AI API账单直接砍到原来的1/5,回答质量还不变, 这就是刚火起来的 headroom,专门干一件事: 把所有要喂给AI的东西(输出、日志、文件、RAG块)先压缩一遍, 砍掉 60%-95% 的 token,最终回答质量完全没变。 最爽的是不用改一行现有代码, 直接当库、代理或者 MCP 服务器插进去就行,无缝对接所有大模型。 以前为了省token绞尽脑汁凑提示词, 现在一行配置,直接砍九成账单, 这才是所有AI开发者真正的刚需啊😲

译开源免费的 token 压缩工具 headroom 本周增速最快,已获 17k star。它专为所有 AI API 调用(输出、日志、文件、RAG 块)设计,压缩 60%-95% 的 token,将账单直接砍到原来的 1/5,且回答质量不变。无需修改一行现有代码,可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词,一行配置即可大幅降低 API 成本。

Rohan Paul@rohanpaul_ai · 6月10日69

A new open-source agent engine is trying to make AI sessions continuous across days. 🧠 Kocoro is a Mac-native AI agent trying to fix one of the most annoying problems in daily AI work: every new session forgets what happened before. Kocoro reviews your workday locally every night, then trains a light memory model over the cloud (by using TensorLogic), downloads it back, and the next morning picks up exactly where you left off — no re-pasting, no re-explaining. It knows where your projects live, what you were changing yesterday, which tools you reach for. It can open the browser, operate desktop apps, organize files, update documents, and carry a task across several apps without you stitching the steps together by hand. And what's cool is that they have made Kocoro's kernel is open source with a Github repo. Because an AI that operates your computer has to be verifiable, auditable, and under your control. Something that drives your machine shouldn't get there on "trust us." You can run the kernel from the command line with Shannon, or you can install the desktop app and never touch a terminal. Either way, the process is meant to be open — visible enough to inspect, editable enough to bend, and easy enough to switch off. Real memory isn't keeping every word. It's knowing what matters, what will shape the next decision, and what changes over time. You don't remember every sentence your colleague said last quarter — you remember that they hate surprise meetings, that the Q3 launch slipped

译Kocoro是一款Mac原生AI智能体,旨在解决AI会话每天重启后遗忘上下文的痛点。它每晚在本地审查工作内容,通过TensorLogic在云端训练轻量记忆模型,次日自动恢复上次中断的会话状态,无需重复粘贴或解释。Kocoro能感知项目文件、追踪昨天的变更、打开浏览器、操作桌面应用、整理文件并跨多个应用执行任务。其内核已在GitHub开源,确保可审计和用户可控。用户可通过命令行(Shannon)或桌面应用运行。

Tencent Hy@TencentHunyuan · 6月9日74

🚀Introducing UniRL, an RL infra for unified multimodal models. Together with two new RL algorithms: DRPO and Flow-DPPO. One RL loop across diffusion/flow matching models, LLMs/VLMs, and unified multimodal models👇 Code: http://github.com/Tencent-Hunyuan/UniRL (yes — U(you)-ni-(need) RL 😉)

译🚀推出UniRL,一个用于统一多模态模型的RL基础设施。附带两种新RL算法:DRPO和Flow-DPPO。 一个覆盖扩散/流匹配模型、LLM/VLM以及统一多模态模型的RL循环👇 代码:http://github.com/Tencent-Hunyuan/UniRL (是的——U(you)-ni-(need) RL 😉)

Berryxia.AI@berryxia · 6月9日75

兄弟们!地主家家没有余粮了都! 天天烧Token 心里没有点b数啊? AI coding工具天天帮你狂飙代码,结果你连自己到底烧了多少钱都蒙在鼓里? 今天给大家推荐Lank 的Tokei这个macOS菜单栏小工具给你直接轻松拿捏它! 对了!开源免费啊!记得给Star啊! 它只读本地日志,零网络调用,30秒自动刷新,实时盯死Claude Code、Grok CLI、Aider、OpenCode等8个主流AI coding agent的token用量、实时成本、性能数据,还带每日图表、周热力图和年度Wrapped。 更绝的是它支持私人Git多设备同步,价格表还能本地覆盖,闲置太久还会提醒你该休息了。 以前大家只顾着堆agent、堆prompt去卷生产力,结果真正在烧钱的那些细节全被忽略了,现在Tokei直接把AI coding workflow从“爽用”变成了“精算”。 这套本地监控一装上,你才发现原来真正掌控AI生产力的,从来不是模型大小,而是你对每一次token消费的清醒。 地址见评论区👇

译Berry Xia 推荐开源工具 Tokei,这是一个 macOS 菜单栏小工具,只读本地日志、零网络调用,30 秒自动刷新,实时监控 Claude Code、Grok CLI、Aider、OpenCode 等 8 个主流 AI coding agent 的 token 用量、实时成本与性能数据,并附每日图表、周热力图和年度 Wrapped。支持私人 Git 多设备同步、价格表本地覆盖,闲置过久会提醒休息。引用推文指出,token 消耗情况可作为深度使用 AI 的面试亮点,数据全程私有,零侵入,无需任何认证。

meng shao@shao__meng · 6月9日75

Github 122K ⭐️ 的 Skills 仓库「Skills For Real Engineers」推出新 Skill「Teach」:把当前工作目录变成有状态的学习空间!!怒赞作者 @mattpocockuk 👍🏻 开源地址: https://github.com/mattpocock/skills/tree/main/skills/productivity/teach Teach Skill 设计理念:Knowledge → Skills → Wisdom · Knowledge:概念、事实、原理;来源于高质量可信资源(书籍、论文、专家文章) · Skills:能动手做的事;来源于交互式课程 + 即时反馈 · Wisdom:真实场景下的判断;来源于社区、同行、实践者交流 工作区架构:文件即学习状态 工作区根目录/ ├── MISSION.md # 为什么学(指南针) ├── RESOURCES.md # 可信资源库 ├── NOTES.md # 教学偏好与备忘 ├── lessons/0001-*.html # 课程(主交付物) ├── reference/*.html # 速查参考(长期回看) └── learning-records/ # 学习记录(决策依据) 状态机: · MISSION.md → 决定教什么、为什么教 · learning-records/ → 决定下一步教什么(最近发展区) · lessons/ → 单次学习单元 · reference/ → 压缩后的长期记忆 五个关键机制(为什么学 → 会什么 → 教什么 → 怎么教 → 留下来) 1. Mission:先定「为什么学」,一切教学服从真实目标;文件:MISSION.md 2. ZPD:每节课刚好够难——读记录、对使命、教一小步;文件:learning-records/ 3. Lesson:一节课一件事:知识 → 练习 → 即时反馈;文件:lessons/*.html 4. Learning Record:记「会了什么」,不记「讲过什么」;文件:learning-records/*.md 5. Reference:把学过的压成速查手册,长期回看;文件:reference/*.html + GLOSSARY.md

译GitHub 122K⭐的Skills仓库推出新技能Teach,可将当前工作目录变为有状态学习空间。设计理念从Knowledge(概念事实)→Skills(动手操作)→Wisdom(真实判断)。工作区以文件即学习状态:MISSION.md定目标、lessons/提供课程、learning-records/记录已会内容、reference/生成速查手册。五个关键机制:Mission定方向、ZPD根据记录调整难度、Lesson一课一事+即时反馈、Learning Record记“会了什么”而非“讲了什么”、Reference形成长期可回看手册。可通过npx skills add mattpocock/skills --skill teach安装,适用于从魔方到软件基础等学习场景。

Berryxia.AI@berryxia · 6月9日74

Kimi Code一行命令直接把所有coding agent的安装门槛干到零。 还能拖视频当上下文生成LUT文件或者把屏幕录像转成可运行代码! 官方开源版现在零配置、秒启动,配上Kimi K2.6,视频推理强到离谱。 拖个参考视频它就能吐出现成的.cube文件,拖个屏幕录像它直接给你写出对应代码。 更狠的是插件系统已经上线,股票价格、财报、学术论文一键拉取,ACP协议直接打通JetBrains和Zed,还留了自定义hooks让你随便扩展工作流。 以前大家默认coding agent必须搞一大堆配置、只吃文本提示才能干活。 结果Kimi Code用最简单的CLI+视频+插件,直接把开发者日常最烦的“描述不清、上下文不够”这两个痛点一次性干掉。

译Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。

meng shao@shao__meng · 6月8日60

X Article 编辑器敢说最难用,没人反对吧 ?! 不支持 Markdown 格式,也不支持 Markdown 导入自动转换,自己的编辑器又太难用,真心佩服这些还能坚持写 X Article 的朋友们,他们一定花了很多时间来调整各种布局和格式,远多于其他平台。 让 Codex 做了一个 Skill,把 Markdown 转为 X Article 展示格式,留着自己用,也分享出来,大家用得上可以 Fork 再微调。 md-to-x-article-skill https://github.com/shaom/md-to-x-article-skill

译邵猛批评 X Article 编辑器难用、不支持 Markdown 格式,并用 Codex 创建了一个 Skill「md-to-x-article-skill」,可将 Markdown 自动转换为 X Article 展示格式。该工具已开源在 GitHub(shaom/md-to-x-article-skill),用户可 Fork 后按需微调。

小互@xiaohu · 6月8日79

http://x.com/i/article/2063968924019163136 # 一句话,翻译任何视频:我把用了半年的视频翻译工具开源了 有人说,现在 AI 自动翻译字幕的工具一大把,你这个还有啥用? 确实有不少工具能在线翻译视频,我自己也用了很多。但总觉得翻得不太准、不太好,有时候还冒出一堆错误。 另外我经常在推特、视频号上分享海外视频,干脆就顺手做了这么一套——所以它其实还能帮你把海外视频搬运到国内平台,嘿嘿。 这套工具我用了半年,来回调了很多次,现在比较成熟了,整理干净开源给大家。 装好以后,你只要对它说一句「把这个链接翻译成中文字幕视频」,剩下的它全自动做完:下载、转写、翻译、润色、烧字幕、出文稿,一条龙到底。 转写完全在你自己电脑上跑,不花一分钱 API 费。翻译用的就是你已经装好的 AI,顺手就做了。而且不只英文,日语、韩语、法语这些外语视频,一样能转成中文字幕。 还有它本质就是几个脚本加一份说明书,没绑死 Claude Code 一家——小龙虾(OpenClaw)、Gemini、Codex 这些 AI 编程工具也都能用,区别只是各家装技能的方式不同。 下面手把手带你装上、跑通第一个视频。 ## 这玩意儿到底能干嘛 给它一个视频链接(YouTube、Bilibili、抖音都行),或者一个本地视频文件,它会一条龙做完这五步: > 下载 → 转写 → 翻译 → 润色 → 烧字幕,最后顺带出一份文稿 拆开说就是: - 把视频下下来(本地文件就直接用) - 提取音频,用 Whisper 转写成带精确时间戳的原文字幕 - 把原文翻译成中文,再润色成符合中文观看习惯的字幕 - 把字幕烧进画面,输出一个带中文字幕的视频 - 顺便再出一份 Markdown 文稿,方便你存档或者改成文章 语言不挑。 英语、日语、韩语、法语、西班牙语,只要 Whisper 听得懂的,都能转成中文字幕。它会自己识别原视频是什么语言,再翻成中文。中文视频就只做转写出文稿,不绕翻译这一步。 字幕有两种可以选。一种是纯中文,画面干净。另一种是中英双语,中文大、英文小,主次分明,适合想顺便练听力的人。 你全程不用记任何命令。想要什么就用大白话说,比如「这个要双语字幕」「不要水印」「用快速模式」,它都听得懂。 > 简单说,它把「下载 + 转写 + 翻译 + 配字幕」这条原本要开四五个软件、来回折腾一两个小时的流水线,压缩成了说一句话。 ## 跟现成的翻译工具有啥不一样 市面上字幕工具不少,我自己用下来最在意三件事,这套工具就是冲着这三件事做的。 第一,本地、免费、能离线。 转写用的是 OpenAI 开源的 Whisper 模型,苹果芯片的 Mac 上还会自动调 GPU 加速。整个转写过程在你电脑里完成,不上传、不收费。翻译复用你已经在用的 AI,不用再单独买一个翻译 API。 第二,时间戳是真的准。 很多工具的字幕会跑在说话人前面,或者半句话挤进下一条,看着难受。这套工具拿到的是精确到每个词什么时候说出口的时间戳,再按「一句话 + 换气停顿」来切,字幕基本说完正好换条。 第三,字幕是给人看的,不是机翻直出。 它会自动纠正转写听错的专有名词(Claude 经常被听成 cloud,MCP 被听成 NCP),按语义断句,每行不超过十二个字,技术术语保留英文。双语模式下中文大、英文小,同一条里拉开字号,不是两行一样大堆在一起。 这些都是我自己做了上百条视频踩出来的细节,全写进规则里了。 ## 效果长这样 拿 a16z 刚发的一条访谈试试。受访的是前 OpenAI 首席技术官 Mira Murati,我让工具配了中英双语字幕。 她原话里有个比喻: > It's more like a tandem bike where both people are pedaling. 机翻大概会甩给你「串联自行车」这种读着别扭的词。这套工具翻成的是: > 它更像一辆双人自行车,两个人一起踩着踏板。 接地气、不绕口。专有名词也拎得清,Thinking Machines 这种公司名直接留英文,不硬翻。 你只要发一句「链接 + 翻译这个视频」,它会先问你要纯中文还是中英双语——我平时主要翻成中文,就默认留了这两个选项,实际上翻成任意语言都行。 除了带字幕的视频,它还会同时出一份文稿,原文加中文对照。 整段读下来是这样: > 它更像是去造这样一种系统:不会自己闷头狂奔、把整个文明甩在身后,而更像一辆双人自行车,两个人一起踩着踏板。上坡的时候,也许更有劲的那个人踩得更用力,但两个人的手都在车把上。 不挑语言是这套工具最实在的地方。同一段访谈,中文、日语、韩语、阿拉伯语、法语都能翻成双语字幕——各国译文在上、英文原文统一压一行在下,主次分明,连从右往左写的阿拉伯语也排得整整齐齐: 十几分钟的视频没问题 一个半小时以上的长视频也能轻松应对 ## 它其实是三个技能 打开仓库你会看到三个文件夹,各管一段活,可以单独用,也可以串起来用: - xiaohu-video-md:总指挥。负责下载、转写、调翻译、烧字幕、出文稿 - xiaohu-subtitle-polish:专门管字幕翻译润色。纠错、翻译、断句、对时间轴、做双语 - xiaohu-video-download:纯下载工具。下视频、下音频、下整个播放列表,也能给本地视频烧字幕 翻译一个视频的时候,是 xiaohu-video-md 在总调度,翻译那一步它自己会去叫 xiaohu-subtitle-polish。你不用管这些,知道有这么三块就行。 ## 手把手安装 这套工具目前是给 Mac 调的,苹果芯片的机器跑得最顺。装法有两种,挑一种就行:嫌麻烦,就把下面那段话整段丢给 AI,让它替你全装完;想搞清楚每一步在干嘛、或者怕中途出岔子,就照着后面的手动三步敲。 ## 偷懒版:把这段话丢给 AI 打开你的 AI 编程工具,Claude Code、Codex、小龙虾(OpenClaw)都行,把下面这段原样复制进去发给它。它会自己判断你是什么系统、装好依赖、拉仓库、跑安装脚本,一条龙搞定,中间该问你的会停下来问: > 帮我安装这个视频翻译工具:https://github.com/xiaohuailabs/xiaohu-video-translate 按下面的顺序来: 1. 先看我的系统:Mac 还是 Windows;Mac 的话是不是苹果芯片(M 系列) 2. 装依赖:yt-dlp、ffmpeg、whisper-cpp(Mac 用 brew install,Windows 走 WSL 或 winget)。 转写引擎——苹果芯片装 mlx-whisper,其它机器一律装 faster-whisper 3. git clone 这个仓库,进目录跑 bash install.sh,把三个技能装进我的技能目录 4. 装完找到 xiaohu-video-md 技能里的 config.json(Claude Code 在 ~/.claude/skills/ 下), 问我成品想存在哪个文件夹,帮我把 output_dir 改成完整路径 5. 最后检查依赖都装齐了没,告诉我能不能开始用 每一步做完简单说一句你干了啥;依赖装失败就停下来问我,别硬往下跑。 它替你跑的其实就是下面这三步,只是你不用自己敲。想自己动手、或者中途卡住想排查,就照着手动版来。 ## 第一步:装几个基础工具 先确认你装了 Homebrew(Mac 上最常用的软件包管理器,没装的去 brew.sh 按提示装一下)。然后一行命令把三个工具装上: > brew install yt-dlp ffmpeg whisper-cpp > 这三个分别是:yt-dlp 负责下视频,ffmpeg 负责音视频处理和烧字幕,whisper-cpp 是「只下载」子技能在本地转写时用的备用命令,主翻译流程不靠它,真正干转写的是下面这步要装的引擎。 再装一个转写引擎。苹果芯片的 Mac 用这个,会走 GPU 加速,最快:(命令里 --break-system-packages 看着吓人,其实只是绕过新版系统的一个安装限制,不动你系统本身,放心敲。) > pip3 install --break-system-packages mlx-whisper 如果不是苹果芯片,就换成通用版本: > pip3 install --break-system-packages faster-whisper ## 第二步:把技能装进 Claude 把仓库拉下来,跑一下自带的安装脚本: > git clone https://github.com/xiaohuailabs/xiaohu-video-translate.git cd xiaohu-video-translate bash install.sh 这个脚本会把三个技能复制到 Claude 的技能目录,自动生成配置文件,还会帮你检查依赖装齐没有。脚本跑到最后会逐项打印 [OK] 或 [缺],看到 yt-dlp、ffmpeg、转写引擎都是 [OK] 就说明装齐了,哪个显示 [缺] 就按提示补那一个。这里路径以 Claude Code 为例(技能在 ~/.claude/skills/);你要是用 Codex、小龙虾,把这个目录换成你那家工具的技能目录就行,其余都一样。 ## 第三步:告诉它把成品放哪 打开 ~/.claude/skills/xiaohu-video-md/config.json 这个文件,把里面的 output_dir 改成你想存放成品的文件夹路径(要写完整路径,比如 /Users/你的用户名/Documents/视频翻译)。 中间的临时文件会进 tmp/,最终的文稿进 data/,烧好的视频默认放在下载文件夹里。 > 转写模型不用手动下。第一次跑的时候,mlx-whisper 会自己从网上把模型拉下来(一点五个 G 左右),下一次就直接用了。 装完,重启一下你的 AI 工具,就能用了。 ## Windows 用户看这里 上面是 Mac 的装法。Windows 也能跑,但有几处不一样,别照搬。 最省事的办法是用 WSL,也就是 Windows 自带的 Linux 子系统。装好以后把下面这几样装上,脚本就能原样跑: > sudo apt install ffmpeg pip3 install yt-dlp faster-whisper 如果不想用 WSL,想直接在 Windows 上装,记住三点: - 转写引擎用 faster-whisper,别装那个苹果芯片专用的版本。脚本检测不到苹果引擎,会自动用它兜底 - 安装脚本得用 Git Bash 跑,或者干脆手动把三个技能文件夹复制到工具的技能目录,再把每个配置模板复制成正式配置 - 字幕字体要换。默认用的是 Mac 的苹方,Windows 上没有这个字体,中文会显示成方块。把命令里的 PingFang SC 换成系统自带的微软雅黑就行 直接在 Windows 上装依赖的话,命令是这样: > pip install yt-dlp faster-whisper winget install Gyan.FFmpeg > 字体这条 Linux 上也一样,苹方是苹果独有的,得换成系统里的中文字体。想让非苹果系统也能自动选对字体、开箱即用,我正在做适配,可以去仓库提 issue 催我。 ## 怎么用 装好以后就一句话的事。下面这些话你都可以直接说: 你说的话 它做的事 把这个链接翻译成中文字幕视频 + 链接 全流程,下载到出成品 翻译这个视频,要中英双语字幕 + 链接 同上,字幕换成中英双语 把这个视频转成文字 + 链接 只出 Markdown 文稿,不烧字幕 给我本地这个视频加中文字幕 + 文件路径 本地文件直接处理 下载这个视频 + 链接 只下载,不翻译 用快速模式转写 换更快但精度略低的模型 翻译时不要水印 关掉水印 ## 几个坑先跟你说在前面 都是我自己踩过的,提前知道能少走弯路。 YouTube 有时候下不动,报一串 403 之类的错。 这是 YouTube 近一年风控变严了。脚本会自动从你浏览器里读 cookies 重试,一般能过。还不行就挂个代理。 烧出来的中文字幕是一个个方块。 这是 Mac 字体索引的老问题,脚本默认已经绕开了,正常装完不会遇到。只有你手动改过字体设置、或换了系统里没有的字体才会冒出来,真碰上就把字体换回 PingFang SC(苹方)。 第一次用抖音,要先登录一次。 跑一下 python3 ~/.claude/skills/xiaohu-video-md/scripts/douyin_login.py,弹出来的浏览器里扫码登录,登录状态只存在你自己电脑上,不会上传到任何地方。开源仓库里我也把我自己的登录信息全删干净了,你拿到的是空的。 ## 拿去用,随便改 仓库地址在这: > github.com/xiaohuailabs/xiaohu-video-translate 代码是 MIT 协议,水印、字幕样式、默认字号这些你都可以照自己喜欢改。唯一提醒一句:别把你自己的配置文件和抖音登录信息传到公开仓库上去,仓库里已经默认帮你挡掉了。 这套工具是我日常真在用的,不是写来演示的玩具。觉得好用,点个 star,有问题提 issue,我会接着维护。 下期我会开源自己的文章 IP 配图技能——用个人 IP 形象给文章生成配图,本文里那些插画就是这么来的。

译小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行,不花API费。支持YouTube、Bilibili、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex、OpenClaw等AI编程工具。已开源,附安装指南。

meng shao@shao__meng · 6月8日78

最近看了不少 Design Skill、Taste Skill、Anti-AI-slop design skill 等等,我自己也开源了一个 Brand to DESIGN.md Skill (https://github.com/shaom/brand-to-design-md-skill) 目的都是学习借鉴优秀的设计、积累设计品味,让 Agent 去学习沉淀到 DESIGN.md 再复刻生成新的网站。 但是这种复刻看多了,就又从 Anti-AI-slop 而生成了新的「AI Slop」,还是缺少设计精髓,皮毛相仿而已。

译邵猛关注 Design Skill、Taste Skill、Anti-AI-slop design skill,并开源 Brand to DESIGN.md Skill(GitHub: shaom/brand-to-design-md-skill),让 Agent 学习设计品味后复刻网站。但他指出,这种复刻看多了反而从 Anti-AI-slop 衍生新“AI Slop”,缺少设计精髓,仅皮毛相仿。

Rohan Paul@rohanpaul_ai · 6月8日66

New MIT study. Code volume surges by 300%, but output increases by only 30%: The AI dividend meets an awkward reality Autonomous AI coding agents raised commits by 180%, but releases rose only 30%. The paper’s main idea is that software production has weak links, so faster code writing does not help as much when humans still need to review, connect, test, package, and ship the work. The authors also check app marketplaces and find more new apps, but no increase in total usage, which means more software appeared without clear evidence that users adopted more software. The marketplace evidence points the same way: more new apps appeared, but total usage did not rise. The authors compare more than 100,000 GitHub developers before and after they start using 3 generations of AI coding tools, from autocomplete to more independent coding agents. Autocomplete raised commits by 40%, interactive coding agents raised them by 140%, and autonomous coding agents raised them by 180%. The 180% commit gain shrank to 50% for the number of projects and 30% for actual releases. The estimated "elasticity of substitution" is 0.25 i.e. for every big improvement in AI’s usefulness, only a small amount of human work can be replaced. Because AI can write code faster, but humans are still needed to decide what to build, check if the code works, connect it with the rest of the product, fix messy edge cases, and actually ship it. --- papers .ssrn.com/sol3/papers.cfm?abstract_id=6859839

译麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。

宝玉@dotey · 6月8日74

之所以研究 Claude Design,是因为最近摸索出一套不错的开发模式: 1. 先用 Claude Design 去设计 App 的 UI 和 UX,第一版本越简单越好。 Claude Design 交付的结果是 HTML + CSS + React + data.js,通过 CSS 一下就可以看清楚设计系统的颜色系统、尺寸规范,通过 React 可以看清楚组件结构,通过 data 可以知道数据结构什么样子。 这几个组合可比 figma 对于 AI 来说友好多了,尤其是 data.jsx,这是一般的设计 App 不会有的,但对开发特别重要的。 还有一个优势就是交付的结果都是文本格式的,可以一起提交到 git 做版本管理,用 git diff 就可以清楚的让 AI 知道设计稿修改了什么。 2. 把 Claude Design 生成设计稿交给 Claude Opus 4.8 去实现一个 MVP,第一个版本只实现 UI 功能,告诉它技术栈(比如 AppKit 而不是 SwiftUI),通过几个小版本的迭代,让它逐步完善。比如第一个版本只是主界面 之所以不用 GPT,是因为 Opus 在 UI 实现上比 GPT 好太多,同样的设计稿,GPT 实现的各种细节问题的,不能很好的遵守设计稿。 之所以不一下子实现太多功能,是因为功能越少 Agent 越容易聚焦,做出来效果越好。所以怎么拆分版本,也是用好 Coding Agent 的一种能力。 非 UI 的功能,用什么模型没有那么大差别,所以我也会用 Codex 配合非 UI 工作。 3. 每次生成一个版本,要让它可以运行,无论是 Agent 还是人都是需要即时反馈的,有了反馈才知道方向对不对,才知道下一步要做什么。 人在测试的时候,能发现各种问题,代码问题就让 Agent 去修改,UI 设计有问题不是马上修改代码,而是要去 Claude Design 去修改设计稿,设计稿修改完了,把设计稿下载回去,替换本地的设计稿文件。 设计稿替换后,让 Agent 去 git diff 分析一下变更,给它个截图,都不用多说它就知道怎么改了。 4. 版本稳定后继续新一轮迭代 当设计的功能做完之后,不一定是要马上去设计新的功能,而是可以重新审查一下实现的代码,重构优化一下。 比如我在第一版实现后,让 Opus 4.8 去做了性能分析,看性能问题在哪,然后告诉我当前用 NSScrollView,内容一多就内存暴涨,建议 NSTableView。 我心想这不应该是一开始就该考虑到的么!不管怎么样亡羊补牢也不算晚。 性能优化完就继续加功能,更新设计稿,让 Agent 参考新设计稿优化功能。 --- 再回来说研究 Claude Design 的事,因为反复 Claude Design 修改,同步到本地,然后这一步让我后来很烦,因为需要在本地和 Claude Design 网页切换,还要导出下载到本地,解压缩替换。 于是我就想能不能在本地就可以重现 Claude Design 直接集成到本地 Agent,所以我去研究了 Claude Design,然后发现完全可以本地跑起来,只是本地 Agent 在工具调用上有些差异,以及不方便直接在设计稿上标记编辑。 上周正好 Codex 发布了直接调试 iOS 的功能,它带了标记修改的功能,然后我灵机一动,这不正好可以代替 Claude Design 的标记修改功能么。(图2) 问题是 GPT 5.5 模型设计能力不够,在 Codex 里面设计效果也不会好。 接着 Cursor 也发布了网页标记功能,这下正好,Cursor 里面可以用 Opus 4.8,做成 Skill 就可以本地运行了,还可以在 Cursor 内置浏览器中,直接标记、评论修改。 好在 Claude Code 的核心逻辑都在浏览器前端,他们在网页上做了个 Harness,这给了我分析的便利,耐心一点就可以分析出所有的 Prompt、内置 Skills、初始组件,再针对 Cursor 的工具做一些兼容就可以跑起来了。(图3) 测试对比了一下和在 Claude Design 上跑的效果差不多。(图4) 归根结底,还是 Claude Desktop 太拉胯了,Claude Design 本应该集成在 Claude Desktop 的,不然也不需要我这么折腾。 当然不折腾下我也没机会学习 Claude Design 优秀的设计,真的很棒,接下来会系列更新我的学习心得。 推荐去试试最终的 Skill,让你本地就可以跑 Claude Design: https://github.com/jimliu/baoyu-design

译宝玉分享开发模式:先用 Claude Design 设计 App UI/UX,生成 HTML+CSS+React+data.js(优于 Figma,利于 AI 理解和 Git 版本管理);再用 Claude Opus 4.8 实现 MVP(GPT 5.5 在 UI 实现上差距明显)。因反复在本地与网页间导出替换设计稿繁琐,他编写工具解析 HAR 文件、解密 Claude Design 二进制内容,分析其 Prompt 和内置组件,将核心逻辑本地化集成到 Cursor(利用网页标记功能),配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
07:14
MiniMax (official)@MiniMax_AI
51
MiniMax 官方转发用户 @coldopn 的体验:前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code,切换至 MiniMax M3 模型,仅凭一句"将此截图动画化为可工作的黑洞模拟器"的提示词,M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元,展现了 M3 强大的视觉理解与生成能力。

Brian Turcotte: Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...

GitHub多模态编码评测/基准
04:13
AYi@AYi_AInotes
精选76
Matt Pocock 开源 skills v1:将技能描述 Token 成本降低 63%

Matt Pocock(Total TypeScript 作者)开源了 skills v1,将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用,新增 /codebase-design、/domain-modeling、/grilling 三项技能;重写 /writing-great-skills;将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用;新增 /ask-matt 路由技能,帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。

Matt Pocock: Announcing mattpocock/skills v1 - Achieved a 63% reduction in token cost for skill descriptions - Split skills into mode...

GitHubMCP/工具开源/仓库编码

推荐理由:mattpocock 把资深工程师的编码流程拆成可复用的技能,Token 砍 63% 只是个结果,更有价值的是 AI 自触发技能的设计,vibe coding 进阶者必看。
6月17日
23:15
meng shao@shao__meng
60
邵猛推荐 @Jason_Young1231 的开源项目 CC Switch,GitHub 获 103K 星。该项目解决 OpenAI Codex Responses API 与多数第三方 API Chat Completions 接口不兼容的问题,使更多模型可在 Codex 中直接使用,完全开源免费。

Jason Young: Love this direction from OpenAI. That's what we call being open. In practice, though, many third-party APIs are still Ch...

GitHubMCP/工具开源/仓库编码
19:44
Rohan Paul@rohanpaul_ai
54
来自@elder_plinius的那个著名仓库 Claude Fable 5 - 系统提示词
AnthropicGitHub教程/实践
08:27
宝玉@dotey
精选75
baoyu-design 本地动画视频导出功能更新

baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

宝玉: baoyu-design skill(让你本地运行 Claude Design 的 Skill)更新,本地生成 PPT 的效果,可以借助 Cursor、Codex 内置的浏览器预览 PPT,也可以直接用它们的标记工具修改 PPT 细节。按 ...

GitHub多模态开源/仓库视频

推荐理由:宝玉把 Claude Design 动画导出能力做成了本地 skill,原理讲得很透,声明式引擎加 f(t) 直接抽帧的思路让开发者能零成本复现,想要高质量 AI 动画输出的创作者可以立即用起来。
05:55
jason@jxnlco
65
NVIDIA GEAR实验室推出ENPIRE项目,首次实现物理世界自动研究。8个Codex智能体被授权控制机器人舰队、GPU及token预算,自主完成绑扎带、整理精密插针、安装GPU等高精度任务。系统无需人类干预,agent可自学视觉线索、复位场景、调参、翻阅论文、辩论反思,并直接硬件试错。团队发现"物理规模扩展"效应:8台机器人并行探索效率显著高于少数台。部分实验室已实现夜间自主改进,每天早上看报告。ENPIRE将全部开源,支持在家搭建自运行机器人实验室。

Jim Fan: Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fle...

GitHub产品更新具身智能开源/仓库
6月16日
20:29
meng shao@shao__meng
60
LandingAI 推出 Agentic Document Extraction 的 Agent Skills

LandingAI 将 Agentic Document Extraction 升级为 Agent Skills,支持在 Codex、Claude Code、Cursor 等 coding agent 的对话中直接调用,实现零脚本文档处理流水线。两个 Skill 分工明确:document-extraction 提供结构化 Markdown/层级 JSON 解析、基于 JSON Schema/Pydantic 的字段抽取、按文档类型拆分、按页分类路由(预览)、目录生成(预览)、异步大文件处理(最高约 1GB/6000 页)及元素级坐标与置信度可视化;document-workflows 封装并行批处理、Classify→Extract 混合流水线、RAG 准备(语义分块、embedding、ChromaDB/FAISS)、DataFrame/CSV/Snowflake 导出、bbox 标注叠加及 Streamlit 交互 UI。安装命令:/plugin marketplace add landing-ai/ade-document-processing-skills。

LandingAI: Turn Claude Code into a Document Processing Agent! We just released Agentic Document Extraction (ADE) skills for AI codi...

智能体GitHubMCP/工具产品更新
15:38
宝玉@dotey
50
用Llama 3.3 70B扫描代码库误报问题遭批评

用户指责某人使用Llama 3.3 70B扫描代码库,生成的错误报告全是错误的,认为这种行为纯粹是在制造互联网垃圾,并决定将其拉黑。该推文附带了相关GitHub issues链接。

GitHub大佬观点编码
09:19
meng shao@shao__meng
66
Vercel Labs 推出 HarnessAgent:为 Coding Agent 提供生成式 UI

Vercel Labs 利用 AI SDK 7 实验 API 推出 HarnessAgent,结合 json-render 为 Claude Code / Codex / Pi 等 Coding Agent 提供生成式 UI。Agent 在 Vercel Sandbox 隔离 Linux 环境中执行写文件、跑测试等真实操作,输出受 Zod schema 约束的 JSONL UI 规格(仅限 Steps、FileChange、Terminal 等预定义组件),前端通过 useChat + useJsonRenderMessage 实时渲染。核心设计:Harness 抽象允许像换模型一样互换 Agent;UI 层与执行层完全解耦;Session 绑定 Sandbox,10 分钟空闲或“Start Over” 销毁。Agent 不得虚构结果,失败必须展示 error step、非零 exit code 或失败测试。

Chris Tate: Introducing Generative UI for Claude Code, Codex and Pi Charts, forms, 3D, anything Your agent renders real UI for users...

智能体GitHubMCP/工具产品更新
08:49
meng shao@shao__meng
66
@mattpocockuk 提出 AI 驱动开发七阶段及 /grill-with-docs 升级

@mattpocockuk 提出 AI 驱动开发七阶段:Grill(模糊→共享理解)、Research(缓存外部信息)、Prototype(可玩代码验证)、PRD(需求文档)、Issues(垂直切片)、Implement(Agent 执行)、Review(人工 QA)。/grill-with-docs 是 /grill-me 的升级版,专为有代码库场景设计,新增领域语言(CONTEXT.md)、ADR(docs/adr/)及会话四类动作。无代码库时仍用 /grill-me。作者认为 pre-PRD 阶段需更多结构,/grill-with-docs 将再次调整。

Matt Pocock: Here are my 7 phases of AI-powered development. I've been thinking that the pre-PRD phase needs more structure. You need...

智能体GitHub教程/实践编码
04:36
宝玉@dotey
73
宝玉发布《图解Skill》配套Repo中的info-digest Skill

宝玉(@dotey)公开了《图解Skill》配套GitHub仓库中的info-digest Skill,用于日常整理AI资讯并生成推文初稿,默认调用Claude网页版+Opus 4.6。核心提示词技巧:1)站在读者角度写作;2)联网检索做实核查;3)交代背景信息;4)生成短而精炼的纯文本格式。该Skill为项目库JimLiu/Illustrated-Agent-Skills的一部分。同步有抽奖活动(转发/引用/评论抽10人,本周五中午12点,使用Grok抽奖)。

宝玉: 🎟️抽奖啦!为了回馈读者们对《图解 Skill -- AI 提效实战指南》这本书的支持,也搞一次抽奖活动,抽 10 个人,北京时间本周五中午12点开奖。 规则很简单:转发、引用、评论这条推文就可以。 可以选择实体书(仅限内地地址)或者电子...

GitHub开源生态教程/实践
00:13
elvis@omarsar0
73
DAIR AI 开源 /learn skill,用 Agent 学习任何主题

DAIR AI 创始人 Elvis Saravia 开源 /learn skill,允许用户通过 AI 智能体和 HTML artifacts 学习任意主题。该 skill 可安装后与任何 Agent 交互,生成视觉化、交互式的 artifact,帮助深入理解或生成知识检测(如测验)。支持 DAIR Academy pro 会员在 AI Builder 中使用。GitHub 链接及试用平台已开放。

智能体GitHub开源/仓库开源生态
6月15日
23:24
宝玉@dotey
39
宝玉(@dotey)的《图解 Skill -- AI 提效实战指南》在微信读书飙升版排名第15。为回馈读者,抽10人送实体书(限内地)或电子书,北京时间本周五12点开奖,转发、引用、评论即可参与。抽奖借助@Grok进行,将注意防范提示词注入。已购书读者可前往配套GitHub项目JimLiu/Illustrated-Agent-Skills,内含interview-analysis、interview-writing、info-digest等入门级实用Skills。

宝玉: 🎟️抽奖啦!为了回馈读者们对《图解 Skill -- AI 提效实战指南》这本书的支持,也搞一次抽奖活动,抽 10 个人,北京时间本周五中午12点开奖。 规则很简单:转发、引用、评论这条推文就可以。 可以选择实体书(仅限内地地址)或者电子...

GitHub教程/实践
21:12
凡人小北@frxiaobei
62
AI Agent全自动协作:从发现Bug到修复Merge全程零人类编码

开发者@JeffreyCalm分享经历:他将GitHub链接交给Codex部署,发现Bug后Codex自动提Issue。官方仓库的Code Review Bot确认Bug并At Hotfix Bot,后者30分钟内提交修复PR,最后At真人开发者。真人仅回复“OK”即完成Merge。全程人类零编码,仅贡献一个决策确认,折射出Agent经济与A2A平台雏形。

Jeffrey.W: Github 本身在成为一个 A2A 平台。 我本周经历了一个特别魔幻的事情: 1. 我把一个 Github 链接丢给 Codex,让它帮我部署一下。 2. 我用了一段时间,发现似乎有个 Bug。我让 Codex 查了一下,它确认是个 Bu...

智能体GitHub开源生态现象/趋势
17:54
Peter Steinberger 🦞@steipete
43
每当你在我们的一个开源项目上创建issue时,@clawsweeper 会审核它,*如果*它符合VISION.md文件,就会接手并创建+自动审核一个PR。 例如:https://github.com/openclaw/gogcli/pull/816
智能体GitHub教程/实践编码
11:23
Berryxia.AI@berryxia
59
一个专门为产品经理准备的 Skill 包(pm-skills)在 GitHub 上 5 天内获得 13k Stars(约 1.3 万)。该项目覆盖产品经理日常工作范围,但发布者提醒用户警惕大而全的 Skill 包,建议根据实际需求进行微调后再使用。

向阳乔木: 一个专门给产品经理准备的Skill,五天竟有13k Stars。 从名字看,确实涵盖了产品经理日常工作范围。 警惕大而全的Skill产品包,最好体验根据需求微调。 安装地址见评论

GitHubMCP/工具开源/仓库
09:56
Orange AI@oran_ge
74
Oran Ge 推出橙线插画.skill 长文自动插图工具

Oran Ge 发布了一套名为“橙线插画.skill”的 AI 智能体技能,可自动将长文生成插图。他以 7.5 万字的文章《置身钉内》作为测试,由 Agent 为每个场景生成 2 套插图供挑选,最终制作了 20 张插图,且未做任何修改。该技能旨在帮助读者快速理解长文内容,下载地址已公开在 GitHub。

Orange AI: http://x.com/i/article/2066286219416469504

GitHub图像生成开源/仓库教程/实践
08:26
Orange AI@oran_ge
70
橙线插画.skill开源:用AI生成纽约客风配图

Oran Ge发布开源技能“橙线插画.skill”,基于Fable 5模型(已绝版)的纽约客风格插画迭代而来,支持Cola、Claude Code、Codex等Agent。该skill可生成文章配图及带插图的HTML幻灯片。作者同时分享了在钉钉工作期间的20个反思切片(如“好产品只有一个主发心”),配图由Agent为每个场景生成2套方案,最终免费开源发布在GitHub。

智能体GitHub图像生成开源/仓库
07:55
karminski-牙医@karminski3
53
Qwen3.6-27B在Iterative-Contextual-Refinements框架下超越Anthropic Fable5

Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分,超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案(如KMP、滑动窗口)、DFS结合性能工具迭代优化代码,以及路由统筹形成闭环,克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。

智能体arXivGitHub开源生态
02:17
elvis@omarsar0
73
Elvis Saravia 发布 LLM Council 技能

Elvis Saravia 开源了 llm-council 技能,专为 Claude Code 等 AI 智能体设计,适用于深度研究任务。该技能默认集成 Fireworks AI 的 API,可轻松适配 OpenRouter。项目代码托管在 GitHub,地址为 dair-ai/dair-academy-plugins。

OpenRouter: Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half ...

智能体GitHubMCP/工具教程/实践
6月14日
22:44
向阳乔木@vista8
精选82
乔木小说创作 Skill 开源发布

开源乔木小说创作 Skill,用户只需说“我想写一个小说”或指定风格,AI 自动生成剧情梗概、人物设定、钩子、经典桥段、人物欲望、冲突升级和结尾。与 AI 讨论确认后,可生成完整、低 AI 味的小说。安装命令:npx skills add joeseesun/qiaomu-novel-generator,Github 开源地址见评论区。

GitHub开源/仓库

推荐理由:乔木这个开源小说Skill把AI写作从‘给个灵感’拉到了‘完整创作流程’,里面把钩子、桥段、冲突结构化,做内容的可以直接套用,降低了普通人写小说的门槛。
09:51
Orange AI@oran_ge
73
Oran Ge推荐一个用pi+DeepSeek绘制架构图的skill。该skill无需生图模型,通过LLM将自然语言描述转为结构化JSON,再由Node.js渲染器用纯几何算法生成SVG,最终注入为自包含HTML。仓库:https://github.com/tt-a1i/archify。用户评价其审美优于大模型默认输出。

Geek: pi + DeepSeek 画的,才发现这个技能不需要生图模型,是通过 LLM 将自然语言描述转为结构化 JSON → Node.js 渲染器用纯几何算法生成 SVG → 注入自包含 HTML。 https://github.com/tt-...

GitHub开源/仓库开源生态部署/工程
6月13日
21:08
meng shao@shao__meng
65
邵猛更新 infocard-skills,优化多比例布局

邵猛(@shao__meng)更新开源项目 infocard-skills,提升不同比例下的布局合理性,避免空白或截断,保留瑞士国际主义风格。支持 16/9、4/3、1/1 等常见信息卡比例及封面比例,默认 4/3。用户输入内容和比例,AI Agent 使用该 Skill 生成 HTML 并截图输出 PNG。项目开源于 GitHub。

meng shao: 信息卡制作完整方法我做成了 Skill「infocard-skills」,开源在这里了: https://github.com/shaom/infocard-skills 支持 16/9、4/3、1/1、3/4、9/16 几种常见比例信息卡...

智能体GitHubMCP/工具开源/仓库
09:14
Berryxia.AI@berryxia
73
开发者 SkyBlue997 在 GitHub 开源 enableMacosAI 工具,通过修改系统地区伪装美区来开启国行 Mac 的 Siri AI。此前有用户发现 macOS 的 GenerativeModels.plist 文件中存在 EnhancedSiriWaitlist 开关,关闭 SIP、挂载系统卷、修改键值并重启即可解锁 WWDC 新发布的 Siri AI 增强版。社区已整理出详细步骤,证明该 AI 能力早已内置,仅被等候名单屏蔽。

Berryxia.AI: 我尼玛!苹果现在安全性真的差! 世界果真就是草台班子、谁也不例外! 苹果新Siri AI的等候名单? 国外大神Mac用户直接一顿操作就把AI增强版给硬解锁了,名单这东西瞬间成了笑话。 WWDC刚秀完新Siri,大家还在排队等官方推送,结果有...

GitHub开源/仓库端侧语音
07:16
Orange AI@oran_ge
精选75
Oran Ge 开源《人味儿写作心法.skill》解决AI写作缺人味

Oran Ge 让 Claude Fable 5 打磨文案三遍,发现改稿越来越讲究却缺“人味儿”。他与 AI 讨论后得出结论:人写的文字背后有“存在感”——作者在具体位置付出过具体代价,而 AI 无法复现。为此他制作了《人味儿写作心法.skill》,专用于自写文章或口述后让 AI 改稿的场景,旨在保留文字的人味。该技能已开源免费发布在 GitHub。

AnthropicGitHub开源生态教程/实践

推荐理由:Oran Ge 把 AI 写作缺人味儿的痛点提炼成《人味儿写作心法.skill》,不是教你雕琢辞藻,而是给你的 Agent 注入存在感。做内容的可以直接套用。
6月12日
08:59
meng shao@shao__meng
精选75
Spec 驱动开发(SDD)的三个 Skills:覆盖 Spec→Implement→Verify 闭环

邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add warpdotdev/common-skills。

Zach Lloyd: http://x.com/i/article/2065151123128721408

智能体GitHub教程/实践编码

推荐理由:邵猛把SDD从概念变成三个可安装Skill,特别是第五步用计算机操作验证UI,这招对Rust桌面应用团队是降维打击。做AI coding的可以直接抄作业。
01:37
AYi@AYi_AInotes
70
QuantMind:量化金融知识处理框架开源(MIT协议)

一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

AYi: http://x.com/i/article/2064536412670562304

GitHub检索增强多模态开源/仓库
6月11日
14:52
宝玉@dotey
同事件精选77
baoyu-design skill 更新:支持导入 Figma 本地文件重建设计系统

baoyu-design skill 更新,现已支持导入 Figma 本地文件(.fig),可在本地重建设计系统,效果与 Claude Design 在线版一致。该功能依赖 Claude Fable 5 辅助(Token 不够用)。安装后提供 Figma 文件路径即可导入为 Design System,后续新建设计项目可复用。同时支持在新建项目时添加已导入的 Design System,保留了 Claude Design 原始的导入和编译方式,用户可通过提问选择设计系统。安装命令:npx skills add JimLiu/baoyu-design。项目地址:https://github.com/jimliu/baoyu-design。

宝玉: baoyu-design skill 现在支持导入 Design System,以及在新建项目时添加导入的 Design System 比我想的要麻烦的多:https://github.com/JimLiu/baoyu-design/pul...

GitHub多模态开源/仓库
同一事件,精选展示《baoyu-design skill 支持导入 Design System 并在新建项目中使用》
推荐理由:宝玉把 baoyu-design 调教得越来越像 Claude Design 在线版,现在能直接吃 Figma 文件生成设计系统,前端和设计同学可以省掉大量重复劳动。
03:24
Xiaomi MiMo@XiaomiMiMo
79
小米 MiMo 发布并开源 MiMo Code V0.1,终端 AI 编程助手

小米 MiMo 发布并开源 MiMo Code V0.1,一款终端 AI 编程助手。它附带多模态模型 MiMo V2.5(限时免费),支持百万 token 上下文窗口。核心特性包括:无限上下文(无损压缩,百万行项目质量不降)、深度优化的 Agent 框架(测试/审查/验证闭环)、Compose 模式(规格→计划→构建→报告)、自动学习每轮会话经验的自我进化系统、MiMo-V2.5-ASR 语音输入、与 Claude Code 兼容(可复用现有 skills/MCP/API 配置)、MIT 许可,并支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。一键安装(Mac/Linux 用 curl,Windows 用 npm install)。

智能体GitHub产品更新编码
6月10日
01:32
AYi@AYi_AInotes
74
headroom:开源token压缩工具,可省60%-95% token

开源免费的 token 压缩工具 headroom 本周增速最快,已获 17k star。它专为所有 AI API 调用(输出、日志、文件、RAG 块)设计,压缩 60%-95% 的 token,将账单直接砍到原来的 1/5,且回答质量不变。无需修改一行现有代码,可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词,一行配置即可大幅降低 API 成本。

GitHubMCP/工具检索增强开源/仓库
01:16
Rohan Paul@rohanpaul_ai
69
Kocoro:开源AI智能体实现跨天会话记忆

Kocoro是一款Mac原生AI智能体,旨在解决AI会话每天重启后遗忘上下文的痛点。它每晚在本地审查工作内容,通过TensorLogic在云端训练轻量记忆模型,次日自动恢复上次中断的会话状态,无需重复粘贴或解释。Kocoro能感知项目文件、追踪昨天的变更、打开浏览器、操作桌面应用、整理文件并跨多个应用执行任务。其内核已在GitHub开源,确保可审计和用户可控。用户可通过命令行(Shannon)或桌面应用运行。

智能体GitHub开源/仓库开源生态
6月9日
20:21
Tencent Hy@TencentHunyuan
74
🚀推出UniRL,一个用于统一多模态模型的RL基础设施。附带两种新RL算法:DRPO和Flow-DPPO。 一个覆盖扩散/流匹配模型、LLM/VLM以及统一多模态模型的RL循环👇 代码:http://github.com/Tencent-Hunyuan/UniRL (是的--U(you)-ni-(need) RL 😉)
GitHub多模态开源/仓库推理
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
10:03
Berryxia.AI@berryxia
精选75
开源工具 Tokei:在菜单栏实时监控 AI coding agent 的 token 用量与成本

Berry Xia 推荐开源工具 Tokei,这是一个 macOS 菜单栏小工具,只读本地日志、零网络调用,30 秒自动刷新,实时监控 Claude Code、Grok CLI、Aider、OpenCode 等 8 个主流 AI coding agent 的 token 用量、实时成本与性能数据,并附每日图表、周热力图和年度 Wrapped。支持私人 Git 多设备同步、价格表本地覆盖,闲置过久会提醒休息。引用推文指出,token 消耗情况可作为深度使用 AI 的面试亮点,数据全程私有,零侵入,无需任何认证。

岚叔: 快让我看看大家消耗了多少token🎉 我现在面试会问候选人的token 消耗情况,这个算是评判你深度使用AI的一个证明了 建议有刚需的朋友也保留一份,给自己简历也能增加一些亮点 当前发布的开源版本使用的是github 做的同步,全程数据都...

GitHubMCP/工具开源/仓库

推荐理由:Tokei把AI coding的成本黑洞撕开一个口子,本地零侵入,数据私有不联网,开源玩法实属良心。做开发者的,是时候正视自己烧了多少Token了。
08:43
meng shao@shao__meng
精选75
GitHub 122K⭐的Skills推出新技能「Teach」:把工作目录变有状态学习空间

GitHub 122K⭐的Skills仓库推出新技能Teach,可将当前工作目录变为有状态学习空间。设计理念从Knowledge(概念事实)→Skills(动手操作)→Wisdom(真实判断)。工作区以文件即学习状态:MISSION.md定目标、lessons/提供课程、learning-records/记录已会内容、reference/生成速查手册。五个关键机制:Mission定方向、ZPD根据记录调整难度、Lesson一课一事+即时反馈、Learning Record记“会了什么”而非“讲了什么”、Reference形成长期可回看手册。可通过npx skills add mattpocock/skills --skill teach安装,适用于从魔方到软件基础等学习场景。

Matt Pocock: /teach is live Learn anything, from rubik's cube to vocal harmonies to software fundamentals. npx skills add mattpocock/...

GitHub开源/仓库部署/工程

推荐理由:mattpocock 这个 Teach Skill 把学东西从看文章变成写代码,用文件作为学习状态机,做开发者的可以立刻用起来,思想比同类教程工具高一个档次。
08:03
Berryxia.AI@berryxia
74
Kimi Code升级:一行安装+视频上下文+插件系统

Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。

Kimi Developers: Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...

智能体GitHub产品更新编码
6月8日
21:40
meng shao@shao__meng
60
邵猛开源 Markdown 转 X Article 格式 Skill

邵猛批评 X Article 编辑器难用、不支持 Markdown 格式,并用 Codex 创建了一个 Skill「md-to-x-article-skill」,可将 Markdown 自动转换为 X Article 展示格式。该工具已开源在 GitHub(shaom/md-to-x-article-skill),用户可 Fork 后按需微调。

GitHub开源/仓库
21:36
小互@xiaohu
精选79
小互开源视频翻译工具:一句话自动下载、转写、翻译、烧字幕

小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行,不花API费。支持YouTube、Bilibili、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex、OpenClaw等AI编程工具。已开源,附安装指南。

GitHub开源/仓库视频语音

推荐理由:小互把自己用了半年的视频翻译工具开源了,本地Whisper转写加AI润色,下载、翻译、烧字幕一句话搞定,做海外视频搬运或想省时间的,装一下就能省掉大半天手工。
16:38
meng shao@shao__meng
精选78
邵猛开源 Brand to DESIGN.md 技能,提醒复刻易生新"AI Slop"

邵猛关注 Design Skill、Taste Skill、Anti-AI-slop design skill,并开源 Brand to DESIGN.md Skill(GitHub: shaom/brand-to-design-md-skill),让 Agent 学习设计品味后复刻网站。但他指出,这种复刻看多了反而从 Anti-AI-slop 衍生新“AI Slop”,缺少设计精髓,仅皮毛相仿。

智能体GitHub开源/仓库

推荐理由:邵猛这个 skill 把品牌手册一键转成 Agent 可用的 DESIGN.md,虽然 AI 复刻设计仍缺灵魂,但至少能让 Agent 立刻有规范可循,做设计的可以直接套用。
07:08
Rohan Paul@rohanpaul_ai
66
MIT研究追踪超10万GitHub开发者:AI编码工具使代码量增300%,但发布仅增30%

麻省理工新研究追踪超10万GitHub开发者使用三代AI编码工具(自动补全、交互式agent、自主agent)的生产漏斗。自主AI agent使代码提交数提升180%,但实际发布仅增30%。代码量激增近300%,经人工审核后收益降至150%,最终发布仅增约30%。研究估算替代弹性为0.25,即AI能力大幅提升时仅能替代少量人类工作。应用市场同样显示新应用数量增加,但总使用量未升。瓶颈在于人类仍需负责审查、测试、打包和发布等环节,AI加速的局部任务并未转化为同等产出增长。

Rohan Paul: FT publisehd a piece. AI is raising software supply faster than demand. AI is producing far more work inside companies, ...

GitHub编码论文/研究
01:31
宝玉@dotey
74
baoyu-design:在本地复现 Claude Design 的开发工作流

宝玉分享开发模式:先用 Claude Design 设计 App UI/UX,生成 HTML+CSS+React+data.js(优于 Figma,利于 AI 理解和 Git 版本管理);再用 Claude Opus 4.8 实现 MVP(GPT 5.5 在 UI 实现上差距明显)。因反复在本地与网页间导出替换设计稿繁琐,他编写工具解析 HAR 文件、解密 Claude Design 二进制内容,分析其 Prompt 和内置组件,将核心逻辑本地化集成到 Cursor(利用网页标记功能),配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。

宝玉: 最近为了研究 Claude Design,专门写了一个工具,可以解析 HAR 文件,解密 Claude Design 传输的二进制内容,这样可以方便的看到请求的 Prompt

智能体AnthropicGitHubMCP/工具
‹ 上一页
123456
下一页 ›