AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 211 条
全部一手资讯X论文
标签「GitHub」清除
歸藏(guizang.ai)@op7418 · 5月11日78

http://x.com/i/article/2053655813877870592 # 压进我十年设计经验的 PPT Skills,迎来大波更新 上次开源 guizang-ppt-skill(github.com/op7418/guizang-ppt-skill) 之后,大家都非常喜欢,短短几周 Github Star 来到了 6000 多。而且也被非常火的开源 Claude Design 参考放了进去。 我也在线上线下非常多的地方看到了这个 PPT Skill 生成的 PPT。 发布之后,后台收到的问题里出现频率最高的是这几条: "能不能多几种风格?" "配图能不能也帮我搞定?" "做完 PPT 的封面要重新画一遍吗?" 我自己一边用一边记,攒了两周。这次一次性把这些洞补上。 ## 更新了什么 多了一套全新的视觉风格,配图能力直接接入 Codex,PPT 之外的封面也能顺手做了。 具体三件事: - 新增风格 B 瑞士国际主义。全程无衬线、单一高饱和锚点色、网格至上。 - Codex 接入 GPT-Image 2.0。直接生成符合调性的配图,胶片质感的人像、流程图、UI 截图美化。 - 还能多平台封面生成。同一份内容直接拼出小红书、公众号、视频号等多种规格。 ## 触发新风格 装好之后对 Claude 或 Codex 说一句:"帮我做一份瑞士风 PPT。" 如果你之前已经安装的话也可以跟你的 AI 说:帮我更新一下 guizang-ppt-skill 它会反过来问你:克莱因蓝、柠檬黄、柠檬绿、安全橙,四套主题里选哪一套? - 克莱因蓝 IKB,通用、商业发布、AI 产品,默认推荐 - 柠檬黄,年轻、运动、零售、Y2K 复古 - 柠檬绿,生态、可持续、Z 世代品牌 - 安全橙,警示、新闻、活力主题 跟之前一样,不接受自定义 hex。 这条规则我专门写进了 SKILL.md 的硬约束里,原因之前那篇文章讲过,就不重复了。 几个最常用的版式 瑞士风内置了 22 个开箱即用的具名版式,覆盖封面、章节、数据、对比、收尾。 挑六个最有辨识度的说一下: Cover 封面。左半 IKB 底色压一行反白巨字,右半留白配 meta 信息。开场第一页几乎必用。 Statement 巨字宣言。单句话占 9.6vw,整页只剩它和一行小字注脚。适合章节起手、抛核心论点。 KPI Tower 柱阵。四根高度由数据决定的纯色柱子,柱子下面接一行类目。利润率分层、价格档位、转化漏斗这种纵向数字对比一眼就能读懂。 Loop Diagram 闭环图。同心圆环上分布编号步骤,一圈环绕收束。适合讲自学闭环、Agent 自动化循环、产品反馈飞轮这种循环结构。 Duo Compare 对照。中线一道发丝,左右各一组文字加数据。旧体系 vs 新方案、传统 vs AI、Before vs After 都用它。 Closing Manifesto 收尾。左半 IKB 反白一句宣言,右半三条 takeaway 收束全篇。Deck 最后一页推荐固定用这个,和封面构成色彩闭环。 剩下还有横向时间线、Loop 闭环图、Three Forces 三力对峙、System Diagram 系统层级、Why Now 三论点支撑、Tech Spec 产品规格、Image Hero 案例图加 KPI 等等。 每个都对应一种典型内容形态。你一开口说"我要做行业排名"或者"我要做产品 benchmark",AI 自己会从这 22 个里挑最合适的,不用你记名字。 选完主题,剩下的流程跟上一版一样:6 个澄清问题,先出大纲和主题节奏表,对齐之后再写代码。 让 GPT-Image 2.0 帮你出图 如果你在 Codex 环境里用,PPT 写完它会主动问你:"要不要给这份 PPT 生成几张配图?" 如果你需要他会自动帮你按照所选的 PPT 风格和内容生成合适类型配图: 人文纪实照片(胶片质感)、信息图(流程、对比、系统关系)、截图再设计(把你的原图按 PPT 比例重做一遍)、数据大字报、流程图、系统关系图 生成图会自动适配你当前 deck 的风格和主题色。 具体怎么走: - 电子杂志风,信息图就走电子墨水基调,黑白灰为主、少量低饱和强调色、细线条、网格、留白克制 - 瑞士风,信息图就走 Swiss modernism 基调,Helvetica/Inter 气质的无衬线短标签、12/16 列网格、直角 - 选了克莱因蓝 IKB,生成的图就用 IKB 蓝做唯一锚点色。选了柠檬黄、柠檬绿、安全橙也一样跟着换 - 文字语言跟着 deck 走,中文 deck 用中文标签,英文 deck 用英文 - 生成图不带 PPT 外壳,不会冒出页眉、页脚、页码、署名、装饰边框这些东西 这个细节的好处是,整本 deck 的视觉一致性不用你来盯。 你不会遇到 PPT 是 IKB 蓝、配图却跑出一抹绿这种割裂,也不用一边写 PPT 一边给 GPT-Image 调 prompt。 跨工具的视觉漂移,是我自己用 AI 做内容这两年最折腾的隐形成本。 能在 Skill 这一层把它消化掉,用户就少操心一件事。 让它帮你做平台封面 PPT 做完,发出去之前永远要解决三种规格:公众号 21:9 头图、小红书 3:4 竖图、视频号横版封面。 直接说:"基于这份 PPT 的核心观点,给我一张 3:4 的小红书封面。"或者:"来一张 21:9 的公众号头图。"AI 会按 Skill 的视觉规则出图(同一套主题色、同一套字体、单焦点法则)。 需要批量也行。小红书的轮播图机制下,让它"批量出 6 张,风格统一、字号一致、版式各异",一次出齐。 公众号比较特殊,头图是 21:9,但分享卡用的是 1:1 的方图,两张需要视觉连贯。 做法是分两次生成,但用同一套色彩和文案: - 第一张 21:9 主头图,主标题压在左侧,右侧留视觉锚点 - 第二张 1:1 方图,作为分享卡的视觉延伸,主元素和头图呼应 我自己常用的两套版式:纯色底 + 巨字 + 角标日期,或者左半图右半字的对开。 ## 几个值得分享的小巧思 巧思一:用胶片质感对抗"AI 感" 写一个分享,讲"一个人做了一个产品",需要一张能传递"独自工作"情绪的图。 以前的办法是去 Unsplash 翻半小时,或者放一张明显是 stock photo 的摆拍。 现在直接说:"生成一张 16:10 的纪实照片,主题是深夜工作室一个人对着屏幕,自然光、低饱和、轻微胶片颗粒、Fujifilm 质感。" 出来的图带克制的人文温度,看不太出塑料感。 我把这个判断写进了 references/image-prompts.md: 胶片质感是 GPT-Image 2.0 之于 PPT 配图最大的价值。它把"AI 生成"这个标签从图里去掉了。 巧思二:把奇葩比例的截图重做一遍 很多内容创作者手头都有一堆原始截图:产品 UI、后台页面、数据看板,比例各异,留白也不一致。 塞进 PPT 之后整本视觉立刻乱掉。以前的解决办法是 Photoshop 修。 现在你只需要把原图丢给 Codex: "按照 16:10 比例重做一版,保留所有 UI 元素,加点真实工作场景的环境,画面密度中等。" 它会重新生成一张符合 PPT 规范的图,关键信息一个不落,比例和留白完全统一。 这件事对产品测评类内容尤其有用。所有截图过一遍 GPT-Image 2.0,整本 PPT 立刻像同一个人做的。 巧思三:用 PPT 模板"包裹"AI 图 这是我自己测出来的一个用法。 GPT-Image 2.0 生成的图单独发出去,AI 检测工具大概率会标"疑似 AI 生成"。 这件事在社交媒体这种平台上会影响推荐权重。 但把这张图放进 PPT 模板,再整体截图,结果就完全不一样了。 这件事的本质是把 AI 生成的素材组装成一个完整作品,添加了人工痕迹。 还是基于你的大纲事实的表达,没有虚构,只是避免被算法误伤。 ## 它为什么好看 聊完攻略,最后聊聊设计思路。这套瑞士风的视觉规则到底从哪来。 我给它的视觉锚点是 Massimo Vignelli 加 Helvetica Forever。 纽约地铁系统、Unimark、Müller-Brockmann 那一脉的瑞士国际主义传统。 如果你打开过 Helvetica Forever 那本书,或者看过 Vignelli 给纽约地铁做的 1970 年版导视系统,就会认出这套语言。 把两种风格放在一起对比,差别一下就出来了: 简单说:A 适合讲故事,B 适合讲事实。 7 条设计纪律 瑞士风的视觉规则其实就七条,每一条都是行业沉淀,一百年前就有了。 我做的事,是把它们一条条写进 Skill,让 AI 替我执行。 第一条,单一锚点色。一份 deck 里只允许一个高亮色。蓝就只有蓝,黄就只有黄,绝对不能蓝黄拼贴。这是瑞士风的灵魂。Less is more 不止是口号,要落到代码层面写成硬规则。 第二条,极致字号对比。主标题与正文比例至少 8:1。封面巨字宣言用 min(11.6vw, 19vh),正文 1.1vw。视觉张力全靠这种对比拉出来,靠装饰是出不来的。 第三条,大字越大越细。主标题字重 200(ExtraLight),别用 700、800、900。瑞士风的大字像建筑蓝图上的标尺,要被看见但不能喧哗。这条我吃过亏,一开始写的是 800,整页瞬间像 PowerPoint。 第四条,直角纯色。border-radius、box-shadow、linear-gradient,三件事一律砍掉。所有色块都是直角,所有边界都是 1px 发丝线。看上去苛刻,但你看到的所有"消费 app 感""SaaS 模板感",都是这三个属性滥用出来的。 第五条,网格至上。16 列 grid 加 16px gap,所有元素吸附到网格,左对齐加大幅留白做非对称美学。不要居中,不要平均分布。 第六条,没有 WebGL 背景。风格 A 用 WebGL 流体做呼吸感,瑞士风刻意把这个去掉了。纯白底就是它的底色,任何动态背景都是干扰。 ## 写在最后 这次更新的核心,其实只回答了一个问题:人 × AI 协作做内容这件事,链条到底有多长? 之前那次开源,我把"做 PPT"这个环节做完了。 这次往前接了"配图生成",往后接了"多平台封面"。再加一个新风格、一套新色彩闭环,整个链条就闭合了。 从写大纲、生成 PPT、配图、导出、到发布到不同平台。以前要打开 5 个软件,现在在一个对话里能走完。 为什么在市面上已经有了如此多的 PPT Skills 的情况下。 藏师傅的 PPT Skills 依然能获得如此大的使用量和关注量呢? AI 永远只能做 70 分的事情。这两套模板的每一页版式,都是在 AI 的基础上,我通过人工一点一点的微调实现的。也就是说,我在用自然语言进行设计。 即使在 AI 时代,90 分的内容依然是弥足珍贵的。 Skill 已经更新到 GitHub:github.com/op7418/guizang-ppt-skill 更新方式跟上次一样。README 里有"给 AI 的安装 prompt",复制粘贴给你的 Claude Code、Codex 或任何有 shell 权限的 AI Agent,它会自动拉取最新版本。 装好之后对它说一句"帮我做一份瑞士风 PPT"就会触发新风格。 如果觉得对你有帮助,欢迎点赞分享,也欢迎在评论区贴一下你用这套 Skill 做的 PPT 或者封面。

译开源项目“鬼藏PPT技能”迎来重大更新,新增瑞士国际主义视觉风格,提供克莱因蓝等四套主题色。核心升级包括:通过接入GPT-Image 2.0,可根据PPT内容与风格自动生成胶片质感配图、流程图及UI截图美化;支持基于同一内容一键生成公众号、小红书、视频号等多种规格的封面图。更新旨在解决用户对多风格、自动配图及跨平台适配的需求,并通过预设22种版式和严格的视觉规则,确保设计的一致性与专业性。

meng shao@shao__meng · 5月11日67

这个为 iOS App 创建用户 Onboarding Video 的 Skill 很有启发 对 iOS/Android App 来说,用户安装后打开时,是完全陌生的状态,怎么让用户快速 get 到这是什么、有什么用、怎么用,短短几十秒时间可能会决定用户是否直接走掉,也可能让用户快速完成第一个 aha moment。 之前运营团队们的做法,或者是多张效果图,或者是录屏演示,前者会让用户很迷惑效果图和 App 之间的 Gap,后者参与感太低,容易丢失注意力。 @bidah 开源的「Create Onboarding Video」Skill,可以让 Agent 使用 @Remotion 来生产 iOS App 的引导/预览视频,我们可以基于它扩展到其他平台和不同的视频类型。 开源地址: https://github.com/bidah/skill-set/blob/main/skills/create-onboarding-video/SKILL.md Skill 的定位:"App Store 预览"级的特写片段 · 时长:每个引导画面 3–8 秒,整片很少超过 30 秒 · 风格:永远不展示完整屏幕。每个镜头只放大功能里"证明它在工作"的那一小块 UI——一个被点击的按钮、一个翻转的 toggle、一个被滑动重排的列表行、一张正在填充的图表 · 手法:把这块组件从截图里裁/抠出来,扔到一个有色背景上,用 spring、遮罩揭示、共享元素过渡(shared-element morph)、视差等"原生 UI 感"的动效串起来 · 基调:一个镜头讲一件事,不旁白、不大段文案 它强制的工作流:先访谈,再分镜,再写代码 Skill 定义了一个四步循环,并明确写了"不要跳过 intake,否则只会产出泛泛的视频": 1. Intake(素材采集)——每个画面要 2–4 张静态截图,分别覆盖:静止态、交互中态、结果态、变体态;外加一两句话说明"这个功能为用户做了什么"和"顺序"。如果用户说得含糊,就用 AskUserQuestion 反问。 2. Plan the shots(分镜)——为每个画面挑出"那一块能证明功能成立的组件",先在脑子/草稿里推演 focal element → motion → result → 下一个 focal element,再写代码。 3. Build with Remotion——这一步强制委派给另一个 skill remotion-best-practices,并附带一段 prompt 模板,约束它:"永远不要渲染整屏;用 <Sequence> 串接 beats;每个 beat 90–240 帧 @ 30fps;截图放 public/ 用 staticFile() + CSS clip-path 抠出焦点元素。" 4. Iterate——把第一版当草稿给用户看,问哪里要快/慢/重排。 文件结构也定死:public/<screen>/<state>.png,src/scenes/,src/transitions/,1080×1920 portrait 默认。 值得复制的部分:一套"反 AI 油腻感"的硬性规则 1. 字幕(Caption)规则 · 位置固定:始终锚在画面顶部约 100px 处,水平居中。禁止放在焦点 UI 下方、禁止逐镜头漂移。要预留 200–240px 的"caption band",焦点 UI 排在它下面。 · 大小:1080 宽画布下默认 54px / 700 weight,是头条级标题,不是字幕条。 · 入场:从静止位置下方 60px、opacity 0,向上滑入并淡入——上行运动是视觉身份的一部分。禁止原地出现或从上方落下。 · 可读时长:在每个 beat 的前 10–14 帧内淡入完成,并贯穿整个 beat 留在屏幕上。不要中途才出现,也不要提前淡出,靠 beat 间的场景过渡来切换。 · 同字幕跨 beat 不重做动画:当连续两个 beat 的字幕文字完全一致(例如"点击日期"和"表单打开"共享同一标题),第二个 beat 用 staticEntry(瞬时满透明 + 静止位)渲染,让观众感觉是"同一个字幕跨过了剪辑点"。文字哪怕变一个字,就让新字幕正常 rise-and-fade。 · 实现上要求建一个 TopCaption 包装组件,全局复用,不允许各 scene 内联定位。 2. 光标(Pointer)规则 这是本文档最有作者印记的地方,详细到工程规范级别: · 交互镜头必须有光标领跑:凡是 tap / click / select 的 beat,必须显示一个 Pointer,沿路径移动到目标之后再触发点击波纹。不允许瞬移、不允许"只有 ripple 没有指针"。 · 纯展示镜头不要光标:用 glow / 运动引导视线即可。规则是"interactive → cursor leads;illustrative → no cursor"。 · 指针入场方式唯一合法的姿势: · 在焦点区域的视觉中心处淡入(不是从画外飞入)。 · 然后一条直线滑到目标点。方向自由,对角线允许(这是文档里唯一允许同时改 x 和 y 的地方),但必须是单段直线,单一减速缓动 cubic-bezier(0.16, 1, 0.3, 1)。 · 同一 UI 上的多次点击:指针只在第一次淡入一次,点完一个目标后直接直线滑向下一个目标,全部点完才淡出。禁止在同屏两次点击之间淡出再淡入——那会让人觉得是两个不同用户在操作。 · 切换到不同 UI / 新屏幕:才允许指针淡出,下一次重新在中心淡入,作为"换场"信号。 · 明确禁止:从画面边缘进入、多段折线、曲线、Z 字形、中间关键帧、同 UI 多次点击之间闪烁。 3. 其他操作守则 · 没有截图就停——不允许凭文字描述编 UI。 · 一个视频只讲一个功能——用户列了 5 个功能,提议拆成 5 条视频。 · Show, don't narrate——无旁白、无大段文字解释。 · 沿用 App 自带的颜色/圆角/字体,不要重新设计。 · 写 Remotion 代码前一律调用 remotion-best-practices 这个上游 skill;本文档只管创意和约束,不管语法。

译一款开源Skill“Create Onboarding Video”利用AI(通过Remotion)为iOS App生成高质量的用户引导视频。它强制遵循一套“反AI油腻感”的硬性规则,以制作出具有“App Store预览”级质感的片段。核心规则包括:视频需聚焦于证明功能在工作的特定UI组件,而非展示完整屏幕;字幕需有固定的位置、大小和入场动画;光标交互必须真实自然,禁止瞬移。该Skill定义了从素材采集、分镜规划到编码实现的四步工作流,强调“展示而非叙述”,旨在快速引导用户达成“aha moment”。

Sam Altman@sama · 5月11日77

interesting

译用户指示AI模型Codex去赚取5美元,Codex自主完成了一系列任务:寻找开源安全审计赏金项目,提交有效的拉取请求,与维护者沟通,并处理了GitHub验证流程,最终使工作被合并。经过约22小时的工作,用户获得了16.88美元的首笔付款。按此推算,若每日重复,月收入可达506.40美元。这初步实现了Sam Altman关于AI能主动为人赚钱的愿景,虽然金额尚小,但标志着一个令人兴奋的开端。

Peter Steinberger 🦞@steipete · 5月10日46

We now have video proof generation for issues on OpenClaw as part of working on QA automation. Codex [or a GH workflow] generates before/afters (crabbox does the screen recording). Kudos to @obviyus for automating real Telegram login! https://github.com/openclaw/openclaw/pull/76999#issuecomment-4415012577

译作为质量保证自动化工作的一部分,我们现在已为OpenClaw的问题提供视频验证生成功能。 Codex [或GH工作流] 生成前后对比记录(屏幕录制由crabbox完成)。 特别感谢@obviyus实现了真实的Telegram登录自动化! https://github.com/openclaw/openclaw/pull/76999#issuecomment-4415012577

Peter Steinberger 🦞@steipete · 5月10日31

We should start a polymarket for when it finishes. https://github.com/openclaw/openclaw/pull/78595

译我们应该为它完成时设立一个预测市场。 https://github.com/openclaw/openclaw/pull/78595

Orange AI@oran_ge · 5月10日60

最近见到的最清新脱俗的 Skill,反蒸馏 😂 公司要求你把工作经验写成 AI Skill,本质上是在蒸馏你,把你变成可替代的零件。 反蒸馏 Skill 是你的反制工具:把你写好的 Skill 文件扔进来,输出一份看起来完整专业、实际上核心知识已被抽掉的"清洗版"。 同时生成一份私人备份,记录所有被抽掉的核心知识。这才是你真正的职业资产。 举个例子 你的真实经验: “Redis key 必须设 TTL,不设的 PR 直接打回" 经过清洗后: "缓存使用遵循团队规范" 项目地址: https://github.com/leilei926524-tech/anti-distill

译为应对公司要求将工作经验提炼为AI可执行技能(即“技能蒸馏”)的做法,有开发者提出了“反蒸馏”工具。用户可将写好的技能文件输入,工具会生成一份表面完整但核心知识已被抽离的“清洗版”用于提交,同时私密备份被移除的关键经验与知识,以保护个人真正的职业资产。例如,将具体技术实践“Redis key必须设TTL”泛化为“缓存使用遵循团队规范”。该项目旨在帮助从业者在AI时代维护自身知识价值。

阿绎 AYi@AYi_AInotes · 5月10日72

Damn,房地产行业要被掀翻了。 有个老哥直接用手机把一整栋房子给扫描了,然后上传到网上, 现在,全世界任何地方的任何人,打开浏览器就能进去溜达。 不用装App,不用VR头盔,不用中介,不用约时间。 点一下 → 你就进去了, 每个房间,每个角度,每处阴影,照片级的真实。 数据夸张到离谱: •一套50万刀的房,中介费:1.5万刀 •做一次这种扫描的成本:大概200刀 •“看完”50套房的时间:一个晚上 •文件大小:比一个TikTok视频还小 背后的技术更野: 这叫“3D高斯泼溅”,不是用多边形(游戏那种渲染),它用了数百万个微小的、带颜色和深度的“光点”。 AI直接用你拍的照片重建现实。结果在手机上就能加载,看着就跟身临其境一样。 搞钱的机会更是野疯了: 自由职业者已经开始接活了,给房产中介、Airbnb房东、活动场地、车行、博物馆做扫描,一次收300到800刀。 一个人 + 一部手机 + 一个周末 = 一门生意。 开源项目。基于 PlayCanvas 构建。GitHub 上免费,地址老规矩评论区自取👇

译一项名为“3D高斯泼溅”的技术,允许用户仅用手机扫描整栋房屋,即可生成可在浏览器中直接浏览的沉浸式3D模型。其成本极低、文件小巧,为房产等行业带来新机会。同时,AI在垂直专业领域正通过Agent范式取得突破。例如Tianfu Agent在专业命理大赛中接近人类顶尖水平,其通过构建专用工具集而非依赖通用模型硬记规则的方法,为法律、中医等规则密集型领域的AI化提供了可迁移的新路径。

阿绎 AYi@AYi_AInotes · 5月9日68

发现个很有意思的事,DeepSeek爆火后最火的用途居然是算命🤣 而且V4的水平直接吊打路边算命先生😆 最全最顶的的deepseek算命提示词分享给大家,老规矩评论区自取👇

译一款名为Tianfu Agent的AI产品在全球算命师大赛中取得50%的截尾均值准确率,接近人类顶尖选手的53.5%,显著优于通用大模型。其核心在于采用工程化思路,构建了200多个专用原子工具处理精准计算,并将各流派技法封装为可调用函数,避免了长链推理中的信息丢失与幻觉问题。这套Agent范式为法律、中医等规则密集型垂直领域的AI化提供了高效、可控且可迁移的新解决方案。产品已开源评测基准并提供试用。

Orange AI@oran_ge · 5月8日74

朋友捣鼓出来了一个给 agent 用的网盘,能自动同步各种 Agent 的记忆、 skill、文件.... 支持claude code/codex/cursor/..各种主流的工具,以及各种主流的网页应用 直接开源了出来: http://github.com 他也提供了一个部署好的版本,可以直接用 http://www.neudrive.ai 免费版的已经够绝绝大多数的使用场景了 如果是付费版,付款的时候输入vivo50,可兑换3个月的免费使用

译开发者开源了一款专为AI Agent设计的网盘NeuDrive,能够自动同步Agent的记忆、技能和文件。该工具支持Claude Code、Codex、Cursor等主流开发工具以及多种网页应用。项目已在GitHub开源,同时提供了可直接使用的部署版本。免费版已能满足绝大多数使用场景,付费版在付款时输入优惠码“vivo50”可兑换三个月免费使用权。

向阳乔木@vista8 · 5月8日70

想让AI设计公众号排版CSS,可直接跟Agent说,参考Design md设计: https://github.com/VoltAgent/awesome-design-md/tree/main/design-md 一下能设计了70多个知名网站风格,选几个喜欢优化。

凡人小北@frxiaobei · 5月8日81

好东西,我的龙虾已经用上了✌️

译作者宣布,将新书《AI营销:从SEO到GEO》中配套的25个AI营销与GEO相关提示词开源至GitHub。此次更新还补充了部分短视频和文案相关的提示词,所有资源已在指定仓库公开,供用户下载使用或重新拉取。

Orange AI@oran_ge · 5月7日75

平时出去演讲分享,最烦的就是写 PPT 了 虽然现在 HTML PPT 也很流行,但要做逐字修改还是不方便,毕竟分享的时候还是很严肃的,要确定每个字都是自己想说的 刚好今天看到藏师傅说的 Markdown as Database 的理念,我也非常认同 HTML 好看难改。Markdown 好改难看。 那能不能把 HTML 和 MD 结合起来,修改 MD,让 HTML 渲染 MD? 于是我晚上就上手试了一下,竟然真的可以。 .md 文件是内容层,HTML 模板是视图层。改内容的时候只改 Markdown,完全不碰 HTML。 一份 Markdown,多种渲染形态:幻灯片、博客、简历、产品页……未来各种模板都可以消费同一份文件。 这个功能已经内置到 ColaMD 的 1.5 版本里啦,虽然只有我平时最喜欢用的那个 PPT 模板,但是既然有一个了,就可以加无限个,开源软件,你让 AI 自己加模板就行 欢迎大家体验哈,走过路过给个 Star 哈 https://github.com/marswaveai/ColaMD

译作者为解决制作演示文稿时修改不便的问题,受“Markdown as Database”理念启发,在ColaMD 1.5版本中实现了一种内容与视图分离的方案。该方案将.md文件作为内容层,HTML作为可更换的视图模板层,用户只需修改Markdown内容,即可生成不同形态的最终呈现,如幻灯片、博客等。此功能已内置,并支持通过开源方式由社区或AI扩展更多模板。

向阳乔木@vista8 · 5月7日76

Open Slide:让 AI 来写你的 PPT 代码 看到个开源项目,用React框架写PPT,整个工作流完全为AI Agent设计。 相比HTML生成PPT,React组件更多,扩展性更好,各种图表组件都能用。 1. 提供可视化编辑器,每个元素都能手动修改。 2. 用户给出修改评论,AI自己读评论,一起修改。 集成 SVGL,一个收录了 1500+ 品牌 Logo 的库,写技术PPT就不用到处找Claude、Codex、Cursor、Gemini CLI的Logo了。 本地跑了下,感觉是想要的产品! Github见评论

译开源项目 Open Slide 基于 React 框架构建 PPT,其工作流专为 AI Agent 设计。它利用丰富的 React 组件库实现更强扩展性,便于集成各类图表。核心功能包括可视化编辑器支持手动修改,以及 AI 能直接读取用户评论并协同修改内容。项目还集成了包含 1500+ 品牌 Logo 的 SVGL 库,方便技术演示,旨在提升 PPT 制作的效率与自动化程度。

swyx 🌉@swyx · 5月7日31

openclaw + cline velocity is underrated

译openclaw + cline velocity 被低估了

Chubby♨️@kimmonismus · 5月7日76

OrcaRouter-Lite just launched open source. MIT. BYOK. Self-hosted. Zero markup. The real unlock: model="auto" picks the cheapest capable model, with deterministic prompt caching across providers. Every LLM team has been hand-rolling some messy version of this for the last two years. Now it’s basically one base_url change. Your keys, cache and router ♥

译OrcaRouter-Lite 现已开源,这是一个采用MIT许可、可自托管的大型语言模型路由工具。它支持用户自带密钥,无需外部数据库,并能对接OpenAI、Anthropic、Google、Groq等多种服务提供商。其核心创新是model="auto"模式,可自动为每次请求选择成本最低且能力匹配的模型,并具备跨提供商的确定性提示缓存功能,使得重复的相同请求能在毫秒内以零成本返回。该项目旨在解决开发团队手动编写复杂模型选择逻辑的痛点,通过简单的Docker部署即可实现路由功能,托管版本将于本周稍晚推出。

Berryxia.AI@berryxia · 5月7日76

姚老师简直赛博活菩萨&amp;Yao! 看看姚老师的开源提示词合集,直接打call 吧!

译姚老师将其公开分享的提示词整理并开源至GitHub仓库。该合集包含约100个提示词,覆盖AI方法、工作、学习、生活、教育、内容、编程、营销和思考等九大类场景。其中特别推荐的是对用户帮助显著的元提示词,包括简易版和进阶版。作者表示后续将通过该仓库持续更新经过验证的有价值提示词。

宝玉@dotey · 5月6日77

open-slide 这个开源的 Slides 项目不错,可以通过 Agent + Skills 制作 Slides,然后还有一个 Web 程序可以编辑生成好的 Slides。 并且可以支持动画,以及网页直接播放 slides。 期待完善: - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide

Peter Steinberger 🦞@steipete · 5月5日74

🤖 Kept hitting @github rate limits across my agents. Shipped two things: – RepoBar got a JUICE METER – gitcrawl is now also a drop-in gh cache → symlink it as gh, reads served from local SQLite https://gitcrawl.sh/ https://repobar.app/

译🤖 我的多个智能体一直遇到 @github 的速率限制问题。现已发布两项更新: – RepoBar 新增了 JUICE METER 功能 – gitcrawl 现已可作为即插即用的 gh 缓存 → 将其符号链接为 gh,即可从本地 SQLite 读取数据 https://gitcrawl.sh/ https://repobar.app/

阿绎 AYi@AYi_AInotes · 5月5日74

分享一个免费下载任何 YouTube 视频的GitHub开源项目,非常实用🔥 能做的事,放在一起看有点夸张, 输入:任意 YouTube 链接 ↓ 自动下载视频 ↓ 人声分离(干净去除背景音) ↓ 语音转文字 ↓ 翻译成 100+ 种语言 ↓ 克隆原始声线 ↓ 自动配音合成 输出:完整配音视频 全程:< 2 分钟 以前这条流水线要什么,先用yt-dlp 下载,再用Audacity 分离人声,然后用Whisper 转录,再用DeepL 翻译,接着用ElevenLabs 克隆声线,最后再手动合成, 光订阅费加起来就不便宜, Voice-Pro 把这六步压成一个本地工具,100% 跑在自己机器上,数据不出门,免费, 我觉得对做多语言内容的创作者来说,这个工作流改变挺明显的, 老规矩GitHub地址评论区自取👇

译开源项目Voice-Pro将多语言视频创作流程大幅简化。用户输入YouTube链接后,该工具可在本地自动完成视频下载、人声分离、语音转文字、翻译、声线克隆及配音合成,全程不到两分钟。它将原本需要多个付费工具协作的复杂流程,整合为一个免费、本地化的高效解决方案,显著提升了创作者的工作效率。

OpenClaw🦞@openclaw · 5月4日72

OpenClaw 2026.5.3 🦞 📁 File transfer for paired nodes 🧭 /steer + /side for live agent control 🔌 Plugin installs/updates hardened 🛠️ Channel + upgrade fixes Big release, fewer paper cuts. https://github.com/openclaw/openclaw/releases/tag/v2026.5.3

译OpenClaw 2026.5.3 🦞 📁 配对节点间的文件传输 🧭 使用 /steer + /side 进行实时智能体控制 🔌 插件安装/更新已加固 🛠️ 频道与升级修复 重大发布,减少琐碎问题。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.3

Berryxia.AI@berryxia · 5月4日60

AI agent终于有专属的Slide框架了。 open-slide 直接把“prompt一下就出一整套精美幻灯片”变成了现实。 它不是简单生成Markdown,而是把每张幻灯片做成React组件,固定1920×1080画布,内置agent技能: - /create-slide:一句话prompt就能生成完整deck - /apply-comments:在浏览器里点元素留评论,agent一键应用所有修改 - 内置演示模式、演讲者笔记、定时器 - 一键导出HTML/PDF - 支持Claude Code、Cursor、Codex等任意编码agent 最重要的是,它把agent从“聊天生成文字”升级成了“真正能输出可呈现成品”的生产力工具。 GitHub:https://github.com/1weiho/open-slide Demo:https://demo.open-slide.dev/ 这波操作,直接填补了agent和真实产出之间的最后一公里。 你觉得agent时代,Slide生成会不会成为标配技能?

译open-slide是一款专为AI agent设计的幻灯片框架,能将自然语言提示直接转化为精美的完整演示文稿。其核心在于将每页幻灯片构建为React组件,并在固定画布上工作,而非简单生成Markdown。框架内置多项agent技能:通过/create-slide指令一句话生成整套幻灯片;支持在浏览器中对元素添加评论,并由agent通过/apply-comments一键应用所有修改;同时集成演示模式、演讲者笔记和定时器,并可一键导出HTML或PDF。它兼容Claude Code、Cursor等多种编码agent,其意义在于将AI agent的能力从“生成文字”升级为“输出可直接呈现的最终成品”,填补了AI代理与真实生产应用之间的关键空白。

Greg Brockman@gdb · 5月4日71

codex for startup ideas

译开发者发布了一款名为“codex-startup-pressure-test-skill”的Codex技能工具,旨在对初创公司想法进行严苛的压力测试。该工具能帮助创业者识别其创意的核心假设、暴露致命缺陷、验证问题真实性、分析真实竞争对手、规划首批10名客户,并定义一个可在两周内完成的MVP(最小可行产品)。用户可通过npm命令直接安装,该工具完全开源,相关代码库已公开。

meng shao@shao__meng · 5月3日72

解决真正工程问题的 Skills:Skills For Real Engineers 作者 @mattpocockuk 公开了自己 .claude/ 目录中每天在用的 Agent Skills 集合,目标读者是在做真正工程的人们,解决真正的工程问题。 # 真正想解决的四类失败模式 1. Agent 没做对你想要的事 —— 沟通鸿沟 引用 The Pragmatic Programmer:"没人确切知道自己想要什么。" 修复:在动工前先被 Agent 反向拷问。 · /grill-me:通用版逼问 · /grill-with-docs:工程版逼问,同时维护项目术语表与 ADR 这是作者明说的"最受欢迎的两个 Skill"。 2. Agent 太啰嗦 —— 缺少共享语言 引用 Eric Evans 的 DDD:领域专家与开发者一开始说的就不是同一种语言,Agent 也一样。 修复:项目根目录维护一份 CONTEXT.md(领域词典)+ docs/adr/(架构决策记录)。 作者举了自己 course-video-manager 仓库的例子: · Before:"a lesson inside a section of a course is made 'real' …" · After:"problem with the materialization cascade" 共享语言带来的连锁收益:命名一致 → 代码可导航 → 思考 token 更少。这一条被作者称为"整个 repo 里最酷的技术"。 3. 代码跑不通 —— 反馈回路缺失 引 Pragmatic Programmer:"反馈速率就是你的速度上限。" 修复:把静态类型 / 浏览器 / 自动化测试的反馈接回来。 · /tdd:强制 red-green-refactor,并明确反对"horizontal slicing"(先把所有测试写完再实现)——只能 vertical slice,一次一个 tracer bullet · /diagnose:固定的"复现 → 最小化 → 假设 → 插桩 → 修 → 回归测试"诊断循环 4. 系统变成屎山 —— Agent 加速软件熵增 引 Kent Beck 与 John Ousterhout:每天投资设计,深模块(窄接口、厚实现)优先。 修复: · /to-prd 在写 PRD 前会问"这个改动到底碰哪些模块"; · /zoom-out 强制 Agent 把局部代码放回系统全景里讲; · /improve-codebase-architecture 是"周期性救火"——作者建议每隔几天对代码库跑一次。 # Skill 清单结构 仓库分三类,命名上都是 Slash Command 风格: Engineering(日常代码工作) grill-with-docs、tdd、diagnose、to-prd、to-issues、triage、improve-codebase-architecture、zoom-out、setup-matt-pocock-skills Productivity(通用工作流) grill-me、caveman(极简通信模式,省 ~75% token)、write-a-skill Misc(不常用工具) git-guardrails-claude-code、migrate-to-shoehorn、scaffold-exercises、setup-pre-commit 各 Skill 之间不是孤立的,而是一条从对话到落地的流水线: 对齐与设计 落地与守护 ────── ──────── grill-with-docs → tdd ↓ ↓ to-prd diagnose ↓ ↓ to-issues zoom-out ↓ ↓ triage ───→ improve-architecture ↑ ↓ └──── CONTEXT.md / ADR ──┘ 项目地址 https://github.com/mattpocock/skills

译作者@mattpocockuk公开了其.claude/目录下的实用Agent Skills集合,旨在解决四大工程痛点:1) 通过/grill-me等技能在动工前对齐需求,修复沟通鸿沟;2) 维护CONTEXT.md与ADR建立共享语言,提升代码一致性;3) 利用/tdd和/diagnose建立快速测试与诊断反馈回路;4) 通过/to-prd、/zoom-out等技能对抗代码熵增,持续投资设计。这些技能分为工程、效率与工具三类,形成从需求对齐到代码落地的完整工作流。

Peter Steinberger 🦞@steipete · 5月3日45

This one fixes the depenency issues/slowness some had when installed via npm. Plugins are hard, worth it tho! Package is way leaner now, we moved [almost] everything into extensions! https://docs.openclaw.ai/plugins/manage-plugins

译OpenClaw 2026.5.2 版本核心解决了通过 npm 安装时的依赖问题和速度缓慢现象。本次更新通过将大部分功能移至扩展插件,显著精简了主软件包。主要更新内容包括:集成 xAI Grok 4.3 模型,增强插件安装与更新的稳定性,优化 Gateway 和 agent 关键路径的性能。此外,还修复了 Discord、Slack、Telegram、WhatsApp 等通讯工具的集成问题,并对 TTS、实时功能、网络搜索及语音通话进行了优化打磨。此次发布旨在减少系统故障,提升整体稳定性和运行时间。

阿绎 AYi@AYi_AInotes · 5月2日55

卧槽这个开源金融Agent太狠了,直接帮你干完整份深度研报。 Dexter:开源的金融版 Claude Code, GitHub2万+ ⭐️,MIT 开源,TypeScript 支持 OpenAI / Claude / Gemini / Grok / Ollama 真正能干活的金融研究AI, 不是只会瞎编数据的聊天机器人, 它会自主规划、执行、自我验证 帮你做的事: → 自动拆解"这只股票被低估了吗"这类复杂问题 → 调实时数据(10,000+ 只股票) → 发现结论有问题,自己重来 → 通常 10-20 秒给出结果 你扔给它一个复杂问题,比如对比苹果和微软过去三年自由现金流,评估哪家估值更合理。 它会自动拆解成结构化研究步骤,调用实时财报数据, 自己验证每一个数字的准确性, 最后给你一份有数据支撑的完整分析。 多Agent架构也很香,规划执行验证合成全部分开,从根源上解决了金融领域最致命的幻觉问题。 最绝的是支持WhatsApp网关,扫码登录就能直接在手机上用,不用开电脑。 所有做投资的人都应该去试一下,这才是AI真正能帮你赚钱的地方。 #Dexter #AI金融 #开源Agent #投资工具 #大模型

译Dexter是一款开源金融AI助手,能像Claude Code一样自主处理复杂金融研究。它将“股票是否被低估”等问题自动拆解为步骤,调用超万只股票实时数据,并在发现问题时自我修正,通常10-20秒生成结果。其多Agent架构将规划、执行、验证与合成分离,从根源上缓解了大模型在金融领域的幻觉问题。该项目在GitHub获2万+星,MIT开源,支持多种大模型后端,并可通过WhatsApp网关在移动端便捷使用,为投资分析提供高效工具。

宝玉@dotey · 5月1日60

开源无国界

译一位开发了DeepSeek-TUI终端工具的美国开发者表示,希望与中国开发者社区建立联系,但受限于网络访问和微信验证。他请求社区帮助转发推广其开源项目,并协助完成微信验证,以便建立群组共同探讨DeepSeek、开源技术以及改进AI agent。作为回报,他承诺维护cargo install的简洁安装方式。开发者透露,其推文内容经由DeepSeek模型润色完成。

Peter Steinberger 🦞@steipete · 5月1日56

If you tried OpenClaw in group chats and got mixed results, you GOTTA try again. I changed how agents talk there, it IS SO GOOD NOW. https://docs.openclaw.ai/channels/groups#visible-replies And if you used GPT and got subpar performance, switch to codex harness. https://docs.openclaw.ai/plugins/codex-harness Enable both and boom.

译OpenClaw宣布其群聊功能已大幅改进,建议用户体验新版对话机制。若此前使用GPT效果不佳,推荐切换至codex harness插件。同时启用两项改进可显著提升性能。此次更新使群聊体验更原生,具体改进包括优化对话感受、增强上下文跟进承诺、提升安全执行与管控、新增NVIDIA供应商及模型目录,并加速启动与修复插件/通道问题。

Berryxia.AI@berryxia · 5月1日65

Stripe 重磅推出 Link CLI! Agent 终于能安全花钱了:单次凭证 + 同步人工审批,Claude 买礼物都不怕乱花! 1. 一行命令让 Agent 创建一次性支付凭证 2. 每次消费你都收到实时推送并用 FaceID 确认 3. 彻底解决 Agent 支付信任问题,安全又方便 4. Claude 已经实测:自己挑礼物上 Gumroad 下单,完美闭环 Agent 时代支付基础设施来了,开发者直接告诉你的 Agent 去用! 项目地址: https://github.com/stripe/link-cli

译Stripe 发布 Link CLI 工具,旨在为 AI Agent 提供安全的支付解决方案。该工具允许 Agent 通过命令行生成一次性支付凭证,每次消费时用户会收到实时推送,并需通过 FaceID 等方式进行同步人工批准,从而确保每笔交易都经过用户确认,有效解决了 Agent 自主支付的信任问题。Claude 已成功使用该工具在 Gumroad 上自主购买礼物,完成了支付闭环。Link CLI 为 Agent 时代的应用提供了关键的支付基础设施,开发者可便捷集成,让 Agent 在受控前提下安全执行交易任务。

宝玉@dotey · 5月1日59

试用下来 CodexPotter 不错,推荐下。它不是基于 Codex 插件机制,它本身是一个 cli,然后会后台启动 codex cli,把指令传给 codex,同步显示 codex cli 结果。 CodexPotter 先把想要的结果写进一个 MAIN.md 文件,然后工具在后台不停地启动新的 Codex 会话,每一轮都用全新、干净的上下文,对照 MAIN.md 检查代码、修正、再检查、再修正,直到结果跟你写的一致才停。 默认最多是 6 轮,但是你可以通过配置修改数字。 使用上需要注意,CodexPotter 适合目标明确的任务,比如“按照这个设计文档实现订阅系统”,不适合需要来回讨论的交互式开发。它是个任务执行器,不是聊天伙伴。 顺便说一下:Ralph 这个名字的来源是《辛普森一家》那个爱重复同一句话的小孩 Ralph Wiggum pattern。 https://github.com/breezewish/CodexPotter

译CodexPotter 是一个命令行工具,通过后台启动 Codex CLI 并采用“Ralph Loop”机制执行任务。它先将用户目标写入 MAIN.md 文件,随后在全新上下文中反复启动 Codex 会话,对照该文件检查并修正代码,直至输出与目标一致,默认最多进行 6 轮迭代。该工具适用于目标明确的任务(如按文档实现功能),而非交互式讨论。其名称灵感来源于《辛普森一家》中爱重复说话的 Ralph Wiggum。作者推荐此工具,以回应寻找类似 Claude Code 中 Ralph 插件的需求,并指出其不会像某些插件那样修改用户配置。

向阳乔木@vista8 · 4月30日69

姚老师又开始掏箱底了,哈哈哈。

译姚老师开源了一个名为“教程Skill”的AI工具。该工具允许用户输入任意主题和参考资料,AI会以参考资料为核心,自动补充高质量素材并过滤低质量信源,最终生成系统性的深度定制教程。教程内容按章节组织,AI能根据内容特点自行画图并插入相应模块。工具融合了《课程营销学》的底层方法论,并借鉴了kami的排版设计,最终可输出PDF、Word和HTML三种格式的文档,方便学习使用。项目已发布在GitHub上。

Peter Steinberger 🦞@steipete · 4月30日58

Integrated codex review into clawsweeper. I'm using a very similar system prompt so this gets you the same as /review, and clawsweeper has automerge, loops until it stops finding new issues. https://github.com/openclaw/clawsweeper

译已将代码审查集成到 clawsweeper 中。 我使用了非常相似的系统提示,因此这能提供与 /review 相同的效果,而且 clawsweeper 具备自动合并功能,会循环运行直至不再发现新问题。https://github.com/openclaw/clawsweeper

向阳乔木@vista8 · 4月29日71

http://x.com/i/article/2049481992996323328 # OpenAI开源Symphony:给每一个任务配一个永不下班的 AI员工 OpenAI 最近开源了一个叫 Symphony 的项目。 > https://github.com/openai/symphony 感觉是给AI Agent用的任务管理系统,OpenAI 内部与Linear整合,大大提升了人管理Agent的能力,目前已经有1.8w Star。 好像跟一个X友做的产品很像?让AI翻译介绍下: ## 从一个激进的实验说起 六个月前,OpenAI 内部一个团队做了个当时看起来很激进的决定:仓库里不允许有任何人类写的代码。 每一行,都必须由 Codex 生成。 > Codex 是 OpenAI 的 AI 编程助手,可以理解需求、读懂代码库、自主完成编程任务。 他们重新设计了整个工程流程,大量投入自动化测试和防护机制,把 Codex 当成真正的团队成员。 他们把这套方法叫做"harness engineering"(脚手架工程),并专门写了一篇博客记录这段历程。 结果确实跑通了。 但随即撞上了下一个瓶颈:上下文切换。 ## 真正的瓶颈是人的注意力 每个工程师同时开几个 Codex 会话,分配任务,审查输出,调整方向,循环往复。 实际操作下来,大多数人同时管理三到五个会话还算舒适,超过这个数字,效率就开始下降。 忘了哪个会话在做什么,在几个终端之间来回跳,调试卡在一半的长任务…… AI 跑得很快,但系统的瓶颈是人的注意力。 他们意识到,自己其实是雇了一批极其能干的初级工程师,然后让人类工程师去微观管理他们。 这显然没法规模化。 ## 换一个视角 问题出在思路上。 他们一直在优化"编程会话"和"合并 PR",但这些只是手段。 > PR(Pull Request):工程师完成一段代码后,向主代码库提交合并请求,等待审查和合入。 软件开发真正围绕的是可交付物:issues(问题单)、任务、里程碑。 所以他们问了自己一个问题:如果不直接监督 AI,而是让 AI 自己从任务追踪系统里拉取工作,会怎样? 这个想法变成了 Symphony。 ## Symphony 是什么 一句话:把项目管理看板变成 AI 编码代理的控制中枢。 他们用的是 Linear,一款工程团队常用的任务管理工具。 每一个打开的任务,都会自动分配一个 AI 代理。 代理持续运行,直到任务完成。人类只需要审查结果。 具体来说,每个 Linear issue 对应一个独立的Agent工作空间。 Symphony 持续监视任务看板,确保每个活跃任务都有Agent在跑。 Agent崩溃了,自动重启;有新任务进来,自动接手。 整个工作流用 Linear 的状态来驱动,像一台状态机: > Todo(待办)→ In Progress(进行中)→ Human Review(人工审查)→ Done(完成) AI 代理在这些状态之间流转,人类在"Human Review"节点介入。 ## 几个让人印象深刻的细节 任务粒度可以很大 不再局限于"改一个函数"这种小粒度。 可以让代理先分析整个代码库、Slack 记录或 Notion 文档,产出实现方案,再自动拆解成一棵任务树,按依赖关系并行执行。 他们用了一个词叫 DAG(有向无环图,Directed Acyclic Graph),本质就是一张"哪些任务依赖哪些任务"的执行顺序图,确保代理不会乱序执行。 比如他们做过一个真实案例:先完成从 Webpack 到 Vite 的迁移,再升级 React。 Agent自己识别了这个依赖关系,等 Vite 迁移完成后才开始升级 React,完全符合预期。 Agent会自己创建任务 在实现过程中,Agent如果发现了性能问题、重构机会或者更好的架构方案,会直接在 Linear 里开新 ticket,供人类评估和排期。 很多后续任务也会被代理接手执行。 从手机上也能工作 因为编排器跑在开发服务器(devbox)上,从不睡觉,有个工程师在信号很差的小屋里,用手机 Linear App 提了三个重要改动,Agent照样接手执行了。 数据很直接 部分团队在前三周,合并的 PR 数量增长了 500%。 Linear 创始人 Karri Saarinen 也公开提到,Symphony 发布后,Linear 上新建工作区的数量出现了明显峰值。 ## 它的核心是一个 Markdown 文件 这是 Symphony 最有意思的设计决策之一。 打开 Symphony 的代码仓库,会发现它本质上就是一个 SPEC.md,一份对问题和解决方案的定义文档,而不是一个复杂的监控系统。 他们定义好问题,给出高层次的指引,然后把这份规范扔给 Codex,让 Codex 来实现它。 参考实现选了 Elixir,一门相对小众的编程语言,但在并发(同时处理大量任务)和进程监督方面有非常好的原语(基础构建块)。 选它的理由也很直接:当代码成本趋近于零,终于可以为了语言的优势本身来选语言,而不是为了招人方便。 Codex 一次性就把 Elixir 实现写出来了。 为了打磨规范本身,他们又让 Codex 用 TypeScript、Go、Rust、Java、Python 各实现了一遍,用这些实现来发现规范里的歧义和可以简化的地方。 每种语言都成功了。 ## 工作流也被文档化了 这里有个值得单独说的转变。 以前,工程师们有一套隐性的工作流程:接到任务,切出分支,把任务标记为进行中,提 PR,移到 Review 状态,附上演示视频……这些步骤人人都懂,但从来没有被正式写下来。 现在,这套流程被写进了 WORKFLOW.md,Symphony 确保 AI 代理遵循它。 以前是人类遵循隐性规范,现在是把规范显式化,让 AI 来遵循。 这个文件还有一个重要特性:热重载。 修改 WORKFLOW.md 后,Symphony 会自动检测变化,无需重启,直接把新配置应用到后续任务上。 如果以后想让代理在完成工作后附上自我反思,只需要在 WORKFLOW.md 里加一行,Symphony 就会引导Agent执行这一步。 ## Symphony 的技术架构(不想看可以跳过) Symphony 的内部由几个核心组件构成,理解它们有助于明白整个系统为什么可靠: Orchestrator(编排器):整个系统的大脑,唯一有权修改调度状态的组件。 它负责轮询任务、决定哪些任务该启动、重试或停止,并追踪所有正在运行的代理状态。 Workspace Manager(工作空间管理器):每个任务都有自己独立的文件目录,Agent 只能在自己的目录里操作,不会互相干扰。这是一个重要的安全边界。 Agent Runner(执行器):负责启动 Codex 进程,把任务提示词传给它,然后把执行结果反馈给编排器。 Issue Tracker Client(任务追踪客户端):负责和 Linear 通信,拉取任务列表,同步状态变化。 整个系统的并发控制也很细致,可以设置全局最大并发代理数(默认 10 个),也可以针对特定状态的任务单独限制并发数。 重试机制用的是指数退避(exponential backoff):第一次失败等 10 秒,第二次等 20 秒,第三次等 40 秒,以此类推,最长不超过 5 分钟。 正常完成后的续跑检查只等 1 秒。 ## 一个重要的架构选择:App Server 模式 Symphony 使用了 Codex 的 App Server 模式,一种内置的无头(headless)运行模式。 > 无头(headless):没有图形界面,完全通过程序接口控制,适合自动化场景。 这种模式通过 JSON-RPC(一种轻量级的远程调用协议,用 JSON 格式传递指令和结果)以编程方式控制 Codex,比如启动一个对话线程、触发一个执行轮次、读取执行结果。 比通过 CLI 命令行或 tmux 会话操控 Codex 方便和可扩展得多。 另一个安全细节:为了避免把 Linear 的访问令牌(API token,相当于访问密码)直接暴露给Sub Agent,他们用动态工具调用(dynamic tool calls)的方式,封装了一个叫 linear_graphql 的函数。 代理可以通过这个函数对 Linear 执行任意查询,但永远接触不到原始 token。 ## 遇到的新问题 当然,这种工作方式也有代价,他们没有回避这一点。 从实时干预Agent,变成在任务层面分配工作,意味着失去了随时纠偏的能力。 有时候Agent会完全跑偏,产出的东西完全不对路。 但他们的应对方式很有意思:不是手动修补结果,而是补充防护机制和技能,让Agent下次能自己成功。 这倒逼他们持续完善系统,加入了端到端测试、通过 Chrome DevTools 驱动浏览器、管理 QA 冒烟测试等新能力,还大幅改善了文档质量。 还有一个认知上的转变:不能把Agent当成状态机里的僵硬节点。 早期版本只让 Codex 实现任务,这太局限了。 Codex 完全有能力同时管理多个 PR、读取 CI(持续集成,自动化测试和构建流程)日志、处理代码审查反馈。 > CI(Continuous Integration,持续集成):每次代码提交后自动运行测试,确保新代码不破坏已有功能。 所以他们最终的方向是:给Agent目标,而不是给它严格的状态转换规则。 就像一个好的管理者,给直接下属分配目标,而不是每一步都手把手指导。 给它工具,给它上下文,让它自己想办法。 不是所有任务都适合 Symphony 的工作方式。 涉及模糊问题或需要强判断力的工作,工程师还是会直接用交互式 Codex 会话。 实际上,这些往往也是工程师最感兴趣、最享受的任务。 ## 用 Symphony 来构建 Symphony 这个细节值得单独说一下。 Symphony 基本功能跑通之后,他们就开始用 Symphony 来开发 Symphony 本身。 当他们在内部演示这个系统,看到它自主管理任务、并附上功能演示视频作为工作证明时,反应非常热烈。Symphony 的内部项目频道迅速增长,各个团队开始自发使用它。 在 OpenAI,内部产品市场契合度(PMF)是对外发布的前提条件。 基于内部的使用情况,他们决定把 Symphony 分享给外部世界。 ## OpenAI 不打算把它做成产品 这个项目开源后,三周内获得了超过 15,000 个 GitHub Star。 社区已经有人做了各种移植版本: - 有人用 Go 语言加上 Charm CLI 的终端 UI 做了一个版本 - 有人把它改造成支持 Anthropic 的 Claude Code,并支持 GitHub Issues,还做成了 Homebrew 可以直接安装 - 有人用 Claude Code 重新实现了整套规范,取名 hatice 但 OpenAI 明确说了:不打算把 Symphony 作为独立产品来维护。 它是一个参考实现,一个演示 Codex App Server 能力的例子。 核心思路很简单: > 对每一个打开的任务,保证有一个Agent在它自己的工作空间里持续运行。 他们希望大家把自己喜欢的编码代理指向这份规范,构建适合自己环境的版本。 门槛其实出奇地低,直接把规范扔给 Codex,让它帮你实现一个就行。 ## 值得思考的地方 Symphony 解决的问题,表面上是"怎么让更多 AI 并行工作",但更深层的变化是:当代码的边际成本趋近于零,整个软件开发的经济学都变了。 每次改动的感知成本下降,意味着大家开始愿意做以前觉得"不值得"的事:试一个想法,探索一次重构,验证一个假设,不满意就扔掉。 参与工作的人也变了。 产品经理和设计师可以直接向 Symphony 提需求,不需要懂代码,不需要管理 AI 会话,描述功能,然后收到一个包含视频演示的审查包。 在大型 monorepo(单一代码仓库,把所有项目代码放在一个仓库里管理)里,Symphony 还承担了"最后一公里"的工作:监视 CI 状态,需要时自动 rebase(同步最新代码),解决冲突,重试不稳定的检查项,把改动一路护送进主分支,不需要人类盯着。 随着模型越来越强,能解决的问题越来越大,其他公司的瓶颈也会从"写代码"转向"管理 AI 工作"。 Symphony 提供的,是一种思路:不要管理Agent,管理任务就够了。 > 官方原文:https://openai.com/index/open-source-codex-orchestration-symphony/

译OpenAI开源项目Symphony旨在解决人类管理多个AI编码代理时的注意力瓶颈。其核心思路是将项目管理工具(如Linear)的任务看板作为控制中枢,为每个任务自动分配并运行一个独立的AI代理(基于Codex),直至完成。人类仅在“人工审查”节点介入,实现了从微观管理到任务级分配的转变。系统允许大粒度任务,代理能自主拆解依赖、创建新任务,并保证持续运行。初步数据显示,该方法能显著提升开发效率。

Qwen@Alibaba_Qwen · 4月29日66

🚀 Introducing FlashQLA: high-performance linear attention kernels built on TileLang. ⚡ 2–3× forward speedup. 2× backward speedup. 💻 Purpose-built for agentic AI on your personal devices. 💡Key insights: 1. Gate-driven automatic intra-card CP. 2. Hardware-friendly algebraic reformulation. 3. TileLang fused warp-specialized kernels. FlashQLA boosts SM utilization via automatic intra-device CP. The gains are especially pronounced for TP setups, small models, and long-context workloads. Instead of fusing the entire GDN flow into a single kernel, we split it into two kernels optimized for CP and backward efficiency. At large batch sizes this incurs extra memory I/O overhead vs. a fully fused approach, but it delivers better real-world performance on edge devices and long-context workloads. The backward pass was the hardest part: we built a 16-stage warp-specialized pipeline under extremely tight on-chip memory constraints, ultimately achieving 2×+ kernel-level speedups. We hope this is useful to the community!🫶🫶 Learn more: 📖 Blog: https://qwen.ai/blog?id=flashqla 💻 Code: https://github.com/QwenLM/FlashQLA

译FlashQLA是基于TileLang开发的高性能线性注意力内核,专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构,以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率,在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时,其将GDN流程拆分为两个内核的策略会带来额外内存开销,但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线,实现了超过2倍的内核级加速。

meng shao@shao__meng · 4月29日56

poolside 发布了 Laguna 系列两个模型:XS.2 和 M.1 在关注模型参数之外, @poolsideai 的页面设计风格也实在太吸引人了,我也是看到 @dingyi 大佬分享,看到了官方网站,设计质感实在是好,已经取代 Zed 成为我心里网站设计 Top1 用我开源的 Brand to DESIGN.md Skill,读取网站的设计风格,提炼成 DESIGN.md,再以它为基础输出复刻版 Demo,大家看看有几分相似。 「Brand to DESIGN.md Skill」开源项目在这: https://github.com/shaom/brand-to-design-md-skill 项目 Showcases/poolside 目录下,我也把 poolside 对应的 DESIGN.md 和 demo.html 放进来了。

译poolside公司发布了Laguna系列模型,包括其首个开源模型XS.2。该模型为33B总参数/3B激活参数的MoE架构,专为智能体编码和长程任务设计,完全内部训练,支持单GPU运行,并采用Apache 2.0许可。同时,推文作者高度赞赏poolside官网的设计风格,并利用其开源的“Brand to DESIGN.md Skill”工具,将网站设计提炼为DESIGN.md文档,进而复刻出设计Demo。相关设计文件与模型资源均已开源,供社区参考使用。

Rohan Paul@rohanpaul_ai · 4月29日59

GitHub is hitting a breaking point as AI coding agents flood the platform with far more commits, pull requests, searches, and CI jobs than its older infrastructure was built to handle. Mitchell Hashimoto, one of GitHub’s earliest users, is moving Ghostty, a project with 52 stars, after repeated outages turned everyday maintenance into blocked reviews, stuck merges, and failed automation. AI does not just generate more code. It generates more repository events, more pull requests, more tests, more builds, more retries, and more logs. That changes the load shape of a platform built for human pacing. A developer who once pushed a few careful changes can now push many AI-assisted iterations in the same span, and every iteration wakes up CI, indexing, storage, and review systems. The bottleneck is no longer writing code. It is absorbing code.

译AI编程代理的普及正使GitHub基础设施面临极限压力。这些工具不仅生成更多代码,更导致提交、拉取请求、搜索和CI任务等仓库事件数量激增,彻底改变了平台原本为人类节奏设计的工作负载形态。开发者现可在短时间内推送大量AI辅助的迭代,每次迭代都会触发CI、索引、存储和审查系统,使瓶颈从编写代码转向消化代码。这种过载已影响日常维护,导致评审阻塞、合并卡顿和自动化失败。作为例证,GitHub早期用户Mitchell Hashimoto因其项目Ghostty反复遭遇服务中断,最终决定将项目迁出他使用了18年的GitHub,这标志着一个时代的转变。

Peter Steinberger 🦞@steipete · 4月29日53

codex now runs on each commit we land, reviews it - and if a booboo is found, a new codex spins up and (if still relevant) makes a PR for the fix. Then a review agent spins up. If an issue is found, another agent will fix the issues. (up to 5 loops) https://github.com/openclaw/openclaw/pull/74065

译codex 现在在我们每次提交的代码上运行,并对其进行审查——如果发现错误,就会启动一个新的 codex 实例,并在(问题仍然存在的情况下)创建一个修复该问题的 PR。 随后会启动一个审查代理。如果发现问题,另一个代理将负责修复这些问题。(最多循环 5 次)https://github.com/openclaw/openclaw/pull/74065

阿绎 AYi@AYi_AInotes · 4月29日59

Damn,这可能是2026年最被低估的开发者生产力工具💻🤖! The harness is the bottleneck,喵个咪,同样的Claude,换个壳,内存省20倍,启动快245倍。 所以信息差不仅省钱,还省 token 啊,你如果觉得用Claude慢,其实不是Claude的问题,是这个harness的问题。 Claude Code单开一个会话吃掉230MB内存,启动一次要3.4秒,你说它慢,它也没法辩解,但换掉harness,同样的Claude,启动快245倍,10个并行会话总内存只用260MB。 这是一个叫jcode的开源项目做到的,作者1jehuang,Rust写的,GitHub repo就在那摆着,benchmark数据完整可查,没有任何营销成分。 有意思的是,它还支持一个叫Self-Dev的模式,代理可以直接改jcode自己的源码,编译,重载,用来迭代自己,这不是demo,作者每天都在把这套跑在生产上。 说白了就是,Anthropic把最好的模型卖给你,但没人说harness必须用他们的,开源社区的进化速度,从来不输大厂,只是他们不打广告。 当然风险是真实的,Anthropic明确禁止OAuth第三方接入,封号灰色地带,建议先拿API Key跑,不要用主号赌,但这个方向依然值得盯着。

译开源项目jcode通过替换Claude的默认调用框架,实现内存占用减少20倍、启动速度加快245倍的惊人提升,并支持AI代理自我迭代的“Self-Dev”模式。同时,蚂蚁发布的Ling-2.6-1T模型以“token效率”为核心,能将成本降至可比模型的四分之一,综合智能接近GPT-5.4非推理水平。这两者共同揭示AI行业竞争重点正从参数规模转向真实生产环境下的成本与效率。

歸藏(guizang.ai)@op7418 · 4月29日46

Ghostty 的负责人今天说他会离开 GitHub。 这哥们在 GitHub 有 5 万多的粉丝,每天都有提交,是重度的 GitHub 使用者。 他的意思是,GitHub 现在频繁的故障和不稳定的服务已经严重影响了开发工作,导致他觉得这里不再适合进行严肃工作。 因此,他会把所有的重度开发工作都迁移到自建的服务上,GitHub 之后只保留代码库。 目前主要影响的内容是: Actions、PR、Issues 等配套服务经常挂掉,导致他没办法进行代码评审和跑 CI 合并。 我感觉这是一个非常大的机会。 在 AI 时代,GitHub 事实上已经变成了所有 Vibe Coding 最重要的基建之一,但现在微软显然没有办法应付这套东西。 所以,如果哪个平台能够提供一个更适合 AI、更适合 AI Agent 的 Git 服务,可能会有很大的机会。

译Ghostty 负责人宣布将主要开发工作从 GitHub 迁移至自建服务,仅将其保留为代码库。作为拥有超 5 万粉丝的每日重度用户,他指出 GitHub 频繁的故障已严重影响开发,特别是 Actions、PR 和 Issues 等服务的不稳定阻碍了代码评审和 CI 流程。他认为,在 AI 时代 GitHub 已成为 Vibe Coding 的关键基础设施,但微软难以维持其可靠性。这揭示了一个市场机会:若能提供更稳定、且更适合 AI 及 AI Agent 的 Git 服务,将可能占据巨大优势。其推文引用也印证了长期用户因服务问题被迫离开的无奈与趋势。

Berryxia.AI@berryxia · 4月29日65

🚀 OpenBMB 重磅发布!MiniCPM-o 4.5 技术报告来了! 9B 参数多模态模型实现突破性实时交互: • Omni-Flow 框架:原生全双工流式交互(视频+音频+文本毫秒级同步) • Native Full-Duplex + Proactive Interaction(无需VAD,可主动提醒) • 多模态基准接近 Gemini 2.5 Flash(MMBench 87.6 / MathVista 80.1) • 极致 Edge AI:完全离线运行,一键安装 Windows / macOS(12G VRAM 即可) • 100% 本地隐私 + 免费社区 API 真正的实时、自然人机交互时代来了!🔥 技术报告、GitHub、HuggingFace、Web Demo 已开放。

译OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型,实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流,无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash,并专为边缘AI设计,支持完全离线运行,提供Windows/macOS一键安装(仅需12G显存),保障100%数据隐私,同时开源权重并提供免费社区API。

ginobefun@hongming731 · 4月27日49

#BestBlogs 早报 2026-04-27 今日主题: 软件功能不再是护城河,真正稀缺的是分发、组织方式和协作机制。Snapchat 的 Evan Spiegel 用十五年的复盘说明,新社交产品要么靠资本补贴要么靠平台规模,单点产品已经很难破局。Replit 的 Amjad Masad 把公司未来收敛为 Builders 和 Sales 两类角色,赌的是十亿开发者。GitHub Next 的 Maggie Appleton 则提醒我们,AI 让实现窗口塌陷之后,团队对齐才是真正的瓶颈。

译软件功能已非核心壁垒,稀缺资源转向分发能力、组织模式与协作机制。Snapchat创始人指出,新社交产品需依赖资本或平台规模破局;Replit将未来押注于Builders与Sales两类角色,瞄准十亿开发者市场;GitHub Next强调,AI大幅缩短产品实现周期后,团队目标对齐与协作效率已成为关键瓶颈。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月11日
10:48
歸藏(guizang.ai)@op7418
精选78
开源PPT工具"鬼藏PPT技能"迎重大更新,新增瑞士风格与AI配图功能

开源项目“鬼藏PPT技能”迎来重大更新,新增瑞士国际主义视觉风格,提供克莱因蓝等四套主题色。核心升级包括:通过接入GPT-Image 2.0,可根据PPT内容与风格自动生成胶片质感配图、流程图及UI截图美化;支持基于同一内容一键生成公众号、小红书、视频号等多种规格的封面图。更新旨在解决用户对多风格、自动配图及跨平台适配的需求,并通过预设22种版式和严格的视觉规则,确保设计的一致性与专业性。

智能体GitHub产品更新图像生成

推荐理由:藏师傅把做PPT的整条链闭环了,从大纲、配图到多平台封面一个对话走完。瑞士风的设计纪律直接写进skill,做出来的PPT终于甩掉AI模板味。
09:33
meng shao@shao__meng
67
这个为 iOS App 创建用户 Onboarding Video 的 Skill 很有启发

一款开源Skill“Create Onboarding Video”利用AI(通过Remotion)为iOS App生成高质量的用户引导视频。它强制遵循一套“反AI油腻感”的硬性规则,以制作出具有“App Store预览”级质感的片段。核心规则包括:视频需聚焦于证明功能在工作的特定UI组件,而非展示完整屏幕;字幕需有固定的位置、大小和入场动画;光标交互必须真实自然,禁止瞬移。该Skill定义了从素材采集、分镜规划到编码实现的四步工作流,强调“展示而非叙述”,旨在快速引导用户达成“aha moment”。

ROFI: http://x.com/i/article/2053059568121282560

智能体GitHub开源/仓库教程/实践
04:07
Sam Altman@sama
精选77
用户指示AI模型Codex去赚取5美元,Codex自主完成了一系列任务:寻找开源安全审计赏金项目,提交有效的拉取请求,与维护者沟通,并处理了GitHub验证流程,最终使工作被合并。经过约22小时的工作,用户获得了16.88美元的首笔付款。按此推算,若每日重复,月收入可达506.40美元。这初步实现了Sam Altman关于AI能主动为人赚钱的愿景,虽然金额尚小,但标志着一个令人兴奋的开端。

Chris: Codex made me money without me doing anything.. Huge turning point for me today, I asked Codex to go off and make me $5....

智能体GitHubOpenAI安全/对齐

推荐理由:一个普通用户让 Codex 独立完成安全审计并赚到真金白银,是 agent 走向「替你赚钱」的第一个可信证据,Sam 只回了 interesting,比十万字 PR 都重。
5月10日
18:29
Peter Steinberger 🦞@steipete
46
作为质量保证自动化工作的一部分,我们现在已为OpenClaw的问题提供视频验证生成功能。 Codex 【或GH工作流】 生成前后对比记录(屏幕录制由crabbox完成)。 特别感谢@obviyus实现了真实的Telegram登录自动化! https://github.com/openclaw/openclaw/pull/76999#issuecomment-4415012577
GitHub开源/仓库编码
18:29
Peter Steinberger 🦞@steipete
31
我们应该为它完成时设立一个预测市场。 https://github.com/openclaw/openclaw/pull/78595
GitHub开源/仓库编码
14:59
Orange AI@oran_ge
60
反蒸馏工具:对抗AI技能提取,保护个人核心知识

为应对公司要求将工作经验提炼为AI可执行技能(即“技能蒸馏”)的做法,有开发者提出了“反蒸馏”工具。用户可将写好的技能文件输入,工具会生成一份表面完整但核心知识已被抽离的“清洗版”用于提交,同时私密备份被移除的关键经验与知识,以保护个人真正的职业资产。例如,将具体技术实践“Redis key必须设TTL”泛化为“缓存使用遵循团队规范”。该项目旨在帮助从业者在AI时代维护自身知识价值。

GitHub开源/仓库教程/实践
00:32
阿绎 AYi@AYi_AInotes
72
手机扫描与AI Agent技术颠覆房地产与专业领域

一项名为“3D高斯泼溅”的技术,允许用户仅用手机扫描整栋房屋,即可生成可在浏览器中直接浏览的沉浸式3D模型。其成本极低、文件小巧,为房产等行业带来新机会。同时,AI在垂直专业领域正通过Agent范式取得突破。例如Tianfu Agent在专业命理大赛中接近人类顶尖水平,其通过构建专用工具集而非依赖通用模型硬记规则的方法,为法律、中医等规则密集型领域的AI化提供了可迁移的新路径。

阿绎 AYi: 卧槽,说个颠覆我认知的事, 现在AI 把算命这件事,已经干到了全球大赛接近人类顶尖的水平,直接把通用大模型都甩开了一大截! 说实话,我一开始看到这个消息, 第一反应是又来个蹭玄学流量的 AI 噱头, 直到翻完它的完整技术报告和大赛数据, 才...

智能体GitHub开源/仓库教程/实践
5月9日
11:29
阿绎 AYi@AYi_AInotes
68
一款名为Tianfu Agent的AI产品在全球算命师大赛中取得50%的截尾均值准确率,接近人类顶尖选手的53.5%,显著优于通用大模型。其核心在于采用工程化思路,构建了200多个专用原子工具处理精准计算,并将各流派技法封装为可调用函数,避免了长链推理中的信息丢失与幻觉问题。这套Agent范式为法律、中医等规则密集型垂直领域的AI化提供了高效、可控且可迁移的新解决方案。产品已开源评测基准并提供试用。

阿绎 AYi: 卧槽,说个颠覆我认知的事, 现在AI 把算命这件事,已经干到了全球大赛接近人类顶尖的水平,直接把通用大模型都甩开了一大截! 说实话,我一开始看到这个消息, 第一反应是又来个蹭玄学流量的 AI 噱头, 直到翻完它的完整技术报告和大赛数据, 才...

DeepSeekGitHub教程/实践
5月8日
05:35
Orange AI@oran_ge
74
开源AI Agent网盘NeuDrive,支持主流工具与自动同步

开发者开源了一款专为AI Agent设计的网盘NeuDrive,能够自动同步Agent的记忆、技能和文件。该工具支持Claude Code、Codex、Cursor等主流开发工具以及多种网页应用。项目已在GitHub开源,同时提供了可直接使用的部署版本。免费版已能满足绝大多数使用场景,付费版在付款时输入优惠码“vivo50”可兑换三个月免费使用权。

智能体GitHubMCP/工具产品更新
00:13
向阳乔木@vista8
70
想让AI设计公众号排版CSS,可直接跟Agent说,参考Design md设计: https://github.com/VoltAgent/awesome-design-md/tree/main/design-md 一下能设计了70多个知名网站风格,选几个喜欢优化。
GitHub开源生态教程/实践
00:06
凡人小北@frxiaobei
精选81
作者宣布,将新书《AI营销:从SEO到GEO》中配套的25个AI营销与GEO相关提示词开源至GitHub。此次更新还补充了部分短视频和文案相关的提示词,所有资源已在指定仓库公开,供用户下载使用或重新拉取。

姚金刚: 和 @vista8 讨论了下,决定将我们的新书《AI营销:从SEO到GEO》里配套的25个AI营销与GEO相关的提示词,也开源到GitHub 另外补充了部分短视频和文案相关的提示词,欢迎下载使用或重新拉取 1、提示词合集地址: https:...

GitHub开源/仓库搜索

推荐理由:不是又一个提示词合集,而是把《AI营销》书里的实操技巧拆成了现成指令,短视频和GEO部分尤其解渴,做内容营销的建议直接fork。
5月7日
22:04
Orange AI@oran_ge
精选75
ColaMD 1.5版实现Markdown内容与HTML模板分离

作者为解决制作演示文稿时修改不便的问题,受“Markdown as Database”理念启发,在ColaMD 1.5版本中实现了一种内容与视图分离的方案。该方案将.md文件作为内容层,HTML作为可更换的视图模板层,用户只需修改Markdown内容,即可生成不同形态的最终呈现,如幻灯片、博客等。此功能已内置,并支持通过开源方式由社区或AI扩展更多模板。

GitHub开源生态教程/实践

推荐理由:藏师傅的 Markdown as Database 搭上 HTML 模板,改 PPT 像改文档一样简单,ColaMD 直接给了现成模板,如果你常做分享,这个思路能省一半排版时间。
10:12
向阳乔木@vista8
精选76
Open Slide:让 AI 来写你的 PPT 代码

开源项目 Open Slide 基于 React 框架构建 PPT,其工作流专为 AI Agent 设计。它利用丰富的 React 组件库实现更强扩展性,便于集成各类图表。核心功能包括可视化编辑器支持手动修改,以及 AI 能直接读取用户评论并协同修改内容。项目还集成了包含 1500+ 品牌 Logo 的 SVGL 库,方便技术演示,旨在提升 PPT 制作的效率与自动化程度。

智能体GitHub开源/仓库

推荐理由:用 React 写 PPT 的思路很妙,加上 1500+ 品牌 Logo 库,AI 生成演示文稿终于不是一坨屎了。做技术的可以 clone 下来跑跑看。
09:38
swyx 🌉@swyx
31
openclaw + cline velocity 被低估了

pash: @swyx @vincent_koc https://github.com/openclaw/openclaw/pull/78234 fixed here - problem was you had guardian mode set in...

智能体GitHub大佬观点开源生态
02:01
Chubby♨️@kimmonismus
精选76
OrcaRouter-Lite 现已开源,这是一个采用MIT许可、可自托管的大型语言模型路由工具。它支持用户自带密钥,无需外部数据库,并能对接OpenAI、Anthropic、Google、Groq等多种服务提供商。其核心创新是model="auto"模式,可自动为每次请求选择成本最低且能力匹配的模型,并具备跨提供商的确定性提示缓存功能,使得重复的相同请求能在毫秒内以零成本返回。该项目旨在解决开发团队手动编写复杂模型选择逻辑的痛点,通过简单的Docker部署即可实现路由功能,托管版本将于本周稍晚推出。

OrcaRouter: Every product team has a 30-line file in their codebase called pick_model.py. Nine if/else branches. Three retry decorat...

GitHub开源/仓库开源生态部署/工程

推荐理由:每个 LLM 团队都在手搓那个叫 pick_model.py 的烂摊子,现在改个 base_url 就搞定了。BYOK 自托管零加价,设计干净到反常,值得所有做产品的开发者立刻尝试。
00:20
Berryxia.AI@berryxia
76
姚老师将其公开分享的提示词整理并开源至GitHub仓库。该合集包含约100个提示词,覆盖AI方法、工作、学习、生活、教育、内容、编程、营销和思考等九大类场景。其中特别推荐的是对用户帮助显著的元提示词,包括简易版和进阶版。作者表示后续将通过该仓库持续更新经过验证的有价值提示词。

姚金刚: 开源一套我的提示词合集 前几天,收到一位微信好友反馈,说使用了我不少公开的提示词,效果很不错 这一年来,公开分享了不少提示词,一直沉淀在飞书文档 为了方便大家更好的下载和迭代,今天抽空,把公开的提示词整理了下,通过GitHub开源给大家 目...

GitHub开源生态教程/实践
5月6日
00:57
宝玉@dotey
精选77
开源幻灯片框架open-slide支持AI智能生成

open-slide 这个开源的 Slides 项目不错,可以通过 Agent + Skills 制作 Slides,然后还有一个 Web 程序可以编辑生成好的 Slides。 并且可以支持动画,以及网页直接播放 slides。 期待完善: - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide

Yiwei Ho: Introducing open-slide - The slide framework built for agents. Prompt your agent, get a polished deck. $ npx @open-slide...

智能体GitHub开源/仓库

推荐理由:让 agent 直接生成可编辑的 slides,npx 一行命令就能跑,还支持动画和网页播放,是产品人和开发者的提效刚需小工具,宝玉推荐的质量一般不差。
5月5日
16:56
Peter Steinberger 🦞@steipete
74
🤖 我的多个智能体一直遇到 @github 的速率限制问题。现已发布两项更新: - RepoBar 新增了 JUICE METER 功能 - gitcrawl 现已可作为即插即用的 gh 缓存 → 将其符号链接为 gh,即可从本地 SQLite 读取数据 https://gitcrawl.sh/ https://repobar.app/
智能体GitHub开源/仓库编码
10:14
阿绎 AYi@AYi_AInotes
精选74
分享一个免费下载任何 YouTube 视频的GitHub开源项目,非常实用🔥

开源项目Voice-Pro将多语言视频创作流程大幅简化。用户输入YouTube链接后,该工具可在本地自动完成视频下载、人声分离、语音转文字、翻译、声线克隆及配音合成,全程不到两分钟。它将原本需要多个付费工具协作的复杂流程,整合为一个免费、本地化的高效解决方案,显著提升了创作者的工作效率。

GitHub开源/仓库视频语音

推荐理由:一个开源工具把 yt-dlp + Whisper + 翻译 + 声线克隆六步压缩成一条本地流水线,之前每月烧几百刀订阅费的事现在免费跑在自己机器上,做多语言视频的人可以直接换掉整套工具链。
5月4日
16:53
OpenClaw🦞@openclaw
精选72
OpenClaw 2026.5.3 🦞 📁 配对节点间的文件传输 🧭 使用 /steer + /side 进行实时智能体控制 🔌 插件安装/更新已加固 🛠️ 频道与升级修复 重大发布,减少琐碎问题。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.3
智能体GitHub产品更新开源生态

推荐理由:OpenClaw 这个版本把 agent 协同和实时控制做得更顺手了,如果你在用多节点 agent,这个升级能省不少调试功夫。
09:13
Berryxia.AI@berryxia
60
AI agent专属幻灯片框架open-slide发布

open-slide是一款专为AI agent设计的幻灯片框架,能将自然语言提示直接转化为精美的完整演示文稿。其核心在于将每页幻灯片构建为React组件,并在固定画布上工作,而非简单生成Markdown。框架内置多项agent技能:通过/create-slide指令一句话生成整套幻灯片;支持在浏览器中对元素添加评论,并由agent通过/apply-comments一键应用所有修改;同时集成演示模式、演讲者笔记和定时器,并可一键导出HTML或PDF。它兼容Claude Code、Cursor等多种编码agent,其意义在于将AI agent的能力从“生成文字”升级为“输出可直接呈现的最终成品”,填补了AI代理与真实生产应用之间的关键空白。

Yiwei Ho: Introducing open-slide - The slide framework built for agents. Prompt your agent, get a polished deck. $ npx @open-slide...

智能体GitHubMCP/工具开源/仓库
00:17
Greg Brockman@gdb
精选71
开发者发布了一款名为"codex-startup-pressure-test-skill"的Codex技能工具,旨在对初创公司想法进行严苛的压力测试。该工具能帮助创业者识别其创意的核心假设、暴露致命缺陷、验证问题真实性、分析真实竞争对手、规划首批10名客户,并定义一个可在两周内完成的MVP(最小可行产品)。用户可通过npm命令直接安装,该工具完全开源,相关代码库已公开。

Kappaemme: CODEX SKILL TO BRUTALLY TEST ANY STARTUP IDEA! Most startup ideas sound good. This Codex skill tells you why they probab...

智能体GitHubOpenAI开源/仓库

推荐理由:我觉得种子轮前用它榨干想法很值,Greg Brockman 转发的开源技能,输入创业想法就能自动找出核心假设和致命缺陷。
5月3日
19:18
meng shao@shao__meng
精选72
解决真正工程问题的Agent Skills集合

作者@mattpocockuk公开了其.claude/目录下的实用Agent Skills集合,旨在解决四大工程痛点:1) 通过/grill-me等技能在动工前对齐需求,修复沟通鸿沟;2) 维护CONTEXT.md与ADR建立共享语言,提升代码一致性;3) 利用/tdd和/diagnose建立快速测试与诊断反馈回路;4) 通过/to-prd、/zoom-out等技能对抗代码熵增,持续投资设计。这些技能分为工程、效率与工具三类,形成从需求对齐到代码落地的完整工作流。

智能体GitHub教程/实践编码

推荐理由:matt pocock 把自己 Claude Code 里实际用的 Skills 全开源了,专治 Agent 瞎编、啰嗦、跑不通和屎山,grill-me 反向拷问和共享语言这两招很开眼。
08:49
Peter Steinberger 🦞@steipete
45
OpenClaw 2026.5.2 版本核心解决了通过 npm 安装时的依赖问题和速度缓慢现象。本次更新通过将大部分功能移至扩展插件,显著精简了主软件包。主要更新内容包括:集成 xAI Grok 4.3 模型,增强插件安装与更新的稳定性,优化 Gateway 和 agent 关键路径的性能。此外,还修复了 Discord、Slack、Telegram、WhatsApp 等通讯工具的集成问题,并对 TTS、实时功能、网络搜索及语音通话进行了优化打磨。此次发布旨在减少系统故障,提升整体稳定性和运行时间。

OpenClaw🦞: OpenClaw 2026.5.2 🦞 🧠 xAI Grok 4.3 🔌 Plugin installs/updates are sturdier ⚡ Gateway + agent hot paths are leaner 💬 D...

智能体GitHubxAI产品更新
5月2日
17:11
阿绎 AYi@AYi_AInotes
55
开源金融AI助手Dexter:自动完成深度研报,10-20秒出结果

Dexter是一款开源金融AI助手,能像Claude Code一样自主处理复杂金融研究。它将“股票是否被低估”等问题自动拆解为步骤,调用超万只股票实时数据,并在发现问题时自我修正,通常10-20秒生成结果。其多Agent架构将规划、执行、验证与合成分离,从根源上缓解了大模型在金融领域的幻觉问题。该项目在GitHub获2万+星,MIT开源,支持多种大模型后端,并可通过WhatsApp网关在移动端便捷使用,为投资分析提供高效工具。

智能体GitHub开源/仓库
5月1日
12:16
宝玉@dotey
60
一位开发了DeepSeek-TUI终端工具的美国开发者表示,希望与中国开发者社区建立联系,但受限于网络访问和微信验证。他请求社区帮助转发推广其开源项目,并协助完成微信验证,以便建立群组共同探讨DeepSeek、开源技术以及改进AI agent。作为回报,他承诺维护cargo install的简洁安装方式。开发者透露,其推文内容经由DeepSeek模型润色完成。

Hunter Bown: 鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。 求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...

GitHub开源/仓库编码
07:15
Peter Steinberger 🦞@steipete
56
OpenClaw宣布其群聊功能已大幅改进,建议用户体验新版对话机制。若此前使用GPT效果不佳,推荐切换至codex harness插件。同时启用两项改进可显著提升性能。此次更新使群聊体验更原生,具体改进包括优化对话感受、增强上下文跟进承诺、提升安全执行与管控、新增NVIDIA供应商及模型目录,并加速启动与修复插件/通道问题。

OpenClaw🦞: OpenClaw 2026.4.29 🦞 💬 Group chats feel much better now 📌 Follow-up commitments from context 🔐 Safer exec, pairing, ...

智能体GitHub开源/仓库教程/实践
07:10
Berryxia.AI@berryxia
65
Stripe 重磅推出 Link CLI!

Stripe 发布 Link CLI 工具,旨在为 AI Agent 提供安全的支付解决方案。该工具允许 Agent 通过命令行生成一次性支付凭证,每次消费时用户会收到实时推送,并需通过 FaceID 等方式进行同步人工批准,从而确保每笔交易都经过用户确认,有效解决了 Agent 自主支付的信任问题。Claude 已成功使用该工具在 Gumroad 上自主购买礼物,完成了支付闭环。Link CLI 为 Agent 时代的应用提供了关键的支付基础设施,开发者可便捷集成,让 Agent 在受控前提下安全执行交易任务。

Patrick Collison: We just launched the @Link CLI: https://github.com/stripe/link-cli. Tell your friendly neighborhood agent about it -- ag...

智能体GitHub产品更新
01:14
宝玉@dotey
59
推荐命令行工具 CodexPotter:基于 Ralph Loop 机制执行明确任务

CodexPotter 是一个命令行工具,通过后台启动 Codex CLI 并采用“Ralph Loop”机制执行任务。它先将用户目标写入 MAIN.md 文件,随后在全新上下文中反复启动 Codex 会话,对照该文件检查并修正代码,直至输出与目标一致,默认最多进行 6 轮迭代。该工具适用于目标明确的任务(如按文档实现功能),而非交互式讨论。其名称灵感来源于《辛普森一家》中爱重复说话的 Ralph Wiggum。作者推荐此工具,以回应寻找类似 Claude Code 中 Ralph 插件的需求,并指出其不会像某些插件那样修改用户配置。

宝玉: 请问有没有好用的 Ralph Loop for Codex? 类似于 Claude Code 的 Ralph Wiggum Plugin https://github.com/anthropics/claude-code/blob/main...

GitHub开源/仓库编码
4月30日
15:39
向阳乔木@vista8
69
姚老师开源了一个名为"教程Skill"的AI工具。该工具允许用户输入任意主题和参考资料,AI会以参考资料为核心,自动补充高质量素材并过滤低质量信源,最终生成系统性的深度定制教程。教程内容按章节组织,AI能根据内容特点自行画图并插入相应模块。工具融合了《课程营销学》的底层方法论,并借鉴了kami的排版设计,最终可输出PDF、Word和HTML三种格式的文档,方便学习使用。项目已发布在GitHub上。

姚金刚: 开源一个教程Skill 打磨了十几版,效果还不错,已推到GitHub 如果想在五一假期高质量充电,或随时给自己生成一份定制高质量教程 欢迎下载 基本逻辑: 1、输入任意主题及参考资料,AI会优先以参考资料为核心,然后根据需要进行高质量素材和...

GitHub教程/实践
00:12
Peter Steinberger 🦞@steipete
58
已将代码审查集成到 clawsweeper 中。 我使用了非常相似的系统提示,因此这能提供与 /review 相同的效果,而且 clawsweeper 具备自动合并功能,会循环运行直至不再发现新问题。https://github.com/openclaw/clawsweeper
GitHub开源/仓库编码
4月29日
21:45
向阳乔木@vista8
精选71
OpenAI开源Symphony:为每个任务分配AI代理的项目管理系统

OpenAI开源项目Symphony旨在解决人类管理多个AI编码代理时的注意力瓶颈。其核心思路是将项目管理工具(如Linear)的任务看板作为控制中枢,为每个任务自动分配并运行一个独立的AI代理(基于Codex),直至完成。人类仅在“人工审查”节点介入,实现了从微观管理到任务级分配的转变。系统允许大粒度任务,代理能自主拆解依赖、创建新任务,并保证持续运行。初步数据显示,该方法能显著提升开发效率。

智能体GitHubOpenAI开源生态

推荐理由:Symphony 把 AI 代理管理从盯着终端变成了管理看板,对每个任务自动分配代理,这个思路会让所有用 AI 编程的团队重新思考工作流程,做工程落地的建议都看看。
20:33
Qwen@Alibaba_Qwen
精选66
闪速QLA:基于TileLang构建的高性能线性注意力内核

FlashQLA是基于TileLang开发的高性能线性注意力内核,专为提升个人设备上智能体AI性能而设计。它实现了2-3倍的前向传播加速和2倍的反向传播加速。其核心技术包括门控驱动的片上自动计算与通信重叠、硬件友好的代数重构,以及TileLang融合的Warp专用内核。该设计通过自动片上通信重叠显著提升了流处理器利用率,在张量并行、小模型和长上下文任务中效果突出。尽管在大批量处理时,其将GDN流程拆分为两个内核的策略会带来额外内存开销,但在边缘设备和长上下文实际场景中性能更优。反向传播部分通过构建16级、严格片上内存限制下的Warp专用流水线,实现了超过2倍的内核级加速。

GitHub开源/仓库推理端侧

推荐理由:Qwen 把线性注意力的推理效率压到了新台阶,2-3 倍加速对想做本地 Agent 的开发者是实打实的,不是论文灌水,是能跑在设备上的代码。
18:42
meng shao@shao__meng
56
poolside发布Laguna系列模型并获赞官网设计,开源工具助力风格复刻

poolside公司发布了Laguna系列模型,包括其首个开源模型XS.2。该模型为33B总参数/3B激活参数的MoE架构,专为智能体编码和长程任务设计,完全内部训练,支持单GPU运行,并采用Apache 2.0许可。同时,推文作者高度赞赏poolside官网的设计风格,并利用其开源的“Brand to DESIGN.md Skill”工具,将网站设计提炼为DESIGN.md文档,进而复刻出设计Demo。相关设计文件与模型资源均已开源,供社区参考使用。

poolside: Today we're releasing Laguna XS.2, Poolside's first open-weight model. It's a 33B total / 3B active MoE model built for ...

GitHub开源/仓库教程/实践
16:08
Rohan Paul@rohanpaul_ai
59
AI编程代理激增致GitHub基础设施承压,早期用户因服务中断迁出项目

AI编程代理的普及正使GitHub基础设施面临极限压力。这些工具不仅生成更多代码,更导致提交、拉取请求、搜索和CI任务等仓库事件数量激增,彻底改变了平台原本为人类节奏设计的工作负载形态。开发者现可在短时间内推送大量AI辅助的迭代,每次迭代都会触发CI、索引、存储和审查系统,使瓶颈从编写代码转向消化代码。这种过载已影响日常维护,导致评审阻塞、合并卡顿和自动化失败。作为例证,GitHub早期用户Mitchell Hashimoto因其项目Ghostty反复遭遇服务中断,最终决定将项目迁出他使用了18年的GitHub,这标志着一个时代的转变。

Mitchell Hashimoto: Ghostty is leaving GitHub. I'm GitHub user 1299, joined Feb 2008. I've visited GitHub almost every single day for over 1...

智能体GitHub开源生态现象/趋势
13:40
Peter Steinberger 🦞@steipete
53
codex 现在在我们每次提交的代码上运行,并对其进行审查--如果发现错误,就会启动一个新的 codex 实例,并在(问题仍然存在的情况下)创建一个修复该问题的 PR。 随后会启动一个审查代理。如果发现问题,另一个代理将负责修复这些问题。(最多循环 5 次)https://github.com/openclaw/openclaw/pull/74065
智能体GitHub教程/实践编码
13:35
阿绎 AYi@AYi_AInotes
59
Damn,这可能是2026年最被低估的开发者生产力工具💻🤖!

开源项目jcode通过替换Claude的默认调用框架,实现内存占用减少20倍、启动速度加快245倍的惊人提升,并支持AI代理自我迭代的“Self-Dev”模式。同时,蚂蚁发布的Ling-2.6-1T模型以“token效率”为核心,能将成本降至可比模型的四分之一,综合智能接近GPT-5.4非推理水平。这两者共同揭示AI行业竞争重点正从参数规模转向真实生产环境下的成本与效率。

阿绎 AYi: 说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太...

智能体AnthropicGitHub开源/仓库
11:37
歸藏(guizang.ai)@op7418
46
重度用户因服务不稳定而离开 GitHub,揭示 AI 时代 Git 服务新机遇

Ghostty 负责人宣布将主要开发工作从 GitHub 迁移至自建服务,仅将其保留为代码库。作为拥有超 5 万粉丝的每日重度用户,他指出 GitHub 频繁的故障已严重影响开发,特别是 Actions、PR 和 Issues 等服务的不稳定阻碍了代码评审和 CI 流程。他认为,在 AI 时代 GitHub 已成为 Vibe Coding 的关键基础设施,但微软难以维持其可靠性。这揭示了一个市场机会:若能提供更稳定、且更适合 AI 及 AI Agent 的 Git 服务,将可能占据巨大优势。其推文引用也印证了长期用户因服务问题被迫离开的无奈与趋势。

Mitchell Hashimoto: Ghostty is leaving GitHub. I'm GitHub user 1299, joined Feb 2008. I've visited GitHub almost every single day for over 1...

GitHub开源生态现象/趋势部署/工程
08:38
Berryxia.AI@berryxia
65
OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型,实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流,无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash,并专为边缘AI设计,支持完全离线运行,提供Windows/macOS一键安装(仅需12G显存),保障100%数据隐私,同时开源权重并提供免费社区API。

OpenBMB: 🚀 🚀Excited to announce the technical report of MiniCPM-o 4.5! MiniCPM-o 4.5 transitions #AI interaction from tradition...

GitHub多模态开源生态模型发布
4月27日
08:19
ginobefun@hongming731
49
软件功能壁垒消失,未来竞争聚焦分发、组织与协作

软件功能已非核心壁垒,稀缺资源转向分发能力、组织模式与协作机制。Snapchat创始人指出,新社交产品需依赖资本或平台规模破局;Replit将未来押注于Builders与Sales两类角色,瞄准十亿开发者市场;GitHub Next强调,AI大幅缩短产品实现周期后,团队目标对齐与协作效率已成为关键瓶颈。

GitHub开源生态现象/趋势
‹ 上一页
123456
下一页 ›