AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 526 条
全部一手资讯X论文
标签「开源/仓库」清除
StepFun@StepFun_ai · 5月29日68

Step 3.7 Flash is now live in @kilocode ! Open weights, ready to run. Appreciate the quick integration 🙏

译Step 3.7 Flash 现已在 @kilocode 上线! 开放权重,随时可运行。感谢快速集成 🙏

StepFun@StepFun_ai · 5月29日72

Excited to see Step 3.7 Flash available on @ModelScope2022 🚀 Can’t wait to see what builders create with it!

译阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构,每个 token 激活 11B 参数,推理速度最高达 400 tok/s,支持 256K 上下文窗口,并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一(67.1分),在 SWE-bench Pro 上排名第二(56.3分)。模型具备原生多模态能力,由语言骨干与视觉编码器组成,原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源,并兼容 vLLM 等多种推理框架。

Rohan Paul@rohanpaul_ai · 5月29日4

We all need this claw in the OpenClaw era.

译在OpenClaw时代,我们都需要这只机械爪。

Peter Steinberger 🦞@steipete · 5月29日65

Part of the work was rebuilding leaner and faster dependencies: - http://proxyline.dev - proxy layer - http://fs-safe.io - filesystem safety - http://rastermill.com - Image engine in WASM - http://libopus-wasm.dev - Opus in WASM - http://clawpdf.dev - PDF in WASM

译OpenClaw 通过重构更轻量、更快的依赖库(如 proxyline.dev、fs-safe.io 等)进行优化。根据官方数据,优化后冷启动速度快了 2.9 倍,热启动速度快了 2.5 倍,安装包体积减少了 59%,依赖项数量相比月度高点下降了 42%。核心理念是构建一个更小的核心、明确的依赖关系,并将可选功能以插件形式提供。

歸藏(guizang.ai)@op7418 · 5月28日83

http://x.com/i/article/2059811469081141248 # 开源个 Skill|彻底解决小红、小绿书配图难题 前段时间开源了 guizang-ppt-skill,之后我自己用它做内容的时候发现一件事。 用它出的网页,单张截下来发到图文平台,反响和数据比我手工排版还很多。 我相信你之前也找到过一些这种生成3:4 卡片图的提示词或者 Skill。 他们几乎都是一个味道:Tailwind + 大色块 + emoji 堆砌 + 中规中矩的字号层级。 看完之后,我大致能理解为什么 AI 出的图文卡片那么容易被一眼识破,它们做的是网页,不是杂志。 图文卡片对比 PPT 完全是另一种生物:竖屏、信息流里 1 秒钟决定停不停下、靠图说话而不是靠字。 版式不同、节奏不同、读者不同。 于是我把它从 PPT Skill 里拆了出来,单独做成了 guizang-social-card-skill (https://github.com/op7418/guizang-social-card-skill)。 下面讲讲它好在哪、我为什么愿意在它身上花这么多时间。 ## 二、到底好在哪里 3:4 竖图是图文卡片的主战场。这个 Skill 的绝大部分设计精力都在 3:4 上,字号层级、版式比例、断行规则。 全部按 3:4 在手机信息流里被滑过的真实场景校准过。21:9 和 1:1 公众号头图也都支持。 下面从图文创作者最关心的事开始讲。 2.1 它分得清你在写什么,然后用对的方式去配 图文平台上的内容是分门类的。一篇影评和一篇产品测评,需要的视觉语言完全不一样; 一篇旅行散记和一篇职场干货,该用的版式也不是同一回事。 但绝大多数 AI 工具不管这件事,你写什么内容它都用同一套模板套出来。 结果就是所有人发的卡片都长得像一个公众号的封面流水线。 这个 Skill 内置了 11 个常见图文品类的适配规则: - 旅行 / 生活方式:杂志风为主,暖色板,大图压全屏,衬线大标题; - 职场 / 干货 / 商业洞察:网格风为主,深色背景,数据大字报版式; - 影视 / 文化:偏冷色调的杂志风,电影海报式版式,人物特写优先; - 产品测评 / 数码:网格风,对比矩阵,设备框美化截图; - 读书 / 笔记:杂志风,衬线字体,引文居中版式,留白拉满; - 美食 / 探店:高饱和杂志风,俯拍图优先,文字向四角让位; 我甚至专门为旅行博主做了地图组件。你可以把店的位置和旅行路线都标注在上面,AI 会自动帮你生成标注。 同一段文字喂给它,你说这是影评,它给你电影海报式的卡片; 你说这是产品测评,它给你带设备框的对比图。 更重要的是,它有明确不接的活: - 追星粉丝向,需要的视觉语言完全是另一脉; - 纯促销硬广,违背它强调内容性的设计哲学; - 超过 12 屏的长教程,图文形态不是长教程的最优载体。 碰到这些场景,Skill 会在开头就告诉你"你可能想用别的工具"。 这是我故意留的。能力边界比能力本身更能定义一个产品,一个什么都能做的 Skill 最后通常什么都做不好。 2.2 文字怎么压在图上 文字压图是图文卡片里最难的一件事,也是最容易暴露"AI 感"的地方。 压不好就会出现三种翻车: 1. 文字盖在人脸或产品中心位置上 1. 白字压浅色背景或黑字压深色背景读不清 1. 文字横跨整张图把本来好看的构图毁掉。 Skill 处理这件事用了三步: 1. 识别图里的主体:人脸、产品、文字密集区,版式上自动避开; 1. 算落点区域的色和明度:决定字色、要不要加蒙版、阴影该多深; 1. 字号和断行自适应:根据落点区域大小动态调整字号和换行位置,而不是写死字号让它溢出。 这套规则跑下来,卡片的"高级感"基本就立住了。读者看不出"被压上去的字"和"图本来就在那里的字"的区别。 2.3 图片从哪来:这是和市面上 AI 卡片工具最大的差别 绝大多数 AI 生成图文卡片的工具,要么让你自己上传图,要么用 emoji 顶替,要么生成一些一眼 AI 的插画。 结果就是手工补图很累,或者堆 emoji 显得很假。 这个 Skill 默认接入了三个免费可商用图库: - Pexels,支持中文搜索,大众化场景够用; - Unsplash,摄影质感最强,人物、生活、空间类内容首选; - Wallhaven,游戏、摄影、壁纸之类的图都在这里,版权混乱。 它会根据正文段落的语义自动派发搜索词、拿回图、按版式裁切到位、避开人脸或主体被切掉。 你拿到的是一张配了真实摄影图的卡片,而不是一张色块卡片。 而且它也不会死板地去寻找绝对没有版权问题的图。 能拿到的图都会告诉你,由你自己来判断要不要放版权不明确的图片。 另外,现在各个平台对 AI 带水印的问题管得很严。 目前你用的大部分 AI 生图都会有水印,而有水印就会被平台标注,一旦被标注就容易被限流,这是大家非常困扰的一个问题。 2.4 截图也是图:四件套美化 我们的很多内容用不了摄影图,得是软件截图、聊天记录、产品界面。 Skill 内置了一套截图美化: 加 macOS / iOS 风格的设备外框(browser chrome 或手机边框),用不同材质的背景托住截图,格纸、点阵、暖白或深色,让截图不再白底飘在白底上; 同时根据视觉风格自动匹配阴影层次和圆角参数,两套风格各有一套截图配方,前后一致不用手动调。 简单一句,你随手截的图,过它一道,看上去就像产品官方做的宣传图。 2.5 AI 生图:克制地用 只有前面所有找图渠道都拿不到合适素材时,Skill 才会调用 AI 生图。 生图时会强制带上风格约束词,避免出现"一眼 AI 插画"那种平庸视觉。 我宁可它少用 AI,也不想它把 AI 用成那个让所有图文卡片长得都像姐妹的元凶。 也避免你使用 AI 图片导致内容曝光受影响。 2.6 视觉系统:两套风格 + 28 个版式骨架 熟悉我之前的 PPT 的人会觉得眼熟。 这两套视觉系统和版式骨架,是从 PPT Skill 那边沿用并重新校准过来的。 我就不重复展开,简单说一下它在图文卡片场景下的样子。 两套视觉系统: - 杂志风:你在《The New Yorker》和上海译文社的封面上看到的那种排版。大留白,衬线大标题,版式不对称,文字有呼吸感。 - 网格风:Massimo Vignelli 和 Helmut Schmid 瑞士平面设计那一脉。强网格,无衬线,几何感,用色克制但精准。 28 个版式骨架,是我从过去十年看过的杂志、海报、专辑封面、电影海报里挑出来,经得起放大看的那些。 AI 在"自由版面设计"上现在还是平庸的,给它一个被验证过的骨架,它的任务就从"设计"降级成"填充",成品稳定性立刻上来。 10 套主题色板、固定字体搭配、有限图标库,这些细节就不一一列了。 它们的逻辑是同一个:限制不是阻碍,是底线。 给一个内容创作者无限的颜色选择,他更容易做出难看的东西; 给他 10 套被验证过的色板,他做出能看的东西的概率会接近 100%。 ## 三、为什么要这么做 3.1 设计角度:杂志感非常有效 为什么走杂志风和网格风,而不是更"现代"的卡片设计? 图文卡片的本质,和印刷海报、画报、专辑封面是同一种东西。 用一张静态图,在 1 秒钟里说服一个陌生人停下来。杂志和海报在过去一百年已经把这件事研究透了。 网页设计语言是为可滚动、可交互的场景做的,搬到一张静态图上,会显得用力过猛、信息平淡。 所以这个 Skill 在视觉决策上的所有"为什么": - 为什么大留白?留白是杂志告诉你"重点在这里"的方式; - 为什么衬线字体优先?衬线字体在大字号上有印刷品的重量感; - 为什么版式不对称?不对称会制造视觉节奏,让眼睛知道先看哪; - 为什么用色克制?社交信息流里,克制的色板反而比饱和度高的更显眼,它和周围所有"喊得很大声"的卡片不一样。 这些决策听起来都很"虚",但它们落到代码里全是具体的常量。 字号阶比例、留白比例、网格列数、对比度阈值、断行规则。这些常量才是这个 Skill 真正的护城河。 3.2 产品角度:它是一个产品,不是一段 Prompt 做了这么多 Skill 之后,我对"Skill 这种东西到底是什么"形成了一个判断: Skill 这种东西,本质上是一个小产品。 落到这个项目里: 我给它写了 PRODUCT.md,讲清楚它解决什么问题、给谁用、不做什么。 是为了逼自己把"我到底在做什么"想清楚。我自己说不清的时候,这个 Skill 就不该被发布。 我给它打 版本号(v0.5 / v0.9 / v0.10 / v0.12),每一版都有 CHANGELOG。 我能告诉你为什么 v0.10 是一次失败的尝试,以及 v0.12 怎么把它修回来的。 我给它写 HANDOVER.md,讲清楚交付物长什么样、能力边界在哪、什么场景该用别的工具。 我希望任何人接手它,都能在 30 分钟内对它有完整理解。 我会提前列出它不擅长的事,省得用户试错三次才发现。 为什么要费这么大功夫? 因为 Skill 生态最大的问题,是绝大多数 Skill 满足于"我能做一个",很少有人在追求"把这件事做到极致"。 一个 Skill 应该是能站起来的小产品。Prompt 十分钟会被同行复制走,产品不会。 这件事的反面是,如果我连自己 Skill 的能力边界都说不清,我就没资格让别人把工作流交给它。 ## 写在最后 这个 Skill 让我反过来理解了我的 PPT Skill 真正做对的是什么。 真正做对的,是它从一开始就被当成产品对待。 模板多、规则细、颜色好看,都是这件事的副产品。 以后再有人问我 Skill 是什么,我会用两句话回答: Skill 是一个产品。 判断一个 Skill 好不好,看它有没有被它的作者偏爱过。 如果你也在做图文内容,希望它能帮你省掉那些被排版毁掉的好选题。 如果你也在做 Skill,希望它让你重新想一想,你做的那个东西,值不值得有 PRODUCT.md。 GitHub: https://github.com/op7418/guizang-social-card-skill 跟你的 Codex、小龙虾、ClaudeCode、Workbuddy 说:帮我安装这个 Skill:https://github.com/op7418/guizang-social-card-skill

译作者开源了 guizang-social-card-skill,这是一个专为小红书、微信公众号等图文平台设计的竖屏(3:4)卡片生成工具。它针对图文内容特点进行了视觉校准,内置了11个图文品类的适配规则,能根据内容自动选择“杂志风”或“网格风”视觉系统。该工具通过智能识别图片主体与色度来处理文字压图;默认接入Pexels、Unsplash、Wallhaven三个免费图库自动配图,以减少人工操作和规避AI生图水印的限流风险。作者强调这是一个有明确能力边界(如不做追星粉丝向、纯促销硬广)和迭代记录的产品化技能。

宝玉@dotey · 5月28日59

RepoPrompt 作者被 OpenAI 招安了,然后这软件现在免费了,即将开源。 如果你是 RepoPrompt 付费用户会给你送 Codex 的 Credits。

译开发者RepoPrompt已被OpenAI招募。其同名工具RepoPrompt现转为免费,并即将开源。原付费用户将获得OpenAI Codex的Credits。该工具能将整个代码仓库拼接成单个XML文本,便于发送给Gemini 2、Claude 3.5、o1 pro等支持长上下文的模型进行处理,也支持选择部分文件。目前仅支持Mac平台。

Hao AI Lab@haoailab · 5月28日70

🚀Generate a 30-second 1080p video in just 7 seconds! We’re open-sourcing FastVideo Dreamverse: real-time vibe directing for video generation on a single NVIDIA B200 GPU with LTX-2 model @ltx_model Repo: https://github.com/hao-ai-lab/FastVideo/tree/main/apps/dreamverse Blog: https://haoailab.com/blogs/fastvideo-dreamverse-release/

译🚀仅需7秒即可生成30秒1080p视频! 我们开源了FastVideo Dreamverse:基于单张NVIDIA B200 GPU和LTX-2模型,实现实时视频生成的氛围引导工具。 Repo: https://github.com/hao-ai-lab/FastVideo/tree/main/apps/dreamverse Blog: https://haoailab.com/blogs/fastvideo-dreamverse-release/

Qwen@Alibaba_Qwen · 5月28日69

Fast, faster, Qwen. 🚀 Thrilled to see Qwen3.5 reaching a record-breaking 580 tps for agentic workloads on the TokenSpeed engine! This milestone wouldn't be possible without our incredible partners. Huge thanks to @lightseekorg, @NVIDIAAI, the Mooncake team, and @tri_dao for the pioneering FA4 optimization. Together, we are pushing the boundaries of open-source LLM inference. 🤝✨ Dive into the full @PyTorch blog post below! 👇 https://pytorch.org/blog/up-to-580tps-new-speed-record-of-qwen3-5-397b-a17b-on-gpu-for-agentic-workloads-with-tokenspeed/ #Qwen #Qwen3_5 #TokenSpeed #LLM #Inference #AI #PyTorch #OpenSource #AgenticAI #HighPerformance

译Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。

Perplexity@perplexity_ai · 5月27日68

We're open-sourcing the Unigram tokenizer we rebuilt to reduce CPU utilization by 5-6x. Small rerankers and embedders run in single-digit milliseconds on GPU, making CPU tokenization a meaningful share of total latency. http://github.com/perplexityai/pplx-garden

译我们开源了重新构建的Unigram分词器,可将CPU占用降低5-6倍。 小型重排序器和嵌入模型在GPU上运行时间仅为个位数毫秒,使得CPU分词成为总延迟的重要组成部分。 http://github.com/perplexityai/pplx-garden

Berryxia.AI@berryxia · 5月27日61

卧槽! 这个开源Codex 实战手册太牛逼了! 很多小白用户刚开始用Codex desktop app跑computer use和浏览器任务,结果一上来就被登录、充值、配置这些基础环节卡住。 问AI、翻教程,很多都讲得模棱两可,最后自己折腾了半天。 不如直接使用苍老师实战数周撰写开源的CodexGuide 实战指南! 这位前大厂开发、现在专注AI创业的大牛,花了两周时间把所有坑踩一遍,整理成一份免费开源的实战指南。 它按四层结构组织:认识入口、跑通任务、建立方法、团队沉淀。 从CLI入门、桌面端安装、Plus订阅,到手机端通过ChatGPT App远程指挥Mac Mini继续vibe coding,全都写得清清楚楚。 他还专门做了实战案例专栏,现在已经收录13个能直接复刻的场景,比如Codex配合http://Draw.io自动画架构图、GitHub Actions CI失败自动修复、Obsidian里搭AI知识库。 最关键的是,他把“想用却用不上”的真实门槛彻底铺平了。 以前很多人觉得Codex强大,却总在入门阶段就放弃。 这份指南把经验沉淀下来,让后来人直接跳过试错,直接进入生产节奏。 兄弟们,直接上Star吧,聊表心意了。 地址见评论区~

译一份由开发者“苍老师”撰写的免费开源Codex实战指南(CodexGuide)已发布,旨在帮助新手跳过入门门槛。手册按四层结构组织:认识入口、跑通任务、建立方法、团队沉淀,详细覆盖CLI入门、桌面端安装、Plus订阅,乃至通过ChatGPT App远程指挥Mac Mini等场景。目前,该指南已收录13个可直接复刻的实战案例,例如配合Draw.io自动绘制架构图、GitHub Actions CI失败自动修复、以及在Obsidian中搭建AI知识库。

Berryxia.AI@berryxia · 5月27日56

乔帮主分享了他通过 Vibe Coding 制作的一个 Chrome 窗口插件,功能非常全面,包含了: 1. 番茄钟 2. 音乐播放 3. To-Do List 4. 快捷便签 其实这个插件的出发点非常个性化,因为他是一名钓鱼爱好者,所以特别加入了一些天气信息,用来判断适不适合钓鱼。同时他也喜欢音乐,就想着在上网或者 Vibe Coding 的时候,能同时处理这些事情。 这种个性化的需求,正是通过 Vibe Coding 实现的。通常我们在使用现有软件时,虽然基础功能都有,但一些小众或极具个人色彩的需求往往无法得到满足。 这时候,我们就可以利用 Vibe Coding 来解决。比如通过乔帮主的这个开源项目,结合你自己的特殊身份或需求,再进行迭代开发。这个过程是非常过瘾的。 所以说,大家在 Vibe Coding 的时候,虽然 Token 比较贵,但即便是在 Token 不限量的情况下,也还是要多注意休息啊,乔帮主。

译开发者@vista8(乔帮主)利用Vibe Coding开发了一个功能集成的Chrome新窗口插件并开源。该插件整合了番茄钟、音乐播放、Todo、便签等独立开发者常用工具,并基于个人兴趣加入了天气信息以便判断钓鱼条件。此过程展示了Vibe Coding如何帮助用户实现现有软件无法满足的个性化、小众需求。插件还支持通过Command + K快捷键唤起,集成了谷歌搜索和ChatGPT带提示词跳转功能。

向阳乔木@vista8 · 5月27日70

说好不熬夜的,但 AI Coding 太上瘾! 昨晚开发了个 Chrome 新窗口插件,超方便。 1. 番茄钟、音乐播放、Todo、便签、天气、换背景等,独立开发者多件套整合到了一起 😂 2. 支持谷歌搜索,ChatGPT跳转官网带提示词发送。 3. 支持Command + K唤起,快速设置、搜索一切。 已开源,见评论区。

译一名开发者分享了利用AI编程,快速开发的一个Chrome新窗口(或新标签页)插件。该插件整合了番茄钟、音乐播放、Todo、便签、天气、换背景等多款独立开发者常用工具。功能上支持直接进行谷歌搜索,并能跳转至ChatGPT官网发送预设提示词;同时支持通过Command + K快捷键唤起,实现快速设置与搜索。该项目已开源。

MiniMax (official)@MiniMax_AI · 5月27日55

This marks the end of the M2 series, and MiniMax-M3 is coming

译MiniMax宣布其M2系列模型即将结束,M3模型正准备推出。M2于去年12月23日首次开源,至今已过去半年多。在此期间,其提出的技术如CISPO、Forge RL System及Self-Evolution在开源社区被广泛采用,且几乎所有模型发布都在Hugging Face排行榜上达到过第一。与此同时,MiniMax的MSA论文即将发布。

meng shao@shao__meng · 5月27日71

微软发布终端原生 Web Agent 框架:Webwright https://github.com/microsoft/webwright 核心设计:代码即动作 传统网页智能体采用"观察→预测下一步点击→执行"的循环,每一步都依赖 LLM 判断。Webwright 的做法更贴近软件工程师思维: · 让 LLM 写 Playwright 脚本 —— 把网页操作变成可运行的 Python 程序 · 工作区即状态 —— 脚本、截图、日志保存在本地,浏览器会话可随时重建 · 终端优先 —— 核心循环只有三个模块约 1000 行代码,无隐藏编排层 这种模式产生的"副产物"是可复用的自动化程序,而非一次性交互痕迹。 性能表现:SOTA 水平 · Online-Mind2Web (300 任务):86.7% (GPT-5.4),同类开源框架中最高 · Odysseys (200 长程任务,平均 76.1 步):60.1% (GPT-5.4),较此前 SOTA (+15.6pt),较基线 GPT-5.4 (+26.6pt) · Claude Opus 4.7:84.7% / 难例 80.5%,难例上超越 GPT-5.4 架构极简 Runner (150行) -> Model Endpoint (550行) -> Environment (300行) · 仅依赖 httpx、pydantic、playwright、typer · 无多智能体系统、无图引擎、无插件层 · 支持 OpenAI、Anthropic、OpenRouter 后端 产品化与集成 · Claude Code:插件 /plugin install webwright@webwright,支持 /webwright:run 和 /webwright:craft · OpenAI Codex:插件市场安装,通过 @ webwright 调用 · OpenClaw / Hermes:共享 skills/webwright/ 目录,统一技能规范 关键创新点 · Task2UI 模式 (2026-05-11 新增) —— 任务完成后自动渲染为 HTML 应用,结果可视化且可重用 · 脚本可复用性 —— 即使是 Qwen-3.5-9B 这样的小模型,在预置工具脚本辅助下也能达到 66.2% 的难例完成率 · 可审计性 —— 每次运行都保存轨迹、截图、报告,便于调试和回归

译微软开源了终端原生Web Agent框架Webwright。其核心创新是“代码即动作”:让大语言模型直接编写可执行的Playwright Python脚本,而非传统的“观察-预测-点击”循环,由此生成的程序可复用。在性能上,基于GPT-5.4在Odysseys长程任务基准上达60.1%,较此前SOTA提升15.6个百分点;基于Claude Opus 4.7在难例上达80.5%,超越GPT-5.4。框架架构极简,核心代码约1000行,并已与Claude Code、OpenAI Codex等集成。用户评论表达了对该工具在浏览器自动化方面相比Playwright能带来巨大提升的期待。

Berryxia.AI@berryxia · 5月27日56

我最近在Mac上折腾本地AI时,发现一个叫oMLX的项目一直在默默更新。 它的作者是个有全职工作的solo开发者。 刚刚发布了v0.3.11版本。 这个也是基于Apple MLX 框架来延展出来的框架,让端侧模型在Apple 设备提速。 过去几轮更新,他把稳定性当成了头等大事。 尤其是高内存压力下的表现,这次他希望大家再多测测。 他的初心其实很简单。 哪怕你昨天刚买了MacBook,也能立刻打开工具就用本地模型。 不用看文档,不用调参数,不用等半天。 整个流程像用原生App一样自然流畅。 甚至模型还在下载的时候,你已经能开始对话了。 在大家都在卷参数规模和推理速度的时候,他却把精力全放在了让普通人真正用得爽这件事上。 这可能是本地AI真正走向普及的最关键一步。 项目地址见评论区👇

译oMLX项目发布了v0.3.11版本,这是一个基于Apple MLX框架、旨在提升Apple设备端侧模型性能的项目。本次及前几轮更新均以在高内存压力下的稳定性为首要目标,开发者正呼吁用户对此进行更多测试。该项目由一位有全职工作的独立开发者维护,其核心目标是提供“开箱即用”的本地AI体验——让用户无需阅读文档或调整参数,甚至在模型下载过程中即可开始对话,从而降低本地AI的使用门槛。

Peter Steinberger 🦞@steipete · 5月27日69

All the deps around opus are old or terrible, so vibed my own and replaced octoscript and opus-native. Performance of modern wasm on node/V8 is ~equivalent to native. Your claw now automatically takes meetings notes and you can talk to it in meetings. https://github.com/openclaw/libopus-wasm

译Opus周围的所有依赖都过时或糟糕,所以我凭感觉自己重写了,并替换了octoscript和opus-native。 现代WASM在Node/V8上的性能与原生代码大致相当。 现在你的Claw可以自动做会议笔记,并且你可以在会议中与它对话。 https://github.com/openclaw/libopus-wasm

🚨 AI News | TestingCatalog@testingcatalog · 5月27日49

MiniMax M3 has been teased 🔥 > MiniMax M3 will be based on a new Sparse Attention architecture > MiniMax M3 is expected to be open source Soon? 👀

译MiniMax M3 已被预告 🔥 > MiniMax M3 将基于新的稀疏注意力架构 > MiniMax M3 预计将开源 很快? 👀

Berryxia.AI@berryxia · 5月27日74

一个Anthropic黑客松冠军团队,只用了Claude Code花8小时就做出了一个产品拿下冠军,然后直接把背后的完整AI编程工作台开源了 项目叫ECC(Everything Claude Code),作者Affaan Mustafa和队友把整个工作流打包成一个仓库 它不是一个提示词合集,而是包含61个Agent、246个Skills、76个预设命令,还带规则、Hook、安全扫描和MCP配置的完整系统 如果你每天重度使用Claude Code、Cursor、Codex,这个项目值得你立刻翻一遍 它展示的不是“怎么问AI”,而是“怎么给AI搭一套能持续干活的工作台” 故事就藏在Anthropic x Forum Ventures黑客松里 Affaan Mustafa和队友在纽约赛场,用Claude Code纯手搭,只花8小时就做出了http://zenith.chat,一举拿下冠军,奖品是1.5万美元API credits 赛后他们没有把配置藏着,而是把过去十几个月每天用Claude Code积累的全部精华整理成ECC仓库 里面有61个专门Agent负责不同场景,246个Skills覆盖从代码审查到安全扫描再到记忆持久化,76个预设命令一键触发 还内置了Hook系统、规则引擎、安全扫描器、持续学习机制,支持Claude Code、Cursor、Codex、OpenCode等多平台 Big Tech的AI编程工具永远藏着掖着,把你锁在他们的闭源生态里 Affaan却把一切开源,让任何独立开发者或小团队都能直接clone一套工业级AI编程工作台 你现在就可以试 直接去GitHub搜affaan-m/everything-claude-code git clone https://github.com/affaan-m/everything-claude-code 按照readme一键安装,马上就能拥有61个Agent+246个Skills的完整 harness 整个框架100%开源,所有Skills、Agents、Hooks、规则全在仓库里,每天还在更新 Big Tech还在卷谁的AI coding工具更封闭更贵 这个黑客松冠军却用一个开源仓库告诉你:真正厉害的工作台,是能让AI自己持续干活的系统

译Anthropic黑客松冠军团队使用Claude Code耗时8小时开发出产品zenith.chat并赢得1.5万美元API credits。赛后,他们将背后的完整工作流开源为ECC项目。该项目包含61个智能体、246个技能和76个预设命令,并配备规则引擎、Hook系统、安全扫描器和MCP配置,支持Claude Code、Cursor、Codex等多平台。它提供了一套可让AI持续工作的完整工业级编程环境框架,而非简单的提示词集合,已完全开源在GitHub。

SenseTime@SenseTime_AI · 5月26日77

🚀 𝗪𝗲'𝘃𝗲 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 𝘁𝗵𝗲 𝗳𝘂𝗹𝗹 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗰𝗼𝗱𝗲𝗯𝗮𝘀𝗲 𝗳𝗼𝗿 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 (8B dense + A3B MoE). ​ ​ One stack for 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗺𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝘁𝗮𝘀𝗸𝘀 across: text-to-image · editing · interleaved generation · text & vision understanding.​ ​ Built for practical large-scale training: ​ ⚙ Hybrid WP/TP/PP + ISP parallelism​ 🌊 Streaming, resumable, packed data pipeline ​ 🎛 Env-var driven configs for easy experimentation ​ 🧱 Decoupled backbone, data, and objective modules ​ 📈 Scales from 1×8 GPUs to multi-node clusters ​ ​ Apache-2.0 👇 ​ https://github.com/OpenSenseNova/SenseNova-U1​ Discord: https://discord.gg/BuTXPHmQub​ ​ @GitHub

译商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。

SenseTime@SenseTime_AI · 5月26日70

🚀 𝗪𝗲'𝘃𝗲 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 𝘁𝗵𝗲 𝗳𝘂𝗹𝗹 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗰𝗼𝗱𝗲𝗯𝗮𝘀𝗲 𝗳𝗼𝗿 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 (8B dense + A3B MoE). ​ ​ One stack for 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗺𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝘁𝗮𝘀𝗸𝘀 across: text-to-image · editing · interleaved generation · text & vision understanding.​ ​ Built for practical large-scale training: ​ ⚙ Hybrid WP/TP/PP + ISP parallelism​ 🌊 Streaming, resumable, packed data pipeline ​ 🎛 Env-var driven configs for easy experimentation ​ 🧱 Decoupled backbone, data, and objective modules ​ 📈 Scales from 1×8 GPUs to multi-node clusters ​ ​ Apache-2.0 👇 ​ https://github.com/OpenSenseNova/SenseNova-U1​ Discord: https://discord.gg/BuTXPHmQub​ ​ @github

译OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

ginobefun@hongming731 · 5月26日73

非常酷,准备试一下~ FreeLLMAPI 是一个开源代理,聚合了多个提供商的免费 API 额度,每月能提供约 8 亿 Token,并具有自动故障转移和兼容 OpenAI 的端点。

向阳乔木@vista8 · 5月26日65

前年 Vibe Coding的第一个网站,粘贴或上传 HTML、Markdown、SVG、Mermaid 生成可分享的链接。 还能给链接加上密码,比如写稿件给人审核时用。 解决AI生成内容微信不方便分享问题,另外我常用来测大模型的HTML生成效果。 为方便更多人,最近改成 Cloudflare一键部署版,还新增了管理后台。 除了历史遗留蓝紫配色,其他没毛病 😂。 只需跟Agent说,安装部署这个程序: https://github.com/joeseesun/quickshare-cloudflare

译该推文介绍了Quickshare工具,用于将AI生成的HTML、Markdown等内容转化为可分享链接,以解决在微信中分享此类内容不便的问题。工具新推出基于Cloudflare的一键部署版本,并新增管理后台。用户可通过AI智能体安装部署,其核心功能还包括为链接添加密码保护,方便审核等场景。

Berryxia.AI@berryxia · 5月26日68

这个团队的研究也是有点反常识,对于LLM的研究调度也是有点不一样的研究。 一个开源团队发现把深度研究系统中最聪明的总指挥调节器直接剥夺搜索权限。 反而让整个系统在DeepResearch Bench上直接登顶吊打Claude和ChatGPT。 这个反直觉的设计让Onyx成为目前公开可用的最强深度研究员 它叫Onyx GitHub上已经完全开源你现在就能跑 故事听起来简单却戳穿了几乎所有大厂AI Agent的共同毛病。 传统深度研究系统包括OpenAI o1系列Anthropic和Google的方案都给调节器塞满了工具它能搜索网页打开链接读文档写报告一条龙到底。 结果呢? 调度器一拿到搜索权就忍不住自己动手它开始疯狂拉结果浅尝辄止根本不做高质量的任务分解最后产出的报告永远是表面级。 Onyx的团队观察到这个致命bug后做了件谁都没敢做的事把调度器的搜索工具彻底砍掉 它只能写任务brief只能分解query只能评估下级agent交回来的中间报告但它自己绝不能上网不能检索不能提前下结论 这一刀直接逼着调节器做真正的“高阶战略思考” 整个架构只保持两层上面一个纯策略的调节器下面最多6个独立的research agent。 三阶段流水线超级清晰 Phase 1 调节器无工具权限把一个复杂问题最多拆成6个聚焦的研究方向写出极度自洽的任务brief Phase 2 把任务分发给3个隔离的研究agent每个agent最多跑8轮“搜索-阅读-思考”循环产出带引用来源的中间报告它们还能接入企业内部Confluence Slack等100+数据源并且严格做文档级权限控制 Phase 3 一个确定性步骤把所有报告去重重新编号生成统一引用地图输出最终高质量报告 因为调节器全程不碰原始数据它就不会被“看到第一个结果就想收工”的诱惑污染因为只两层传递信息不会在多层摘要里被扭曲 结果Onyx在DeepResearch Bench上拿下No.1全面超越闭源的Claude和ChatGPT 更狠的是它还能无缝接入企业内部知识库这点连很多付费方案都做不到。 你今晚就可以试 直接去Onyx GitHub仓库链接在下面star一下然后按照readme把整个系统跑起来用CrewAI做整体编排 Mistral的Voxtral做语音输入输出就能复刻一个完全开源的顶级深度研究员。 整个框架100%开源架构细节pipeline代码实验数据全在仓库里 Big Tech还在卷“给模型塞更多工具更多上下文”Onyx却用一个“故意阉割”的调节器告诉所有人最聪明的约束往往才是最强的能力。 https://x.com/i/status/2058837753954238510

译开源深度研究系统Onyx在DeepResearch Bench上排名第一,超越了Claude和ChatGPT。其核心设计十分反直觉:顶层调度器(orchestrator)被完全剥夺了网络搜索和URL访问权限,仅负责任务分解与评估。这种约束迫使调度器专注于高阶战略思考,避免了传统系统中调度器因能搜索而过早给出浅层答案的缺陷。Onyx采用两层架构和三阶段流水线,并完全开源,支持接入企业内部数据源。

Berryxia.AI@berryxia · 5月25日58

小东东的确做了一些列的生图内容,非常的不错。 还开发了极高不错的插件,推荐给大家。

译推文介绍用户小东东在AI生图领域的活跃探索与贡献。他近期发布了众多极具美感的AI生图提示词。同时,他开发了一款开源的Chrome插件,用于简化在X平台发布文章的流程,并支持一键同步博客内容。该插件原版已开源,地址为:https://github.com/nevertoday/xposter 。

向阳乔木@vista8 · 5月25日31

估计明天完善后就能开源,但又怕律师函,怎么办。

译有开发者分享称,基于卡比的wx-cli工具,利用Codex复刻了一个“微信消息驾驶舱”界面。该工具计划在近期完善后开源,但开发者同时表达了对可能收到法律警告的担忧。

向阳乔木@vista8 · 5月23日67

http://x.com/i/article/2058212813622087680 # 「未来硅世界16期」访谈:tw93的开源故事和经验 一个人,有正职,有家庭,还有个小女儿。 却在 13 年里,靠着长假、早起、和游泳池边的笔记本,做出了六款被硅谷 CTO、Pinterest、YC 创始人都在用的开源工具。 这位大神的 X 账号是 HiTw93,GitHub ID 是 tw93。 > https://x.com/HiTw93 > https://github.com/tw93/ ## 六个产品,六个"自己先用烦了"的故事 tw93的第一个产品妙言,起因很简单:找不到一款顺手的 Markdown 编辑器。 他本职是前端工程师,讨厌 Electron 那种重框架,就决定学 Swift 自己写一个。 边学边做,做完刚好学会了 Swift,顺手还摸透了 Apple 底层的渲染性能。 比如 Markdown 标题的语法高亮,直接用正则去写,性能远高于 Web 渲染的编辑器。 妙言到今年已经快 6 年了。 Pake 的起源也是很巧合。 他有个习惯,每年会分享一次自己电脑上装的好用工具。 那一年他喜欢用微信读书,但微信读书没有桌面端,就用 UI 框架打包了一个。 发出去以后,大家发现他分享的软件里将近三分之一是自己写的,纷纷来问微信读书那个怎么打包的。 代码也就几百行,他就顺手开源了。 没想到 Pake 在国外比国内火。 老外很喜欢把网页打包成 Mac 客户端,但用 Electron 打包太重,Pake 刚好解决了这个问题。 很多台湾的朋友帮他推广宣传,因为他们特别喜欢打包这件事。 潮流周刊的起源更早,大概七年前他开始带团队,发现团队的技术氛围不够强,就立了个 flag:每天早上看一些开源工具和技术资讯,整理成内部周刊发在公司语雀上。 后来很多人离职,问他能不能在外面看,他就顺手放到了 GitHub 的 README 里。 过了半年,国庆在老家,花了两天时间做了个网站,就这么发出去了。 Mole 的前身是他在本地跑了一年的 Shell 脚本,快 1000 行,专门清理程序员电脑上的垃圾缓存。 他每年会买很多正版清理软件,比如 iStatistica、CleanMyMac,但觉得太重。 去年国庆带宝宝去三亚度假,游泳池边放了台电脑,游一圈回来歇着的间隙,把 Mole 的第一个版本写出来了。 Kaku 是他 fork 了一个终端工具,在本地改了半年,过年期间才发出来。 他最早用一款极轻量的终端,配得很好看,但 AI 时代来了以后必须多窗口,那款工具不支持。 找来找去,只有一个项目改得动,就自己动手了。 Kami 的起源是他做投资。他七八年前开始投资美股,本地写了一套多 agent 的投资分析系统,但 AI 生成的报告太丑,就按自己的审美调了一版。 后来看到推特上大家发的报告也不够好看,就开源出去了。 顺带一提,他还在做一套自己的字体,目前完成了三分之一,因为他常用的那款字体(仓耳今楷TsangerJinKai)是商业字体,开源产品可以用,但涉及商务合作就麻烦了。 Waza 是他把将近一年、五六个 G 的 Claude 对话记录沉淀出来的工程技能库。 他用 AI 分析了所有对话,按项目维度、时间维度拆解,提炼出最佳实践,包括怎么回复海外用户的需求、哪些 PR 该合、哪些功能该做。 这个逻辑贯穿了他所有产品:不是先想"我要做什么",而是先碰到了一个让自己难受的问题,顺手把它解掉。 ## Mole 为什么 70% 的用户在海外? Mole 发布后,超过 70% 的用户来自海外,原因有几层: 第一,老外其实更节俭。 欧美用户会把一台 Mac 用很多年,用久了会很卡。 用 Mole 清了 60G、100G 的垃圾,他们会非常激动,然后疯狂去推广。 tw93说,老外说话夸张,会直接说"我要给你跪下,你是个天才"。 第二,更懂程序员的“清理”工具。 传统清理软件不关心程序员的各种开发工具的缓存等,比如CleanMyMac等工具,出于安全考虑,不会去动那些深层的开发缓存。 但 Mole 是程序员写给程序员的,知道哪些东西可以清。 第三,开源本身就是最好的产品迭代机制。 Mole 有 300 个 PR,100 个贡献者,全是海外用户。 每个人的电脑环境不同,国家不同,技术工种不同,这些贡献让 Mole 能清理的东西越来越多,这是任何公司产品都做不到的。 当然也踩过坑。第一版发布时,因为tw93自己的环境偏前端,没有数据库相关配置,结果把一个用户 JetBrains 数据库工具里存在 cache 目录的账号密码全清掉了。 那个用户很生气,他也很抱歉。 这件事让他意识到,很多客户端产品的文件路径规范极其混乱,普通用户不关注,但清理工具必须关注。 Mole 后来给 JetBrains 全系产品开了白名单,也因为这个教训越做越严谨。 还有一个细节能说明 Mole 的热度。 他当时把两张图片放到了 Vercel 的 CDN 上加速,不到一周,Vercel 发来紧急通知说他欠了 80 美元。 他以为不可能,去查了一下,发现就是那两张图片,用了 80T 的流量,就几分钟时间。 他立刻意识到,这个 README 有大量的人在访问。 ## 第一款付费产品,每 10 秒收一笔钱 Mole 推出桌面端时,tw93周一晚上 10 点发布,因为白天在上班。 发出去之后,手机大概每 10 秒响一次支付通知,后来连 iPhone 都开始发烫。 睡觉前,他不得不把 Google 的通知全部关掉,不然睡不着。。 定价 9 美元终身买断,很多人说他卖太便宜了。 当然也有喷子说,你不就把 CLI 包了一下吗? 他觉得无所谓。他本来就不是靠这个赚钱的。 他最开心的是,有人用了以后愿意主动打赏。免费的东西,有人愿意付钱,说明做的东西是有意义的。 手机弹出微信通知"谁谁谁又给你打赏了",他说那种感觉真的会很开心。 支付对接用的是 Dodo Payment,一家印度小哥创立、注册地在美国的支付平台。 他之前试过 Stripe,走到最后一步,对方要香港身份证,卡死了。 Lemon Squeezy 也要求提供公司信息,个人用不了。 后来在推特上看到有人推荐 Dodo,花了一个下午接好,发布了。 不过支付平台会收 16%、17% 的税,后来 Dodo 的 CEO 办公室的人主动在推特上找到他,把他拉进了专属服务群,还给了一些费用减免。 关于收款,他有一个实操建议:超过 1 万美元,立刻会有很多人来找你核查,非常麻烦。尽量把钱放在香港卡或新加坡卡,不要直接汇回国内。 他自己就因为这个折腾了几次,最后把钱退回去重新想办法,不过他夸了招商银行的服务人员会为客户着想。 ## Waza:把自己的工程经验,变成 AI 的本能 tw93有一个习惯:每周花一小时,让 AI 分析他过去一周的踩坑记录,然后更新 Waza。 Waza 是他的 Claude Code 技能库,但跟大多数人写的 Skills 不一样,他 70% 是代码,只有 30% 是 Markdown 文档。 原因是:MD 只是告诉 AI 怎么干活,代码是让 AI 能基于它去扩展。 他不喜欢那种把 AI 手脚拴住的框架,比如 Superpower、Spec 编程,觉得太重,而且会拖模型能力的后腿。 他更愿意把 AI 当朋友,而不是外包或下属。 他说,Claude 4.6、4.7 出来以后,模型能力越来越强,你越约束它,其实是在拖它的后腿。 Waza 里有 8 个 Skill,覆盖的不只是写代码,还有怎么推进项目、怎么做技术方案、怎么写让读者看得懂的文档、怎么画设计稿。 因为在他看来,一个工程师只有 30% 的时间在写代码,其余的能力同样重要。 Waza 本身也会自我迭代。 它知道自己的迭代方式,所以tw93只需要定期喂给它新的踩坑记录,它会自己更新。 现在 Waza 也支持了 Codex,因为他自己开始用 Codex 了,所以它也去分析 Codex 的对话记录。 他本地还有一个基于 Waza 的私人 agent,专门帮他处理开源项目的 issue 和 PR。 这个 agent 知道他对 Mole 的调性要求,知道哪些功能坚决不能合,哪些 PR 写得有问题但可以改好,哪些直接不合适。 他把自己从最耗时间的事情里解放出来,专注于写新功能。 ## 为什么他的东西好看? 很多人用完tw93的工具,第一反应是:怎么这么好看? 他给了几个原因。 大学时保研后有大量空闲时间,把图书馆里所有前端和设计相关的书都看完了。 设计思维、极简主义、日本设计原理,那个阶段打下的审美底子,后来工作了才慢慢显现出来。 入职后,他最喜欢跟设计师玩,经常一起讨论设计细节,受他们审美影响很深。 后来负责整个部门的 ToB 产品,发现用文档跟人对齐方案,大家理解都不一样。 最后发现最有效的办法是直接画一张高保真 Sketch 稿,发群里拉个会,大家立刻就 get 了。 为了不让一件事反复讨论,他逼着自己学会了画稿。 还有一个更底层的原因:他是强迫症。 他说自己刚入职时,QA 同学测不出他写的页面有 bug,他的代码可以免提测直接上线。 这个习惯一直延续到做开源产品。做到 75 分没 bug 不够,他要做到 95 分。 不是为了炫技,是因为他受不了丑的东西,也不想让用户反复来问他。 他最近还在看元至清的中国古画,以及日本设计原理方面的书。 他说很多古画看不懂意境,但看画家怎么画马、怎么构图,还是能 get 到一些东西。 ## 关于长期主义,他说的最实在的一句话 "长期主义能帮你更好地偷懒。" 他在一家公司工作了 11 年没换过。 他买特斯拉股票是在 100 多美元,买英伟达股票是在 80 多美元,买了以后从来不卖,一年只操作两三次。 他说他很讨厌做判断,因为一旦有多个选项就会很纠结,那几天都会很难受。 所以他尽量在需要做判断之前,就把很多事情提前决定好,这样就不用反复纠结了。 长期主义在他这里不是口号,是一种减少决策消耗的生活方式。 他的 GitHub 只有 6 个 pin 位,全占满了,不会再开新坑。 他认为,同时做 100 个产品,100 个都做不好。把现有的几个维护好,复利会越来越强。 Mole 发布半年,已经迭代了将近 40 个版本,用的人越来越多,知道这个产品的人越来越多,这才是真正的积累。 他还提到一个反直觉的观察:妙言在真正公布之前,已经迭代了半年多,用户量一直很少。 一推出去,数据直接从平线拉起来。 酒香也怕巷子深,你还是得在适当的时候把门面讲清楚。 ## 给非技术人用 vibe coding 的建议 他说,非技术人做产品,最大的风险不是写不出代码,而是不懂通识,半年后代码跑不动了,自己也不知道出了什么问题。 他举了个例子:AI 能把一个产品做到 80% 很容易,但从 80% 到 100%,可能要花 80% 的时间。 很多人不懂这一点,觉得前端也就这么回事,后端也就这么回事,我什么都不会,app 就写出来了。 但这个 app 想从你能用到 100 个人能用,中间有大量你发现不了的 bug,因为你不具备找 bug 的能力。 他推荐了几本书: - 《人月神话》:理解为什么软件项目不能靠堆人解决,AI 时代同样适用 - 《启示录》:理解怎么做产品取舍、怎么定义最小闭环、怎么规划里程碑 - 《左耳听风》(耗子哥的博客和书):理解一个资深工程师是怎么看问题的 - 《Linux/Unix设计思想》:一本很薄的书,讲原子能力、管道、系统设计的底层逻辑,他说大学看完以后有种"功力大增"的感觉 他的核心观点是:你不需要会写 React,但你要知道什么时候该用 React、什么时候只需要一个静态服务器。 这种判断力,才是 vibe coding 时代真正的护城河。 ## 最值得收藏的一个观点 他说,在 AI 时代,真正的壁垒不是你做出了什么工具,而是你和 AI 的聊天上下文。 别人可以把你的产品蒸馏走,但没办法蒸馏你踩过的坑、你的判断逻辑、你和 AI 反复打磨出来的那些失败路径。 他特别强调:记录失败比记录成功更重要。 成功的东西大家只看结果,失败的路径才能告诉你下次怎么绕开。 就像线上系统挂了,你一定会去查挂在哪里,但系统跑得好的时候,没人会去研究它为什么好。 关于记忆系统的设计,他有一个很有意思的框架:按照人类记忆的方式来设计。 大语言模型本来就是基于人类语言训练的,所以记忆系统也应该像人一样,有项目上下文记忆(当前在做什么)、短期记忆(最近遇到的卡点)、长期记忆(历史积累)。 他不太推荐直接给 AI 灌知识库,因为知识会过期,灌进去的人可能自己也不知道哪些已经过时了。 把你和 AI 的所有对话记录保护好,把 AI 帮你干成和干失败的记录都保存下来。 这些东西,才是别人学不走的东西。 ## 出海商业化的几个实操细节 如果你打算做出海产品,他的经验是: 个人身份对接商业资源,天然处于劣势。 建议注册一家美国小公司,费用不高,每年记得报税就好。 有了美国公司主体,App Store 账号、支付平台、云服务商,都以公司名义对接,中国个人身份的限制就绕开了,税率也会低一些。 支付平台不要自建,也不要用那些知名大平台。 Stripe 对中国个人限制很多,走到最后一步会卡死。他推荐 Dodo Payment,印度小哥做的,注册地在美国,响应速度快,能处理全球支付和各国税务合规,包括欧盟要求的 14 天无理由退款政策。 售后系统不要过早做。 前期专注把主产品做好,用户量还不大的时候,手工回邮件、手工点退款就够了。 很多程序员喜欢把所有东西都自动化,但这个阶段的精力应该全放在产品本身。 这场对话里,tw93反复说的一件事是:他的所有产品,都是先解自己的问题,然后发现有人跟他有同样的问题,才开源出去的。 这个逻辑听起来简单,但能坚持 13 年、做出 6 个有人用的工具,背后是他对"不做什么"的极度克制,对"做好一件事"的极度专注。 如果你现在也在想做点什么,他的建议是:先找到那个让你自己最难受的问题,把它解掉。 不用想太多,先解自己的问题。

译个人开发者tw93在全职工作与家庭之余,独立开发了妙言、Pake、Mole等六款深受海外用户欢迎的开源工具。其产品均始于解决自身痛点,如Mole因精准清理程序员电脑缓存,超过70%的用户来自海外。tw93强调产品美学与极致完成度,并将工程实践与AI协作经验沉淀为开源技能库Waza。他的实践展示了如何通过解决真实问题、坚持开源社区协作以及将AI作为协作伙伴,构建具有全球影响力的项目。

Peter Steinberger 🦞@steipete · 5月23日66

I'm late to the party, but cmux is great. https://github.com/manaflow-ai/cmux current split: codex mac app: knowledege work, learning, reading cmux + codex cli: coding

译我来晚了,但cmux真的很棒。https://github.com/manaflow-ai/cmux 当前分工: Codex Mac应用:知识工作、学习、阅读 cmux + Codex CLI:编码

宝玉@dotey · 5月23日67

这张原理图画的挺好的,操作方法是这样的:

译该开源项目feishu-claude-code-bridge实现了飞书与本机Claude Code的直连互通。用户可在飞书会话中直接指挥Claude Code执行任务,如抓取内容、翻译并创建文档,过程实时同步。其核心是搭建了一个“飞书消息 ↔ 本机Claude Code CLI”的桥梁,工作区设置等功能体验与直接使用Claude Code几乎一致。这种模式不仅打通了飞书与Claude Code,也为将飞书与Codex、Cursor等其他本地AI工具连接提供了可复用的范式。需注意,自2026年6月15日起,Claude订阅计划对通过`claude -p`等模式的使用将独立计费。

宝玉@dotey · 5月23日75

如果你同时用飞书和 Claude Code 的话,Zara Zhang这个开源项目 feishu-claude-code-bridge 值得一试,它可以让你在飞书里面直接连接 Claude Code,从飞书指挥 Claude Code,反过来也能借助 Claude Code 新建、编辑飞书文档。 举例来说,我可以通过和飞书智能体对话,发送推文连接,让它抓取推文并翻译成中文,再把结果创建成飞书文档。 或者说你在飞书上收到一条消息,也可以一键转发给飞书智能体,它会通过 Claude Code 做后续处理,并且实时将处理过程通过消息同步给你,如果有需要确认的,还能通过卡片的形式在飞书中展示。 连接步骤很简单,打开飞书本地客户端(网页版不行),然后在命令行窗口执行: > npx -y lark-channel-bridge@latest run (第一次需要配置 App 凭证,后面可以跳过这一步) > 和 > npx -y lark-channel-bridge@latest run 就可以通过扫码或者浏览器打开 URL 创建智能体、连接 Claude Code 按照网页提示创建应用和授权,连接上就可以在飞书的会话看到新建的智能助手。然后直接发送消息。 有个细节做的很好,就是它可以设置 Claude Code 对应的 Workspace(工作区),也就是运行 Claude Code 的目录,这样你所有操作结果都会在 Workspace,也可以读取 Workspace 下的文件、CLAUDE.md 设置、Skills、Hooks 等等,跟你直接用 Claude Code 操作几乎没差别。 一些具体的指令可以看项目文档,说的很清楚。 工作原理其实不复杂,它是一个“飞书消息 ↔ 本机 Claude Code CLI”的桥,或者说翻译。飞书负责收发消息,bridge 常驻本机,收到消息后整理成 prompt,通过 “claude -p ”这样的命令行启动本机的 Claude CLI 处理,再把 Claude 的流式输出更新回飞书。 这种项目的价值,不仅说你可以将飞书和 Claude Code 打通,还可以发掘出很多新的可能,比如你也可以让飞书和本机的小龙虾、Codex、Cursor 连接起来,在飞书界面中操作它们,它们反过来也能借助飞书 cli 操作飞书。 开源项目有个好处就是你可以照葫芦画瓢,如果你想参考它做一些自己的机器人,可以把代码库发给 Coding Agent,帮你定制化一个自己的版本。 比如说这两个是其他网友做过的把 Codex 接入飞书的 bridge 项目,用起来也是一样的: https://github.com/QQQingyu/feishu-codex-bridge https://github.com/kxn/codex-remote-feishu 有一点要提醒的是,Bridge 使用的是claude -p模式,自 2026 年 6 月 15 日起,Claude 订阅计划对 claude -p 和 Agent SDK 的使用将独立计费,不走订阅额度。如果你是用 API,不受影响。或者也可以考虑使用上面的 Codex bridge 项目。 项目地址:https://github.com/zarazhangrui/feishu-claude-code-bridge

译feishu-claude-code-bridge是一个开源项目,可实现飞书与本机Claude Code CLI的双向连接。用户能从飞书消息中直接指挥Claude Code执行任务,Claude也能读取飞书中的工作上下文并创建、编辑飞书文档。其工作原理是将飞书消息转为Prompt通过命令行调用Claude CLI,并将流式输出实时同步回飞书。该模式可扩展连接Codex等其他本地工具。需注意,2026年6月15日起,Claude订阅计划对`claude -p`模式将独立计费。

向阳乔木@vista8 · 5月23日68

前几天见了做GEO的同行,他们都惊叹说这么牛逼的系统怎么都免费开源! 可能是性格使然,姚老师不喜欢藏着掖着,好东西就要分享。 至于赚钱,我们的理念:利他就是利己。 前几天听吴军老师说,财富是调用资源的能力。信任会建立链接和影响力,也是巨大的财富,而钱只是财富的一种形式。

译开源GEO系统GEOFlow 2.0发布,一个月内GitHub星标超1.6k。此次关键版本升级,使其从内容生产工具演进为“GEO内容工程基础设施”。核心变化包括基于Laravel重构,实现多站点与多Agent管理;强化AI知识库与向量化检索;新增统一的数据分析页面,构建运营闭环。系统旨在帮助用户持续建设“可信内容资产”,并秉承“利他就是利己”的开源理念。

Perplexity@perplexity_ai · 5月23日82

Today we're open-sourcing Bumblebee, a read-only scanner for macOS and Linux. It checks developer machines for risky packages, extensions, and AI tool configs. Connected to Computer, it can trigger deeper scans whenever a new supply-chain risk emerges. https://github.com/perplexityai/bumblebee

译今天我们开源了Bumblebee,一个适用于macOS和Linux的只读扫描器。 它检查开发者机器上的高风险软件包、扩展和AI工具配置。 连接到Computer后,每当出现新的供应链风险时,它可以触发更深入的扫描。 https://github.com/perplexityai/bumblebee

Rohan Paul@rohanpaul_ai · 5月22日75

BitCPM-CANN just became the world’s first open-sourced 1.58-bit ternary LLM trained entirely on Chinese-developed AI infrastructure. Developed by ModelBest, Tsinghua Univ, and OpenBMB community, the entire training pipeline, from quantization operators and algorithms to the full-stack framework, was natively executed on Huawei Ascend 910B NPUs. 1.58-bit ternary weights use only 3 weight states, so the model needs far less memory when deployed on phones, PCs, cars, and local industrial devices. The harder achievement is the training system behind it: QAT, STE, low-bit operators, algorithms, framework work, and reproducible training scripts all had to hold together on Ascend 910B. When hardware costs rise, the winning model is not merely the one that scores higher in a chart, but the one that can be trained, reproduced, deployed, and improved under real constraints.

译ModelBest、清华大学与OpenBMB社区联合发布了BitCPM-CANN,这是全球首个完全基于华为昇腾910B NPU训练的开源1.58比特三元大模型。其核心创新在于采用仅含三种权重状态的极低比特量化技术,使模型内存占用相比BF16降低约6倍,可高效部署于手机、电脑、车载设备等边缘端。更关键的是,整个训练全栈(从量化算子到框架)均在昇腾上原生构建与验证,而非简单移植。该模型家族(0.5B-8B)在多项基准测试上保持了全精度模型95-97%的性能,为资源受限环境下部署和复现大模型提供了可落地的解决方案。

歸藏(guizang.ai)@op7418 · 5月22日73

http://x.com/i/article/2057775296712196096 # 开源一个 Skill,让 AI 接管你屏幕边那张便签纸 上个月我做了 M5 Paper Buddy,把一块墨水屏接到 Claude Code 上,监控 AI 在干什么、需要审批什么。 当时挺兴奋的,物理按键审批操作那个仪式感很好。 但用了几周之后我发现,它放在桌上的时间,远比我看它的时间长。 AI 跑得稳的时候根本不需要监控,需要审批的时候我大概率人就在电脑前。它解决的是一个边缘问题。 ## 真正的场景藏在屏幕边框上 后来我注意到一个很普遍的现象:很多人会在屏幕边框上贴便签纸,甚至有很多这种便签纸在卖。 写着今天要做什么、几点开会、某个项目的下一步动作。 便签纸的存在不是因为它好用,而是因为人需要"抬头就能看见"的提醒,不想为了看一眼日历切窗口、解锁手机。 但便签能记的东西非常有限,写完就静止了。 日程变了,便签不会变。任务做完,便签还在那。它是一个被时间冻住的物件。 而现在,我们手边有了 AI。它有 Memory,有 Agent,能读我的日历、看我的 GitHub、跟我对话。 如果让 AI 来决定屏幕边框上应该贴什么、什么时候撕掉、什么时候换新的,那就是另一个东西了。 这就是 AI Desk Card Skill 想做的事。 形态上是一块 4.7 寸的墨水屏,带磁吸(类似 MagSafe),可以直接贴在显示器旁边。 背后是一个 Skill —— 装到 Claude Code 或者 Codex 这类 AI Agent 里,AI 接管所有事: 决定推什么、什么时候推、息屏时显示什么。 Github:https://github.com/op7418/ai-desk-card 下面我把它实际怎么用、能解决什么问题讲清楚。 ## 案例一:日程和待办自己会更新 我把 top-left 槽位设成日历,middle 槽位设成 todo。 早上坐到电脑前,屏上已经是当天的完整安排:上午的会、下午健身、晚上要交的稿子。 这些数据来自飞书日历,AI Agent 通过飞书 CLI 直接读取。 下午跟一个朋友约了周四的咖啡。 我跟 AI 说"周四下午加一个咖啡,3 点",AI 一边把日程写进飞书日历,一边把屏上的卡片刷新了一下。 新的日程出现在 todo 槽位里。 更舒服的是反向同步。我做完 AIGC Weekly 的初稿,跟 AI 说"周刊写完了",屏上对应的那一行就被划掉了。 便签纸做不到这件事。便签纸只能记录某个瞬间的快照,而日程的本质是一个不断变化的状态流。 当显示设备和你的 Memory 联通之后他会直接展示你和你的上下文当下的状态。 ## 案例二:息屏的时候,它是你的名片 这是我做完之后最喜欢的一个功能。 墨水屏有个物理特性:断电之后画面会保留。 我专门为这个特性加了一个 Quiet Hours 模式 —— 到了晚上 11 点,或者你长按"睡眠"按钮,屏幕会自动切换到一张电子名片,然后进入深度休眠。 名片上是你的头像、介绍、二维码。整张屏黑白分明,墨水屏特有的纸质感。 这块屏从那一刻起就完全不耗电了,但画面一直在。 它带磁吸,从显示器边上摘下来揣进包里,重量很轻。 下次跟新朋友吃饭,从包里掏出来递过去:黑白名片 + 二维码,加完好友放回口袋。 整个过程没有插电、没有开机、没有打开 App 翻二维码的尴尬。 而早上你坐到桌前,它又会被 AI 唤醒,自动切回工作模式 —— 日程、todo、PR 队列回来了。 墨水屏的限制(不发光、刷新慢、断电保留)在大多数场景下都是缺点,但当你不去硬刚这些限制,反而顺着它去设计场景,会发现它有些屏幕做不到的事。 ## 案例三:GitHub 的动态我不再错过了 我维护 CodePilot 这种开源项目,最大的负担是看不见 — 不打开 GitHub 就不知道有没有新 PR、新 Issue。 但每隔十分钟打开一次 GitHub 是非常糟糕的工作节奏,注意力会被切碎。 现在 AI Desk Card 的 bottom 槽位常驻一个 pr-queue widget。 CodePilot 仓库有新 PR、有人在 Issue 里 at 我、CI 挂了,AI 都会把它推上去。 数字小不打扰,但抬头扫一眼就知道有没有要处理的事。等我手头这段写完,再统一去看。 更进一步的玩法是,AI 知道我在做什么。 我现在专注写 AIGC Weekly 的时候,它会自动把 PR 队列降级,只在出现 critical 标签的 Issue 时才推上来。 等我切到 CodePilot 的开发,PR 队列又会回到主位。 屏幕上显示什么,本质上是一个调度问题,不是一个配置问题。 传统 dashboard 让你配 widget,配完一周内还行,之后就变成一面没人看的墙。 AI 主动决策是因为它知道你正在做什么、它能换。 ## 案例四:天气、休息、所有那些"该有但你想不起来配"的东西 最让我自己意外的一类 widget 是 break-reminder。 我经常一坐就是三四个小时不动。 这个 widget 会在一段时间没有按键活动之后,在某个槽位上轻轻推一句"该起来走走了"。 墨水屏不发光,不会弹窗、不会响、不会震动,但你抬头看到一行字,自然会停一下。 它和番茄钟最大的区别是:没有强制性。它只是存在,不打扰你。 如果你正在跑代码、写文章的状态里,那一行字会被你忽略; 如果你已经累了、状态浮的时候,看到那行字会真的去倒杯水。 天气也是一样。 我不会专门去查今天会不会下雨,但顶部 widget 静静显示"下午有雨"几个字之后,下楼前我会把雨伞拿上。 这种"低优先级但有用"的信息,过去只能靠你自己记得去查,现在它们待在视野边缘,需要的时候被你扫到。 ## 它是怎么装上的:AI 全程引导 整个安装流程没有 App,没有蓝牙配对页面,没有手机扫码。你跟 AI 说: > "帮我把 ai-desk-card 装上:https://github.com/op7418/ai-desk-card" 接下来发生的事: 1. AI 检测你电脑上有没有 PlatformIO,没装就自动装 1. 检测你有没有插 USB,没插就提示你插 1. 自动编译固件、烧录到 M5Paper,1 分钟左右 1. 问你 Wi-Fi 密码,写进设备 1. 问你"想看哪些卡片、多久刷一次" 1. 推第一个 widget 上去 整个过程你只回答 Wi-Fi 密码和"想看什么"两个问题。 之后设置定时任务也是一句话:"让卡片每 30 分钟刷新天气和未读邮件,工作日 8 点到 22 点。" AI 自己去写 cron、自己去注册 loop、自己去调度。 定时任务跑的时候,AI 会读取你的 Memory 来决定推什么内容。 比如我让它每天早上 9 点更新一次,它会去看我 Memory 里最近活跃的项目(CodePilot、AIGC Weekly等),按重要度安排槽位。 这里没有"App 工程师做的设置页面",因为 AI 就是设置页面。 你过去要点十下才能调好的设置,现在一句话就行。 ## 一个跟传统硬件相反的设计:组件预置,AI 只填数据 讲到这里需要单独说一下实现思路,这是 AI Desk Card 跟传统 IoT 设备最大的不同。 通常做一个智能硬件,组件是写死在固件里的: 时钟样式、天气图标、字体大小,都是固件工程师在出厂前定好的。要加新功能,要发新固件 / OTA / 重新认证一遍。这是为什么 99% 的智能硬件买回来三个月就跟刚拆封时长得一样。 AI Desk Card 走的是反方向:16 种 widget 模板预置在服务端,AI Agent 只负责往里面塞 JSON 数据。 举个例子,pr-queue 这个 widget 的视觉布局(一个标题区、4 行 PR 信息、每行带状态图标)是渲染端写好的。 AI 不需要画图、不需要排版、不需要选字号。它只要往 daemon 发一个这样的请求: 服务端用 Python + Pillow 把这个 JSON 渲染成一张 540×280 的像素图,推到墨水屏上。 这个思路其实来自我们在 CodePilot 桌面端做的生成式 UI。 那边走的是相反的极端:模型实时生成 HTML/SVG,渲染成可交互的 widget。 两个方向看起来截然相反,但精神是一致的 —— UI 由 AI 决策,不由用户配置。 为什么墨水屏要反着来?因为约束不一样。 浏览器能跑任意代码、有强大的字体引擎、可以加载 CDN,所以让 AI 生成 UI 本身没问题。 墨水屏渲染受限,全屏 GC16 刷新要 2 秒、中文字体一套就要几兆、像素精度不能算错,AI 直接生成 UI 太重了。 所以反过来:UI 提前准备好,AI 只决定填什么、放哪个槽位、什么时候换。 这个组件库还在不断扩。硬件本身基本不变,能力却在持续生长。 ## 写在最后:AI Agent 把硬件从内置功能里解放了出来 聊点更大的事。 传统硬件公司的护城河是 "我设备里能做什么"。 CPU、传感器、操作系统、内置 App,决定了它的能力上限。一旦造好出厂,能力就基本封顶。 AI Desk Card 这种思路下,硬件的能力来源被换掉了。 它本身只是一块墨水屏 + ESP32,能做什么取决于 AI Agent 能拿到什么信息。 日历来自飞书 CLI、PR 来自 GitHub CLI、天气来自任意 API、Memory 来自你的 Obsidian 仓库 —— 这些信息源全都在 Agent 那边,不在硬件里。 当 AI Agent 成为信息中枢之后,硬件可以做得很薄、很专用。 它不需要内置一百个功能,只需要做好一件事 —— 在 AI 决定推送的时候,把内容显示出来。 这件事的成本也降到了很低的水平。M5Paper V1.1 大概 600 块,未来类似的开源开发板会更便宜,三四百块就能买到。墨水屏、彩色墨水屏、TFT 小屏、甚至 Kindle、墨水屏阅读器,理论上都可以适配同一套 Skill。 后面我还想做几件事: - 适配 M5Paper S3 和 Inkplate / Waveshare 等其他墨水屏开发板 - 尝试给老 Kindle 写一个适配层,把闲置的阅读器变成桌面副屏 - 跟 Home Assistant 联动,把智能家居状态推到桌面卡上 —— 客厅温度、门锁状态、扫地机器人位置 - 探索彩色墨水屏的可能性,开放更多 widget 类型 每多支持一种硬件,就多一种 AI 触达物理世界的方式。这些设备不需要变聪明,它们只是 AI Agent 的物理出口。 真正在变聪明的是你桌上那个 AI,而它聪明的速度,比硬件迭代快得多。 GitHub:https://github.com/op7418/ai-desk-card 如果你觉得这次的内容对你有帮助,可以帮我点个赞或者转发给需要的朋友。

译AI Desk Card 是一款 4.7 寸磁吸墨水屏,结合 AI Agent(如 Claude Code),通过预置模板与数据填充,动态显示日历、待办、GitHub PR 队列、天气等内容。它解决了传统便签纸的静态限制,实现内容自适应和场景切换(如夜间变为电子名片)。核心理念是将硬件从固定功能中解放,使显示能力由 AI 可获取的信息动态定义,从而提升效率并减少手动配置。

向阳乔木@vista8 · 5月22日71

虽然我已从字节离职一年多,但飞书还是我认为最好用的工作平台,现在也是最适合连接各种AI工具的平台。 最近我发现Zara (@zarazhangrui ) 开源了一个超好用的工具,直接把你本地的 Claude Code 变成飞书机器人。 这样,手机上用飞书就能随时Claude Code对话,完成各种复杂任务。 昨天我就在AI产品蝗虫群分享,体验过的都觉得棒,安装指令如下: npx -y lark-channel-bridge@latest start 体验后,几点印象深刻: ① 能把收到的飞书消息转给Claude Code处理,真正的“AI工作助理”。 ② 飞书支持可交互卡片,不仅内容渲染好,也支持按钮点击等操作,比打字对话简单多了。 ③ AI 生成的图片、文件等,在飞书对话直接显示,不像在终端需要自己点击链接查看。 ④ 飞书聊天记录支持全量搜索,Claude Code上下文压缩也不怕。 还有很多功能设置,比如消息回复方式,工具调用是否显示等,让人很有掌控感。 不多说,强烈推荐自己试试,零差评,必须给Zara点赞!

译前字节员工推荐飞书作为连接AI工具的平台。通过Zara开源的lark-channel-bridge工具,可将本地Claude Code变为飞书机器人,实现手机端随时进行复杂任务对话。该工具能将飞书消息转给Claude Code处理,支持可交互卡片和文件图片的直接显示,并结合飞书的全量搜索功能,提供流畅、可控的“AI工作助理”体验,被作者强烈推荐。

向阳乔木@vista8 · 5月22日79

今天抽空试试,x的产品经理真的不太行。

译推文批评X平台产品经理能力不足,发布文章体验糟糕。引用推文显示,开发者利用ChatGPT(通过codex/goal)开发了Markdown转换插件,允许用户拖拽文件快速生成X文章格式,以改善发布流程。该插件开源并提供谷歌插件版本,旨在解决原生体验的痛点。

karminski-牙医@karminski3 · 5月22日61

有老铁问这个模型能不能翻译NSFW, 我都 LunaTranslator 这么明显了, 看不懂吗... 饭递到嘴边了都吃不上😇

译腾讯近期发布了三款翻译专用大模型(Hy-MT2系列)。其中,Hy-MT2-30B-A3B在金融、法律等专业领域的翻译基准测试中,性能超越了DeepSeek-V4-Pro。该系列模型具备强大的多语言翻译能力,可应用于包括特定内容在内的多种翻译场景。

Berryxia.AI@berryxia · 5月22日60

卧槽,兄弟们你敢信? 现在可以本地Mac电脑就可以跑音乐模型! 这一刻苹果的本地的统一内存架构又发挥了它的优势,早买早享受😎 Stable Audio 3 官方版刚出,直接整了个狠货: 59x realtime 在 M5 Pro 上跑,MacBook Pro 直接起飞。 最离谱的是: - LoRA 微调不到 1 小时就能搞定 - Sm 模式更快,Medium 模式更高质量 - 一行命令直接装(MLX 优化版) curl -LsSf https://raw.githubusercontent.com/Stability-AI/stable-audio-3/main/optimized/mlx/bootstrap.sh | bash 这已经不是“云端试试水”了,而是真正在本地就能高强度玩音乐生成的工具。 想快速出 demo?想自己训风格?想在飞机上继续作曲?现在基本都能做了。 而且他们直接说“break it plz”,明显是想让社区狠狠折腾。 整起来~

译Stable Audio 3官方正式发布,并提供了针对苹果MLX框架的优化版本,使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度,性能表现突出。此外,该工具支持在不到1小时内完成LoRA微调,并提供快速(Sm)与高质量(Medium)两种生成模式。开发者鼓励社区积极探索其潜力,标志着本地化音乐创作工具达到了新高度。

OpenClaw🦞@openclaw · 5月22日59

OpenClaw 2026.5.20 🦞 🎙️ Discord voice follows you 🔐 Doctor catches plaintext secrets 🧭 Model status explains surprises 🪟 Windows install gets unstuck Still into boring fixes. https://github.com/openclaw/openclaw/releases/tag/v2026.5.20

译OpenClaw 2026.5.20 🦞 🎙️ Discord 语音跟随你 🔐 Doctor 捕获明文密钥 🧭 模型状态解释意外情况 🪟 Windows 安装问题解决 依然专注于那些枯燥的修复。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.20

ginobefun@hongming731 · 5月21日69

真棒👍

译用户一次性开源了17套面向GEO的实践Skill,其中14套覆盖了从战略、页面、内容到监测、运营等大部分场景,另有3套与GEOFlow系统配套。每个Skill专注解决一个关键问题,例如“品牌知识图谱”、“页面GEO诊断”与各类内容创作改造等。所有Skill均配有示例报告和使用说明,相关成果已发布于GitHub并持续更新。

向阳乔木@vista8 · 5月21日71

最近两天爆火的写论文Skill 看来太刚需了,没几天都1.6w Star了。 安装命令: /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills 开源地址:https://github.com/Imbad0202/academic-research-skills

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
21:10
StepFun@StepFun_ai
68
Step 3.7 Flash 现已在 @kilocode 上线! 开放权重,随时可运行。感谢快速集成 🙏

Kilo: StepFun's Step 3.7 Flash is one of the best open-weight models you can run right now, and it's live in Kilo. A multimoda...

智能体多模态开源/仓库模型发布
11:40
StepFun@StepFun_ai
72
阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构,每个 token 激活 11B 参数,推理速度最高达 400 tok/s,支持 256K 上下文窗口,并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一(67.1分),在 SWE-bench Pro 上排名第二(56.3分)。模型具备原生多模态能力,由语言骨干与视觉编码器组成,原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源,并兼容 vLLM 等多种推理框架。

ModelScope: Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...

智能体多模态开源/仓库模型发布
07:44
Rohan Paul@rohanpaul_ai
4
在OpenClaw时代,我们都需要这只机械爪。
其他开源/仓库
07:19
Peter Steinberger 🦞@steipete
65
OpenClaw 通过重构更轻量、更快的依赖库(如 proxyline.dev、fs-safe.io 等)进行优化。根据官方数据,优化后冷启动速度快了 2.9 倍,热启动速度快了 2.5 倍,安装包体积减少了 59%,依赖项数量相比月度高点下降了 42%。核心理念是构建一个更小的核心、明确的依赖关系,并将可选功能以插件形式提供。

OpenClaw🦞: OpenClaw's latest sweep: cold agent turns 2.9x faster, warm turns 2.5x faster, tarball 59% smaller, deps down 42% from t...

智能体产品更新开源/仓库编码
5月28日
10:37
歸藏(guizang.ai)@op7418
同事件精选83
开源个 Skill|彻底解决小红、小绿书配图难题

作者开源了 guizang-social-card-skill,这是一个专为小红书、微信公众号等图文平台设计的竖屏(3:4)卡片生成工具。它针对图文内容特点进行了视觉校准,内置了11个图文品类的适配规则,能根据内容自动选择“杂志风”或“网格风”视觉系统。该工具通过智能识别图片主体与色度来处理文字压图;默认接入Pexels、Unsplash、Wallhaven三个免费图库自动配图,以减少人工操作和规避AI生图水印的限流风险。作者强调这是一个有明确能力边界(如不做追星粉丝向、纯促销硬广)和迭代记录的产品化技能。

智能体MCP/工具开源/仓库
同一事件,精选展示《藏师傅发布小红书图文排版AI Skill,集成地图与自动配图》
推荐理由:歸藏这个Skill把AI生成的图文卡片从「一眼AI」拉到了杂志排版级别,免费图库和截图美化一整套,做小红书的可以直接省掉排版时间,比任何提示词都更像产品。
04:30
宝玉@dotey
59
开发者RepoPrompt已被OpenAI招募。其同名工具RepoPrompt现转为免费,并即将开源。原付费用户将获得OpenAI Codex的Credits。该工具能将整个代码仓库拼接成单个XML文本,便于发送给Gemini 2、Claude 3.5、o1 pro等支持长上下文的模型进行处理,也支持选择部分文件。目前仅支持Mac平台。

宝玉: Repo Prompt 这个工具挺实用的,它可以把你整个Repo的代码拼成一个XML文本,方便你发给像Gemini 2、Claude 3.5、o1 pro这样支持长上下文的模型。 当然你也可以只选择部分文件,目前只支持 Mac https:...

OpenAI产品更新开源/仓库编码
02:00
Hao AI Lab@haoailab
精选70
🚀仅需7秒即可生成30秒1080p视频! 我们开源了FastVideo Dreamverse:基于单张NVIDIA B200 GPU和LTX-2模型,实现实时视频生成的氛围引导工具。 Repo: https://github.com/hao-ai-lab/FastVideo/tree/main/apps/dreamverse Blog: https://haoailab.com/blogs/fastvideo-dreamverse-release/
GitHub开源/仓库视频部署/工程

推荐理由:7秒钟出30秒1080p视频,而且完全开源,视频生成速度被拉到实时边缘,虽然B200不是人人有,但路线值得所有做视频产品的同行研究。
01:02
Qwen@Alibaba_Qwen
精选69
Fast, faster, Qwen. 🚀

Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。

PyTorch: The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...

智能体开源/仓库推理论文/研究

推荐理由:Qwen3.5在TokenSpeed上跑出580 tps,这是开源LLM推理的极限突破,对agent类应用是实实在在的性能跃进,PyTorch这篇博客值得每一个做推理部署的细读。
5月27日
23:59
Perplexity@perplexity_ai
精选68
我们开源了重新构建的Unigram分词器,可将CPU占用降低5-6倍。 小型重排序器和嵌入模型在GPU上运行时间仅为个位数毫秒,使得CPU分词成为总延迟的重要组成部分。 http://github.com/perplexityai/pplx-garden
开源/仓库部署/工程

推荐理由:Perplexity 开源的这个 tokenizer 能把 CPU 利用率砍掉五六倍,做实时推理的团队值得立马试试,对延迟敏感的场景是实打实的优化。
21:27
Berryxia.AI@berryxia
61
开源Codex实战指南发布

一份由开发者“苍老师”撰写的免费开源Codex实战指南(CodexGuide)已发布,旨在帮助新手跳过入门门槛。手册按四层结构组织:认识入口、跑通任务、建立方法、团队沉淀,详细覆盖CLI入门、桌面端安装、Plus订阅,乃至通过ChatGPT App远程指挥Mac Mini等场景。目前,该指南已收录13个可直接复刻的实战案例,例如配合Draw.io自动绘制架构图、GitHub Actions CI失败自动修复、以及在Obsidian中搭建AI知识库。

苍何: http://x.com/i/article/2059577896449331201

智能体OpenAI开源/仓库教程/实践
14:27
Berryxia.AI@berryxia
56
用Vibe Coding打造个性化开源Chrome插件

开发者@vista8(乔帮主)利用Vibe Coding开发了一个功能集成的Chrome新窗口插件并开源。该插件整合了番茄钟、音乐播放、Todo、便签等独立开发者常用工具,并基于个人兴趣加入了天气信息以便判断钓鱼条件。此过程展示了Vibe Coding如何帮助用户实现现有软件无法满足的个性化、小众需求。插件还支持通过Command + K快捷键唤起,集成了谷歌搜索和ChatGPT带提示词跳转功能。

向阳乔木: 说好不熬夜的,但 AI Coding 太上瘾! 昨晚开发了个 Chrome 新窗口插件,超方便。 1. 番茄钟、音乐播放、Todo、便签、天气、换背景等,独立开发者多件套整合到了一起 😂 2. 支持谷歌搜索,ChatGPT跳转官网带提示词...

开源/仓库编码
13:31
向阳乔木@vista8
70
AI编程实战:开源一个全能Chrome新标签页插件

一名开发者分享了利用AI编程,快速开发的一个Chrome新窗口(或新标签页)插件。该插件整合了番茄钟、音乐播放、Todo、便签、天气、换背景等多款独立开发者常用工具。功能上支持直接进行谷歌搜索,并能跳转至ChatGPT官网发送预设提示词;同时支持通过Command + K快捷键唤起,实现快速设置与搜索。该项目已开源。

开源/仓库
11:42
MiniMax (official)@MiniMax_AI
55
MiniMax宣布其M2系列模型即将结束,M3模型正准备推出。M2于去年12月23日首次开源,至今已过去半年多。在此期间,其提出的技术如CISPO、Forge RL System及Self-Evolution在开源社区被广泛采用,且几乎所有模型发布都在Hugging Face排行榜上达到过第一。与此同时,MiniMax的MSA论文即将发布。

RyanLee: Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...

开源/仓库行业动态
09:00
meng shao@shao__meng
71
微软发布终端原生 Web Agent 框架:Webwright

微软开源了终端原生Web Agent框架Webwright。其核心创新是“代码即动作”:让大语言模型直接编写可执行的Playwright Python脚本,而非传统的“观察-预测-点击”循环,由此生成的程序可复用。在性能上,基于GPT-5.4在Odysseys长程任务基准上达60.1%,较此前SOTA提升15.6个百分点;基于Claude Opus 4.7在难例上达80.5%,超越GPT-5.4。框架架构极简,核心代码约1000行,并已与Claude Code、OpenAI Codex等集成。用户评论表达了对该工具在浏览器自动化方面相比Playwright能带来巨大提升的期待。

Omar Shahine: Need to try this. Hoping for massive boost over Playwright for browser automation. https://github.com/microsoft/webwrigh...

智能体Microsoft开源/仓库
08:27
Berryxia.AI@berryxia
56
oMLX发布v0.3.11:专注稳定性,打造"开箱即用"的本地AI体验

oMLX项目发布了v0.3.11版本,这是一个基于Apple MLX框架、旨在提升Apple设备端侧模型性能的项目。本次及前几轮更新均以在高内存压力下的稳定性为首要目标,开发者正呼吁用户对此进行更多测试。该项目由一位有全职工作的独立开发者维护,其核心目标是提供“开箱即用”的本地AI体验——让用户无需阅读文档或调整参数,甚至在模型下载过程中即可开始对话,从而降低本地AI的使用门槛。

Jun Kim: Just released oMLX v0.3.11. The last few updates have focused on stability as my top priority, and I'm planning to ship ...

GitHub产品更新开源/仓库端侧
08:09
Peter Steinberger 🦞@steipete
69
Opus周围的所有依赖都过时或糟糕,所以我凭感觉自己重写了,并替换了octoscript和opus-native。 现代WASM在Node/V8上的性能与原生代码大致相当。 现在你的Claw可以自动做会议笔记,并且你可以在会议中与它对话。 https://github.com/openclaw/libopus-wasm
开源/仓库开源生态编码
02:39
🚨 AI News | TestingCatalog@testingcatalog
49
MiniMax M3 已被预告 🔥 > MiniMax M3 将基于新的稀疏注意力架构 > MiniMax M3 预计将开源 很快? 👀

MiniMax (official): #MSA #OpenSource #M3 🫣😎

开源/仓库模型发布
00:27
Berryxia.AI@berryxia
74
Anthropic黑客松冠军团队开源AI编程工作台ECC

Anthropic黑客松冠军团队使用Claude Code耗时8小时开发出产品zenith.chat并赢得1.5万美元API credits。赛后,他们将背后的完整工作流开源为ECC项目。该项目包含61个智能体、246个技能和76个预设命令,并配备规则引擎、Hook系统、安全扫描器和MCP配置,支持Claude Code、Cursor、Codex等多平台。它提供了一套可让AI持续工作的完整工业级编程环境框架,而非简单的提示词集合,已完全开源在GitHub。

泊舟: Anthropic 黑客松冠军,把自己的 AI 编程工作台开源了。 项目叫 ECC。作者 Affaan Mustafa 和队友用 Claude Code 8 小时做出 http://zenith.chat 拿了冠军,后来把背后的工作流整理成...

智能体AnthropicGitHubMCP/工具
5月26日
23:29
SenseTime@SenseTime_AI
同事件精选77
开源多模态模型SenseNova-U1完整训练代码库

商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。

多模态开源/仓库开源生态数据/训练
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤把 SenseNova-U1 的训练代码全量开源,支持多模态任务和 MoE,还给了完整的并行策略,做多模态训练的可以直接 fork 过去用,Apache-2.0 很友好。
22:58
SenseTime@SenseTime_AI
70
SenseNova-U1全训练代码开源,支持多模态多任务训练

OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

图像生成多模态开源/仓库开源生态
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
07:31
ginobefun@hongming731
73
非常酷,准备试一下~ FreeLLMAPI 是一个开源代理,聚合了多个提供商的免费 API 额度,每月能提供约 8 亿 Token,并具有自动故障转移和兼容 OpenAI 的端点。

Alvaro Cintas: "I'm out of free API credits" is officially over 🤯 FreeLLMAPI is an open-source proxy. Each provider's free tier is a t...

开源/仓库部署/工程
00:23
向阳乔木@vista8
65
Quickshare工具升级:一键部署,解决AI内容微信分享难题

该推文介绍了Quickshare工具,用于将AI生成的HTML、Markdown等内容转化为可分享链接,以解决在微信中分享此类内容不便的问题。工具新推出基于Cloudflare的一键部署版本,并新增管理后台。用户可通过AI智能体安装部署,其核心功能还包括为链接添加密码保护,方便审核等场景。

GitHub开源/仓库部署/工程
00:20
Berryxia.AI@berryxia
68
开源研究系统Onyx如何用"反常识约束"超越Claude与ChatGPT

开源深度研究系统Onyx在DeepResearch Bench上排名第一,超越了Claude和ChatGPT。其核心设计十分反直觉:顶层调度器(orchestrator)被完全剥夺了网络搜索和URL访问权限,仅负责任务分解与评估。这种约束迫使调度器专注于高阶战略思考,避免了传统系统中调度器因能搜索而过早给出浅层答案的缺陷。Onyx采用两层架构和三阶段流水线,并完全开源,支持接入企业内部数据源。

Avi Chawla: The No. 1 deep researcher beats Claude and ChatGPT with a trick neither uses. I studied the open-source architecture beh...

智能体MCP/工具开源/仓库
5月25日
17:20
Berryxia.AI@berryxia
58
推文介绍用户小东东在AI生图领域的活跃探索与贡献。他近期发布了众多极具美感的AI生图提示词。同时,他开发了一款开源的Chrome插件,用于简化在X平台发布文章的流程,并支持一键同步博客内容。该插件原版已开源,地址为:https://github.com/nevertoday/xposter 。

向阳乔木: 推荐关注 @xiaoxiaodong01 ,AI生图方面做了很多探索。 最近非常活跃,发布了很多极具美感的生图提示词。 以前印象中最喜欢研究AI生图的是 zho 和 神佬,小小东后来居上。 最近开源的X文章发布Chrome插件也相当优秀。 ...

图像生成开源/仓库
14:23
向阳乔木@vista8
31
有开发者分享称,基于卡比的wx-cli工具,利用Codex复刻了一个"微信消息驾驶舱"界面。该工具计划在近期完善后开源,但开发者同时表达了对可能收到法律警告的担忧。

向阳乔木: 根据神佬 @berryxia 的截图,丢给Codex复刻的微信消息驾驶舱。 底层是卡比的wx-cli,等完善后看好不好开源。

智能体开源/仓库
5月23日
23:51
向阳乔木@vista8
67
个人开发者tw93的开源实践与启示

个人开发者tw93在全职工作与家庭之余,独立开发了妙言、Pake、Mole等六款深受海外用户欢迎的开源工具。其产品均始于解决自身痛点,如Mole因精准清理程序员电脑缓存,超过70%的用户来自海外。tw93强调产品美学与极致完成度,并将工程实践与AI协作经验沉淀为开源技能库Waza。他的实践展示了如何通过解决真实问题、坚持开源社区协作以及将AI作为协作伙伴,构建具有全球影响力的项目。

GitHub大佬观点开源/仓库教程/实践
16:07
Peter Steinberger 🦞@steipete
66
我来晚了,但cmux真的很棒。https://github.com/manaflow-ai/cmux 当前分工: Codex Mac应用:知识工作、学习、阅读 cmux + Codex CLI:编码
开源/仓库编码
15:49
宝玉@dotey
67
该开源项目feishu-claude-code-bridge实现了飞书与本机Claude Code的直连互通。用户可在飞书会话中直接指挥Claude Code执行任务,如抓取内容、翻译并创建文档,过程实时同步。其核心是搭建了一个"飞书消息 ↔ 本机Claude Code CLI"的桥梁,工作区设置等功能体验与直接使用Claude Code几乎一致。这种模式不仅打通了飞书与Claude Code,也为将飞书与Codex、Cursor等其他本地AI工具连接提供了可复用的范式。需注意,自2026年6月15日起,Claude订阅计划对通过`claude -p`等模式的使用将独立计费。

宝玉: 如果你同时用飞书和 Claude Code 的话,Zara Zhang这个开源项目 feishu-claude-code-bridge 值得一试,它可以让你在飞书里面直接连接 Claude Code,从飞书指挥 Claude Code,反过...

智能体MCP/工具开源/仓库教程/实践
15:19
宝玉@dotey
精选75
飞书-Claude Code桥接开源项目

feishu-claude-code-bridge是一个开源项目,可实现飞书与本机Claude Code CLI的双向连接。用户能从飞书消息中直接指挥Claude Code执行任务,Claude也能读取飞书中的工作上下文并创建、编辑飞书文档。其工作原理是将飞书消息转为Prompt通过命令行调用Claude CLI,并将流式输出实时同步回飞书。该模式可扩展连接Codex等其他本地工具。需注意,2026年6月15日起,Claude订阅计划对claude -p模式将独立计费。

Zara Zhang: Introducing the Claude Code Lark/Feishu Bridge 🌉 (open-source) Talk to Claude Code in Lark/Feishu like a colleague - Us...

智能体开源/仓库教程/实践编码

推荐理由:如果你同时用飞书和 Claude Code,这个开源桥接值得立刻试试,宝玉的教程把从安装到原理讲透了,而且能照葫芦画瓢改接到 Codex、Cursor,实用性拉满。
10:51
向阳乔木@vista8
68
开源GEO系统GEOFlow 2.0发布,从工具升级为基础设施

开源GEO系统GEOFlow 2.0发布,一个月内GitHub星标超1.6k。此次关键版本升级,使其从内容生产工具演进为“GEO内容工程基础设施”。核心变化包括基于Laravel重构,实现多站点与多Agent管理;强化AI知识库与向量化检索;新增统一的数据分析页面,构建运营闭环。系统旨在帮助用户持续建设“可信内容资产”,并秉承“利他就是利己”的开源理念。

姚金刚: 经过一个月的持续迭代,第一套GEO系统"GEOFlow 2.0"正式上线,GitHub地址见文末 一个月前,GEOFlow 1.0 上线,到现在,刚好过去一个月,Star数已经超过1.6k,这一个月来,收到了不少朋友的反馈和落地实践案例 这...

智能体GitHub开源/仓库搜索
01:15
Perplexity@perplexity_ai
精选82
今天我们开源了Bumblebee,一个适用于macOS和Linux的只读扫描器。 它检查开发者机器上的高风险软件包、扩展和AI工具配置。 连接到Computer后,每当出现新的供应链风险时,它可以触发更深入的扫描。 https://github.com/perplexityai/bumblebee
安全/对齐开源/仓库
关联讨论 1 条MarkTechPost(RSS)
推荐理由:这不是另一个华而不实的 AI 玩具,而是实打实的开发环境安全检查工具,开源且只读,接入 Computer 后还能动态响应新威胁,做 AI 工具链的团队应该现在就 fork。
5月22日
22:56
Rohan Paul@rohanpaul_ai
精选75
首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布

ModelBest、清华大学与OpenBMB社区联合发布了BitCPM-CANN,这是全球首个完全基于华为昇腾910B NPU训练的开源1.58比特三元大模型。其核心创新在于采用仅含三种权重状态的极低比特量化技术,使模型内存占用相比BF16降低约6倍,可高效部署于手机、电脑、车载设备等边缘端。更关键的是,整个训练全栈(从量化算子到框架)均在昇腾上原生构建与验证,而非简单移植。该模型家族(0.5B-8B)在多项基准测试上保持了全精度模型95-97%的性能,为资源受限环境下部署和复现大模型提供了可落地的解决方案。

OpenBMB: 🚀 BitCPM-CANN by ModelBest × @Tsinghua_Uni × OpenBMB is here - and it's not about stacking parameters. Memory costs are...

开源/仓库模型发布端侧
关联讨论 1 条IT之家(RSS)
推荐理由:首个开源的1.58-bit三元LLM,直接在昇腾芯片上原生训练,内存压缩到BF16的六分之一,8B模型就能跑在手机上,做端侧部署的可以立刻上手试试了。
19:30
歸藏(guizang.ai)@op7418
73
开源一个 Skill,让 AI 接管你屏幕边那张便签纸

AI Desk Card 是一款 4.7 寸磁吸墨水屏,结合 AI Agent(如 Claude Code),通过预置模板与数据填充,动态显示日历、待办、GitHub PR 队列、天气等内容。它解决了传统便签纸的静态限制,实现内容自适应和场景切换(如夜间变为电子名片)。核心理念是将硬件从固定功能中解放,使显示能力由 AI 可获取的信息动态定义,从而提升效率并减少手动配置。

智能体开源/仓库教程/实践端侧
17:19
向阳乔木@vista8
71
飞书开源工具接入Claude Code,移动端AI助理体验升级

前字节员工推荐飞书作为连接AI工具的平台。通过Zara开源的lark-channel-bridge工具,可将本地Claude Code变为飞书机器人,实现手机端随时进行复杂任务对话。该工具能将飞书消息转给Claude Code处理,支持可交互卡片和文件图片的直接显示,并结合飞书的全量搜索功能,提供流畅、可控的“AI工作助理”体验,被作者强烈推荐。

智能体MCP/工具开源/仓库
15:49
向阳乔木@vista8
精选79
推文批评X平台产品经理能力不足,发布文章体验糟糕。引用推文显示,开发者利用ChatGPT(通过codex/goal)开发了Markdown转换插件,允许用户拖拽文件快速生成X文章格式,以改善发布流程。该插件开源并提供谷歌插件版本,旨在解决原生体验的痛点。

小小东: X 发布神器: Markdown 转 x 文章, 谷歌插件来了 这几天,我开启了codex /goal 费了10个亿的token 让chatGPT肝出了这个插件 这两天我小小东的文章,都是这个插件发布而来 具体操作是拖拽Markdown 文...

开源/仓库

推荐理由:X官方死活不做Markdown导入,这个插件用拖拽填上了这个坑。如果你经常在X发长文,直接装一个,体验能提升一截。
10:42
karminski-牙医@karminski3
61
腾讯近期发布了三款翻译专用大模型(Hy-MT2系列)。其中,Hy-MT2-30B-A3B在金融、法律等专业领域的翻译基准测试中,性能超越了DeepSeek-V4-Pro。该系列模型具备强大的多语言翻译能力,可应用于包括特定内容在内的多种翻译场景。

karminski-牙医: 这一波估计XX词典凉的透透的了... 刚看到这个图坐不住了, 30B-A3B 的小模型跑分碾压 DeepSeek-V4-Pro? 谁给你的勇气? 然后定睛一看, 原来是翻译专用大模型. 腾讯刚刚放出了3个翻译专用大模型, 分别是 Hy-MT...

开源/仓库模型发布
08:13
Berryxia.AI@berryxia
60
Stable Audio 3登陆Mac本地运行,音乐生成效率惊人

Stable Audio 3官方正式发布,并提供了针对苹果MLX框架的优化版本,使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度,性能表现突出。此外,该工具支持在不到1小时内完成LoRA微调,并提供快速(Sm)与高质量(Medium)两种生成模式。开发者鼓励社区积极探索其潜力,标志着本地化音乐创作工具达到了新高度。

dadabots: 🥳 Announcing Stable Audio 3 🍕 🏆 fastest music models ever 💻 runs on MacBookPro M-series 🧪 break it plz 🧠 LoRA fine...

开源/仓库模型发布端侧语音
06:38
OpenClaw🦞@openclaw
59
OpenClaw 2026.5.20 🦞 🎙️ Discord 语音跟随你 🔐 Doctor 捕获明文密钥 🧭 模型状态解释意外情况 🪟 Windows 安装问题解决 依然专注于那些枯燥的修复。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.20
智能体产品更新开源/仓库语音
5月21日
13:15
ginobefun@hongming731
69
用户一次性开源了17套面向GEO的实践Skill,其中14套覆盖了从战略、页面、内容到监测、运营等大部分场景,另有3套与GEOFlow系统配套。每个Skill专注解决一个关键问题,例如"品牌知识图谱"、"页面GEO诊断"与各类内容创作改造等。所有Skill均配有示例报告和使用说明,相关成果已发布于GitHub并持续更新。

姚金刚: 一次性开源17套GEO Skill 把这一年来对GEO的研究、学习、实践与思考,大都融合了进去 欢迎下载使用 这套Skill的一些说明: 1、其中14套Skill,覆盖了目前大部分的GEO相关场景,另外3套Skill,与GEOFlow这个系...

GitHub开源/仓库搜索
12:04
向阳乔木@vista8
71
最近两天爆火的写论文Skill 看来太刚需了,没几天都1.6w Star了。 安装命令: /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills 开源地址:https://github.com/Imbad0202/academic-research-skills
智能体GitHub开源/仓库
‹ 上一页
1…56789…14
下一页 ›