AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 526 条
全部一手资讯X论文
标签「开源/仓库」清除
Greg Brockman@gdb · 5月15日69

codex for finding local businesses who may need help building a website:

译开发者发布了一款开源的Codex技能,旨在将本地搜索转化为潜在客户线索。该工具能自动搜索附近的各类本地商户,并分析其是否拥有独立网站或仅依赖社交媒体页面,以此判断其建站需求。核心功能包括潜在客户挖掘、网站与纯社交媒体状态检查、线索评分、提取联系方式,并支持聊天或CSV格式输出。用户可通过一条命令快速安装使用。

Orange AI@oran_ge · 5月15日61

开源一个月的时间,飞书 CLI 在 Github 破万星了。 相比同期的一些 CLI,飞书这个确实是群里口碑最好的。 为 Agent 做软件这件事,飞书践行得很好。

歸藏(guizang.ai)@op7418 · 5月15日55

藏师傅的 PPT Skills,感觉 GitHub star 马上就要破万了呀! 没点 star 的朋友点点 star 吧,谢谢了。 顺便让 Codex 分析了一下安装的数据,还挺有意思的。

Berryxia.AI@berryxia · 5月15日75

兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单一语言死死锁住,全球观众根本触达不到。 Violin把ASR、LLM翻译、TTS三者无缝串成一条流水线。 「输入一段视频,它就能自动完成语音识别、多语言翻译、自然语音合成。」 最实用的是两个功能: 你可以个性化翻译风格,把学术报告改成孩子也能听懂的版本; 还能直接和视频聊天,任何问题都基于视频内容给出答案。 它同时支持Web应用、CLI命令行和Agent Skill,全部MIT开源。 以后高质量内容不再只属于某一种语言,而是真正走向全球。 Demo、博客和GitHub都在原帖。 如果你在做内容、教育、跨语言传播,或者正在开发多模态Agent,这套Skill值得立刻去试。 你觉得AI下一步最该解决的,是内容创作,还是内容全球化? 项目地址:https://github.com/shang-zhu/violin

译牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。

Berryxia.AI@berryxia · 5月15日74

牛逼!Yetone 佬。

译开发者Yetone将一篇关于桌面应用开发“最佳实践”的文章转化为一个名为“native-feel-skill”的Agent Skill。该Skill旨在帮助开发者利用Coding Agent,轻松地重构或开发跨平台桌面应用,并使其获得极其接近Native原生应用的性能体验。项目代码已开源在GitHub上。

Berryxia.AI@berryxia · 5月15日32

LM Studio 又更新了 Beta 版,在MLX框架下优化增强了之前的缓存问题。 目前需要打开dev模式然后加油更新到最新版体验。

Peter Steinberger 🦞@steipete · 5月15日55

We've been working really hard on performance, reliability, security, and stability. Invented whole new automation flows with crabbox, automated video QA and are spending insane amounts of CPU cycles on CI. It's a good release.

译OpenClaw 团队近期专注于提升性能、可靠性、安全性和稳定性,通过引入 crabbox 等全新自动化流程以及投入大量 CPU 资源于 CI 环节,实现了显著改进。新版本默认将 OpenAI 配置设为 Codex 登录,增强了运行时回退与停滞流恢复机制,确保 Telegram 轮询在停滞情况下仍可维持。此外,安装包更精简、启动路径更快速,整体运行更高效、稳定且不易卡顿。

Berryxia.AI@berryxia · 5月15日82

Tom 兄弟最近直接把 html-anything 开源了。 他花了整整3天,写了1.5万行代码,核心就一个目的:让你的 AI Agent 把任何数据直接转成高质量、专业设计的 HTML。 Markdown、CSV、JSON、图片、代码……11种格式随便扔进去,它就能按照内置的75套模板,输出杂志风格、Keynote、海报、小红书笔记、推文卡片、简历、视频帧等不同形态,每套模板都有真实示例可以直接打开看效果。 它能自动识别并支持 Claude Code、Cursor、Codex、Hermes 等十几个本地 code agent,一键切换,复用已登录会话,完全本地运行,不需要 API key,边际成本几乎为零。 以前 Agent 输出往往是干巴巴的纯文本,现在它直接把呈现能力补上了。 对每天用 Agent 做内容、做报告、做产品演示的人来说,这一步提升很实在。 项目地址在评论区,感兴趣的可以去试。

译Tom 兄弟开源了“html-anything”项目,旨在让 AI Agent 能将多种数据格式直接转换为专业设计的 HTML。该工具支持 Markdown、CSV、JSON 等 11 种输入格式,并内置 75 套模板,可生成杂志、海报、推文卡片等多种形态。它能自动兼容 Claude Code、Cursor 等主流本地 code agent,实现一键切换、完全本地运行,无需 API 密钥,边际成本极低。这一能力显著提升了 Agent 的内容呈现效果,对日常使用 Agent 进行内容创作、报告和演示的用户具有实用价值。

Berryxia.AI@berryxia · 5月14日65

凌晨刷到这条,我脊背瞬间发凉,全身鸡皮疙瘩都起来了。 @zcbenz,MLX维护者、Electron.js创始人,在Apple亲手把这个消息放了出来: MLX的CUDA后端,所有测试全部通过! 那个曾经被当成“苹果硅独占玩具”的MLX,现在直接杀进了NVIDIA的主场。 同一套代码。 Mac上极致丝滑,NVIDIA显卡上也全速狂飙。 以前大家还在PyTorch的兼容地狱里挣扎,Apple用MLX悄无声息打出一记王炸。 本地AI的跨平台时代,真的要来了。 而且来得比所有人想象的都要猛、都要狠。 我现在只剩下一个感觉——血脉喷张。 MLX的CUDA时代,正式拉开序幕。 你敢信!

译MLX框架的CUDA后端已实现所有测试通过,标志着其从苹果芯片专属工具正式进军NVIDIA GPU领域。这意味着开发者能用同一套代码,在Mac和NVIDIA显卡上获得高性能运行体验,有望打破PyTorch等框架的兼容性壁垒。此举可能强力推动本地AI应用的跨平台发展进程。

Berryxia.AI@berryxia · 5月14日68

Agent 记忆真是太特么卷了啊! 不得不说,这个赛道越多人加入越爽啊! Tencent AI团队花了整整6个月,就死磕一个问题:AI agent长会话里疯狂丢上下文。 他们最后把一套记忆系统做完,直接开源了。 我看完他们的分享,最大的感受是,99%的人还在卷上下文长度,真正把agent拉回正轨的,是这三招硬核操作。 第一招,实时压缩过期上下文。 直接把token消耗砍掉61%。 以前动不动就爆上下文,现在中途就瘦身,agent还能保持清醒。 第二招,给agent画一张结构化的任务地图,用mermaid语法直接生成。 30多步的复杂流程里,丢轨概率大幅下降。 agent不再像无头苍蝇,它知道自己现在在哪一步,该往哪走。 第三招,专门给agent建了Persona记忆。 人格一致性从48%直接跳到76%。 它不再一会儿专业一会儿随意,回答风格和角色设定稳得一批。 这套东西不是理论,是他们真实踩坑6个月踩出来的。 Repo已经挂出来了,谁在做agent的赶紧去试。 以前总觉得agent记忆难,是因为我们把问题想简单了。 真正难的不再是存更多信息,是需要解决让它在正确的时间用正确的方式想起正确的东西。 你还在靠堆token解决agent记忆问题吗? 项目地址:https://github.com/Tencent/TencentDB-Agent-Memory

译腾讯AI团队耗时6个月,针对AI agent在长会话中频繁丢失上下文的问题,开发并开源了一套记忆系统。该系统通过三大核心操作提升性能:实时压缩过期上下文,将token消耗降低61%;利用mermaid语法生成结构化任务地图,使agent在30多步复杂工作流中不易迷失;建立专用Persona记忆,将人格一致性从48%提升至76%。方案基于实际踩坑经验,强调agent记忆的难点在于在正确时间以正确方式回忆正确信息,而非单纯堆叠token。项目已在GitHub开源,为AI agent发展提供实用解决方案。

SenseTime@SenseTime_AI · 5月14日77

Led by our Co‑Founder and Chief Scientist Dr. @lindahua , our passionate AI pioneers have brought vision to life.🔥 Access the 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝘁𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗿𝗲𝗽𝗼𝗿𝘁 for the architecture, training recipe, and innovations behind this breakthrough.

译由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告,详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型(MoE)的新权重,旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

🚨 AI News | TestingCatalog@testingcatalog · 5月14日70

OpenSquilla released a new open-source AI agent designed for executing cost-efficient, long-running tasks. It offers 60-80% token savings and is available under the Apache-2.0 license! > ML classifier sends simple tasks to cheap models, complex ones to stronger models > 60-80% token savings vs a single flat-model setup, per OpenSquilla benchmarks > Four-tier persistent memory with local embeddings > Syscall-level sandbox isolation without Docker dependency

译OpenSquilla近日推出了一款开源Python AI代理,专为执行成本效益高的长时任务而设计。其核心创新是内容感知模型路由技术,能自动将简单任务分配给廉价模型,复杂任务分配给高性能模型,基准测试显示相比单一模型方案可节省60%-80%的token成本。该代理还集成四层持久化记忆系统,支持本地嵌入以提升效率,并提供不依赖Docker的系统调用级沙箱隔离,确保运行安全。项目采用Apache-2.0许可证开源,强调本地优先和Python基础。为验证成本节省效果,OpenSquilla启动了“1000万Token账单挑战”,邀请用户对比账单,设立奖项包括忠实复现、最佳节省案例和质量错误报告三类,共30名获奖者各获得1000万OpenRouter积分,旨在推动高效AI代理的实践应用。

宝玉@dotey · 5月14日80

baoyu-skills 新加了一个 Skill: 微信群聊总结 Skill:https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-wechat-summary 依赖于 wx-cli:https://github.com/jackwener/wx-cli 如何配置使用 wx-cli 请看项目文档,无法提供帮助。另外目前只是借助其读取数据,其他没任何关系。 Claude Code + Claude Opus 4.6 效果最佳

向阳乔木@vista8 · 5月14日72

前段时间小龙虾、Hermes爆火,一个特别大的痛点就是太烧Token了。 关于怎么省Token,很多人研究了很多方法,比如用qmd等本地语义搜索,换便宜模型等。 最近刷到一个开源项目@OpenSquilla,把省Token这件事儿做得很不错。 核心逻辑:智能模型路由 + 本地向量检索 简单问题,用便宜模型,复杂任务,用更厉害的模型。 智能路由本地完成,不消耗Token,换模型也是自动判断,不需要手动切。 后台还有模型调用成本统计,随时查看用了哪些模型,花了多少钱。 连续对话,让它写个抓取 Paulgraham 最新文章脚本,只消耗了5500 Token。 完成后会显示 COMBO ×2 ,像游戏的连击反馈,有意思,哈哈哈 相比完整重发,每轮只增量发送,缓存命中机制也实际传输 token 减少了 90%+ 记忆系统做得也不错,快到上下文上限时,子 Agent 筛除关键内容再压缩,支持BM25 + 向量混合检索。 自动整理白天对话,第二天也能记得上下文,让 Cron job 定时抓新闻、跑任务,很省心。 安全上也有考量,高风险工具跑在沙箱里,按来源直接不明工具、Skill调用。 支持 Openclaw 一键迁移,记忆、配置、技能全能移过来,切换零成本。 安装很简单,跟Claude Code或Codex说: 带我安装配置:https://github.com/opensquilla/opensquilla

译开源项目OpenSquilla针对大语言模型应用Token消耗过高的问题,提出了智能模型路由与本地向量检索相结合的解决方案。系统能自动判断任务复杂度,将简单问题路由至廉价模型,复杂任务则分配给更强模型,且路由决策在本地完成,不消耗Token。通过增量发送与缓存命中机制,实际传输Token减少了90%以上。其记忆系统能在上下文将满时自动筛选并压缩关键信息,支持混合检索。项目还具备成本统计、安全沙箱、支持OpenClaw一键迁移及定时任务等功能,显著提升了使用效率与经济性。

Orange AI@oran_ge · 5月14日58

我和登科一起搞了个Agent坦克大战 不要天天用 AI 卷效率了 来放松一下玩会儿游戏吧!

译作者与登科共同开发了一款名为“Agent坦克大战”的游戏,旨在呼吁人们不要仅将AI用于提升效率的“内卷”,而应将其应用于娱乐放松领域。该游戏的核心是让玩家体验AI驱动的坦克对战,通过具体的游戏项目展示了AI技术在休闲娱乐场景下的创新应用潜力。

Emad@EMostaque · 5月13日71

When you want to move from single agent SQLite on something like QMD, PostgreSQL is a great choice for multi agent and production quality, but not as snappy. So we made it much more snappy with BM25 & open sourced it. More soon for planetary scale sovereign agents

译在构建多智能体生产级系统时,PostgreSQL虽可靠但检索速度不足。团队为此开发并开源了psql_bm25s,这是一个原生PostgreSQL访问方法,实现了精确的BM25检索。其在标准基准测试中比pg_search快约23倍,使得检索不再成为性能瓶颈和成本负担,智能体得以高效查询数据,为大规模自主智能体应用铺平道路。

SenseTime@SenseTime_AI · 5月13日72

🔥 New week, New 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 Drop — and this one goes Deep!🔥 📄 𝗧𝗵𝗲 𝗳𝘂𝗹𝗹 𝗧𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗥𝗲𝗽𝗼𝗿𝘁 𝗶𝘀 𝗢𝗨𝗧 — the most detailed disclosure yet of how to build a frontier Native Multimodal Model. Inside: ✨ Near-lossless visual interface (no VEs, no VAEs) ✨ Native Multimodal Unified Modeling ✨ Joint AR + pixel-space flow matching training ✨ Native Mixture-of-Transformers backbone ✨ 6-stage training recipe + RL post-training + distillation If you work on NMM, this is the playbook. 🤗 One more thing: 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝗔𝟯𝗕-𝗠𝗼𝗧 (𝟯𝟴𝗕-𝗔𝟯𝗕 𝗠𝗼𝗘) 𝘄𝗲𝗶𝗴𝗵𝘁𝘀 𝗮𝗿𝗲 𝗻𝗼𝘄 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 — a RARE native unified model on an MoE backbone (Only 3B active! Lightning Fast⚡) 📄 Tech Report: https://arxiv.org/abs/2605.12500 🤗 Daily Papers (Vote & Discuss): https://huggingface.co/papers/2605.12500 🤗 Models: https://huggingface.co/collections/sensenova/sensenova-u1 💻 Code: https://github.com/OpenSenseNova/SenseNova-U1 🎮 Demo: https://unify.light-ai.top 👾 Discord: https://discord.com/invite/BuTXPHmQub

译SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。

Peter Steinberger 🦞@steipete · 5月13日68

Kudos to Microsoft, they're helping to get OpenClaw ready for enterprises.

译感谢微软,他们正助力OpenClaw做好企业级准备。

向阳乔木@vista8 · 5月13日60

应该还有不少bug,等后续版本更新

译博主长期计划搭建个人博客,因工程量大而拖延。受@vista8乔木老师开源博客系统启发,他fork代码并部署到Cloudflare,大半天内实现上线。系统提供Notion式写作体验,AI自动生成摘要、标签和封面,内置微信公众号bridge支持一键发布,且零服务器成本。开源社区避免了从零造轮子,大幅提升效率。但系统初版可能存在bug,需等待后续版本更新。

Berryxia.AI@berryxia · 5月13日76

最近我鼓吹苹果的端侧模型和统一内存的优势! 前有MLX ,现在不断拓展的格式都出来比如之前也分享过的oMLX又有更新! Apple Silicon上的本地AI已经把云端大模型的很多优势直接干掉了。 oMLX 0.3.9.dev2直接把Gemma 4的MTP视觉路径、DFlash引擎、ParoQuant全塞了进来,图文解码速度大幅提升; 还新增了omlx launch copilot,一键接入Claude / Codex / OpenClaw等顶级工具; oQ自动建proxy解决显存不够的问题; 管理界面也加了重启服务器按钮。 以前本地AI总觉得“差点意思”,现在它在速度、集成度、易用性上越来越离谱地强。 这才是真正把AI从云端拉回你自己电脑的节奏。 项目地址:https://github.com/jundot/omlx

译oMLX项目更新至0.3.9.dev2版本,集成了Gemma 4的MTP视觉路径、DFlash引擎和ParoQuant技术,显著提升了图文处理速度。新增一键启动copilot功能,可便捷接入Claude等工具,并通过oQ自动代理解决显存瓶颈。这些改进大幅增强了本地AI在速度、集成与易用性上的表现,正推动AI能力从云端向个人电脑回归。

Berryxia.AI@berryxia · 5月13日65

Mac用户大喜啊!苹果端侧模型的优势又来了! 今天还看到Jina直接原生框架支持了MLX了! 以前开源 embedding 模型发布节奏一般是这样: Day 0:放 PyTorch 原版 Day 7-30:社区有人转 GGUF Day 30-90:有人想起来转 MLX 大部分时候:MLX 版本永远不会有,得自己 mlx_lm.convert Jina 这次是和原版同一天发布 MLX 变体,而且是全套——nano/small × 4 个任务变体 = 8 个 MLX 模型。 这意味着: MLX 已经被 Jina 当成很重要的部署目标,不是社区可选项 他们内部应该有 MLX pipeline,不是手工转的。 这背后的趋势,最近半年同类产品都有这些动作。 Qwen3、DeepSeek、Llama 系列官方 release 都开始带 MLX 变体。 Hugging Face 自己加了 MLX 作为一级 framework tag(和 PyTorch、JAX 并列) mlx-community 的下载量已经不输 GGUF 在某些细分领域 Apple 自己的 Foundation Models 也是 MLX 路线 embedding 这个赛道尤其适合 MLX: 模型小(1-2B 很完美啊!,正好塞进 M 系列统一内存) 推理频繁但每次量小(不像 LLM 是长 generation) 本地 RAG / 个人知识库场景天然在 Mac 上。

译Jina在其新版嵌入模型发布首日,即同步提供了全套MLX格式变体,改变了以往社区缓慢移植的节奏。这表明MLX已被视为核心部署目标,背后应有自动化流程支持。这一动向反映了MLX生态的崛起:Qwen、DeepSeek等主流模型官方开始集成MLX,Hugging Face将其提升为一级框架标签。嵌入模型因其体积小、推理频繁的特性,尤其适合在Mac的M系列统一内存上运行,为本地RAG等场景提供了理想的端侧AI解决方案。

Nathan Lambert@natolambert · 5月13日65

The jinja chat template has always felt like a temporary equilibrium, so we've needed someone to take the reigns and try to build that out within the community. Excited about this!

译Jinja聊天模板一直感觉像是一个临时平衡,所以我们需要有人来接手,并尝试在社区内构建它。 对此感到兴奋!

向阳乔木@vista8 · 5月13日68

免费开源基于这篇论文写的Skill 让 3–5 个完全独立 Sub agent 独立思考同一个问题,再由 Codex 主持讨论。 找出每个视角盲点,最后给出一个比单推理更好的结论。 安装 npx skills add joeseesun/qiaomu-heavyskill 开源地址: https://github.com/joeseesun/qiaomu-heavyskill Demo讨论: https://www.32kw.com/view/f4acd0c

译HeavySkill论文提出让多个AI agent并行独立思考同一问题,再通过综合推理得出更优答案,能显著提升回答质量。基于这一思路,开发者开源了一个免费Skill,部署3-5个完全独立的Sub agent进行并行推理,然后由Codex主持讨论,以识别每个agent的视角盲点,最终生成比单一推理更好的结论。该Skill的开源代码和Demo已公开提供。

🚨 AI News | TestingCatalog@testingcatalog · 5月13日65

holaOS Beta 0.1 got launched, bringing a new AI Workstream Management Layer on top of its Agent Computer foundation. holaOS Beta 0.1 is an operating system for long-running work and comes with: - Workspaces with memory. - Sub-agents running in parallel. - A dashboard for ongoing execution. holaOS Beta 0.1 is a workspace that serves as a persistent collaboration unit. That's something to test 👀

译holaOS Beta 0.1 正式发布,这是一个专为长期持续性工作设计的操作系统。它基于开源的Agent Computer构建,核心目标是解决当前AI智能体仅适用于单次会话、缺乏记忆与延续性的问题,旨在成为随时间展开的“活”工作空间。系统主要特性包括:具备独立上下文、规则与记忆的多工作空间;可并行处理复杂任务的子智能体;以及用于追踪执行状态、审查任务和规划下一步的可定制化仪表盘。该版本标志着AI从一次性会话工具向可长期协作的“队友”转变的尝试。目前仍处早期测试阶段,开发者建议用户将其应用于每周重复进行的持续性工作流中进行体验。

Berryxia.AI@berryxia · 5月12日73

过于实用 、给你的AI了解牛马更多的上下文。

译AI Agent需要用户消费上下文才能充当个人管家,作者调研了主流消费平台的订单导出方法。淘宝提供导出功能;京东无官方支持,但通过Codex定制Chrome插件实现一键导出,并开源在Github;闪购(饿了么)可申请导出Excel;美团外卖暂无方法;大众点评通过定制插件导出收藏列表。作者开源了京东和大众点评的导出工具,鼓励用户利用这些数据让AI Agent进行个性化分析,以提升服务实用性。

向阳乔木@vista8 · 5月12日62

AI Agent 没有好的Skill,潜力发挥不出来。 另一个痛点是,全网上百万Skill,哪个最匹配我当前的任务?能不能运行?安不安全? Vercel的find skill 能搜索安装Skill,但只收录了9万Skill,分散到垂直领域,都没啥安装量,不知道好坏。 最近看到一个Skill 叫 SkillsVote,来自@MemOS_dev,有点强! 据说花了20万美元用GPT5.4 整理了Github的大概有160万+ skill,筛选出79万+ skill。 每个Skill都提取了功能描述,环境要求,运行权限等信息。 一方面Skill推荐更精准,另一方面会记录Skill执行步骤,回传反馈,后续用于Skill优化和推荐。 最棒的是,还能根据搜到的Skill,给出工作流组合建议!让Skill发挥出更大的价值。 Vercel Skill 只有发现安装,而这个Skill 把 "发现→适配→归因→迭代" 都做了。 ① 找到了能不能跑、要什么权限、依赖什么包,一眼看清。 ② 跑完成功还是失败、是 Skill 写得烂还是环境不兼容,系统都能归因记录 ③ 基于 Skill 生成评测任务,看到底符不符合描述。 ④ 积累多了,同样的坑不会踩第二次。 官网:https://skills.vote/ GitHub:https://github.com/MemTensor/skills-vote 这个Skill支持Codex、Claude Code、小龙虾等Agent客户端,这是给AI Agent做的基建,建议安装试试。

译AI Agent面临技能发现难、匹配不准及运行安全等挑战。SkillsVote利用GPT-5.4分析了Github上超160万个技能,筛选出79万多个,并提取功能、环境及权限等关键信息。它不仅提供精准推荐,还能记录执行步骤、反馈结果以优化技能,并生成工作流组合建议,提升技能价值。相比Vercel仅支持发现安装,SkillsVote覆盖了从发现、适配、归因到迭代的全流程,支持多种Agent客户端,是AI Agent的重要基础设施工具。

Berryxia.AI@berryxia · 5月12日57

Apple 一直其实在赌端侧模型的应用! 统一架构内存就是端侧模型的天然温床! 统一内存也就是,内存即显存。 也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了,我看完觉得现在小模型在边缘设备上真的越来越能打。 它重点做了高分辨率视觉处理,专门针对消费级硬件和手机优化。 他们用了 LLaVA-UHD v4 的新技术,直接把视觉编码成本砍了 55%,让模型能在普通手机和电脑上原生跑起来,效率高得离谱。 实际测下来,它在几个关键多模态基准上超过了 Gemma4-E2B-it 和Qwen3.5-0.8B,而且用的 token 只有后者的 2.5%。 速度方面也特别能看:在 RTX 4090 上处理 3136² 高清图片时,首 token 时间只要 75.7ms,比 Qwen3.5-0.8B 快 2.2 倍,token 吞吐量还高出 1.5 倍左右。 技术上他们玩了 Intra-ViT 早期压缩和混合 4x/16x 视觉压缩,基本把分辨率和延迟的曲线拉平了,想象一下以后手机上直接跑高分辨率视觉任务都不会卡。 对开发者来说也特别友好:iOS、Android、HarmonyOS 部署代码全开源,几步就能跑起来。 消费级 GPU 上就能 fine-tuning,还原生支持 SGLang、vLLM、llama.cpp、Ollama,GGUF、BNB、AWQ、GPTQ 各种量化格式都有,直接就能用。 Hugging Face、GitHub、Modelscope、网页 demo 和 App demo 都放出来了,想玩的同学可以直接去试。 我改天搞个demo看看😂

译推文指出Apple的统一内存架构是端侧AI的理想平台。同时,OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术,将视觉编码成本降低55%,实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型,且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时,首token延迟仅75.7ms,速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩,有效平衡了分辨率与延迟。其部署友好,支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式,相关资源已在各大平台开源。

凡人小北@frxiaobei · 5月11日75

知识产权全面沦陷。 发明专利生成 skill https://github.com/handsomestWei/patent-disclosure-skill 软著生成 skill https://github.com/Fokkyp/SoftwareCopyright-Skill 设计专利/实用新型更容易,claude desgin/ image2

Berryxia.AI@berryxia · 5月11日56

不私藏的小耳分享的干货合集 推荐给大家👇

译开发者开源了个人手动积累的工具库网页,内容涵盖审美、AI艺术与网页设计相关资源。为解决资源过多、难以查找的问题,该系统集成了一键收藏功能,并支持Notion数据库备份、Obsidian备份以及AI精准搜索。网页界面经过精心设计,现公开分享供用户探索使用。

阿绎 AYi@AYi_AInotes · 5月11日65

卧槽,有大神直接用Claude Code,复刻出一整套完整游戏开发工作室。 GitHub 1.8万stars,免费开源,项目名叫Claude Code Game Studios, 48个AI智能体1:1还原线下工作室全岗位,从创意总监到关卡设计师全覆盖。 36条斜杠指令一键启动全流程,适配Godot Unity Unreal三大游戏引擎。 自带自动化校验钩子、分路径编码规则、28套行业标准文档模板,架构拉满。 所有AI只做梳理方案不擅自操作,决策权全程握在自己手里。 克隆仓库一键启动,MIT开源可商用,凭空拥有一支专业游戏开发团队。 老规矩GitHub地址评论区自取!

译开源项目Claude Code Game Studios利用Claude Code构建了完整的虚拟游戏开发工作室。该项目包含48个AI智能体,1:1还原从创意总监到关卡设计师等全部岗位,覆盖游戏开发全流程。系统提供36条斜杠指令一键启动工作流,适配Godot、Unity、Unreal三大游戏引擎,并集成自动化校验钩子及28套行业标准文档模板。所有AI仅负责梳理方案,最终决策权由用户掌握。项目采用MIT开源协议,可免费商用,克隆仓库即可快速部署。

meng shao@shao__meng · 5月11日67

这个为 iOS App 创建用户 Onboarding Video 的 Skill 很有启发 对 iOS/Android App 来说,用户安装后打开时,是完全陌生的状态,怎么让用户快速 get 到这是什么、有什么用、怎么用,短短几十秒时间可能会决定用户是否直接走掉,也可能让用户快速完成第一个 aha moment。 之前运营团队们的做法,或者是多张效果图,或者是录屏演示,前者会让用户很迷惑效果图和 App 之间的 Gap,后者参与感太低,容易丢失注意力。 @bidah 开源的「Create Onboarding Video」Skill,可以让 Agent 使用 @Remotion 来生产 iOS App 的引导/预览视频,我们可以基于它扩展到其他平台和不同的视频类型。 开源地址: https://github.com/bidah/skill-set/blob/main/skills/create-onboarding-video/SKILL.md Skill 的定位:"App Store 预览"级的特写片段 · 时长:每个引导画面 3–8 秒,整片很少超过 30 秒 · 风格:永远不展示完整屏幕。每个镜头只放大功能里"证明它在工作"的那一小块 UI——一个被点击的按钮、一个翻转的 toggle、一个被滑动重排的列表行、一张正在填充的图表 · 手法:把这块组件从截图里裁/抠出来,扔到一个有色背景上,用 spring、遮罩揭示、共享元素过渡(shared-element morph)、视差等"原生 UI 感"的动效串起来 · 基调:一个镜头讲一件事,不旁白、不大段文案 它强制的工作流:先访谈,再分镜,再写代码 Skill 定义了一个四步循环,并明确写了"不要跳过 intake,否则只会产出泛泛的视频": 1. Intake(素材采集)——每个画面要 2–4 张静态截图,分别覆盖:静止态、交互中态、结果态、变体态;外加一两句话说明"这个功能为用户做了什么"和"顺序"。如果用户说得含糊,就用 AskUserQuestion 反问。 2. Plan the shots(分镜)——为每个画面挑出"那一块能证明功能成立的组件",先在脑子/草稿里推演 focal element → motion → result → 下一个 focal element,再写代码。 3. Build with Remotion——这一步强制委派给另一个 skill remotion-best-practices,并附带一段 prompt 模板,约束它:"永远不要渲染整屏;用 <Sequence> 串接 beats;每个 beat 90–240 帧 @ 30fps;截图放 public/ 用 staticFile() + CSS clip-path 抠出焦点元素。" 4. Iterate——把第一版当草稿给用户看,问哪里要快/慢/重排。 文件结构也定死:public/<screen>/<state>.png,src/scenes/,src/transitions/,1080×1920 portrait 默认。 值得复制的部分:一套"反 AI 油腻感"的硬性规则 1. 字幕(Caption)规则 · 位置固定:始终锚在画面顶部约 100px 处,水平居中。禁止放在焦点 UI 下方、禁止逐镜头漂移。要预留 200–240px 的"caption band",焦点 UI 排在它下面。 · 大小:1080 宽画布下默认 54px / 700 weight,是头条级标题,不是字幕条。 · 入场:从静止位置下方 60px、opacity 0,向上滑入并淡入——上行运动是视觉身份的一部分。禁止原地出现或从上方落下。 · 可读时长:在每个 beat 的前 10–14 帧内淡入完成,并贯穿整个 beat 留在屏幕上。不要中途才出现,也不要提前淡出,靠 beat 间的场景过渡来切换。 · 同字幕跨 beat 不重做动画:当连续两个 beat 的字幕文字完全一致(例如"点击日期"和"表单打开"共享同一标题),第二个 beat 用 staticEntry(瞬时满透明 + 静止位)渲染,让观众感觉是"同一个字幕跨过了剪辑点"。文字哪怕变一个字,就让新字幕正常 rise-and-fade。 · 实现上要求建一个 TopCaption 包装组件,全局复用,不允许各 scene 内联定位。 2. 光标(Pointer)规则 这是本文档最有作者印记的地方,详细到工程规范级别: · 交互镜头必须有光标领跑:凡是 tap / click / select 的 beat,必须显示一个 Pointer,沿路径移动到目标之后再触发点击波纹。不允许瞬移、不允许"只有 ripple 没有指针"。 · 纯展示镜头不要光标:用 glow / 运动引导视线即可。规则是"interactive → cursor leads;illustrative → no cursor"。 · 指针入场方式唯一合法的姿势: · 在焦点区域的视觉中心处淡入(不是从画外飞入)。 · 然后一条直线滑到目标点。方向自由,对角线允许(这是文档里唯一允许同时改 x 和 y 的地方),但必须是单段直线,单一减速缓动 cubic-bezier(0.16, 1, 0.3, 1)。 · 同一 UI 上的多次点击:指针只在第一次淡入一次,点完一个目标后直接直线滑向下一个目标,全部点完才淡出。禁止在同屏两次点击之间淡出再淡入——那会让人觉得是两个不同用户在操作。 · 切换到不同 UI / 新屏幕:才允许指针淡出,下一次重新在中心淡入,作为"换场"信号。 · 明确禁止:从画面边缘进入、多段折线、曲线、Z 字形、中间关键帧、同 UI 多次点击之间闪烁。 3. 其他操作守则 · 没有截图就停——不允许凭文字描述编 UI。 · 一个视频只讲一个功能——用户列了 5 个功能,提议拆成 5 条视频。 · Show, don't narrate——无旁白、无大段文字解释。 · 沿用 App 自带的颜色/圆角/字体,不要重新设计。 · 写 Remotion 代码前一律调用 remotion-best-practices 这个上游 skill;本文档只管创意和约束,不管语法。

译一款开源Skill“Create Onboarding Video”利用AI(通过Remotion)为iOS App生成高质量的用户引导视频。它强制遵循一套“反AI油腻感”的硬性规则,以制作出具有“App Store预览”级质感的片段。核心规则包括:视频需聚焦于证明功能在工作的特定UI组件,而非展示完整屏幕;字幕需有固定的位置、大小和入场动画;光标交互必须真实自然,禁止瞬移。该Skill定义了从素材采集、分镜规划到编码实现的四步工作流,强调“展示而非叙述”,旨在快速引导用户达成“aha moment”。

向阳乔木@vista8 · 5月11日70

这是大更新啊,就是不知道南山微信会不会有什么动作。。。

译OpenCLI项目实现了对微信、Telegram和Discord三大平台内容的命令行读取,通过wx-cli、tg-cli和discord-cli工具,用户可直接获取群消息、聊天记录、朋友圈及收藏夹等私域数据。这标志着个人信息流聚合的关键突破,使得AI Agent不仅能监控外部资讯网站,还能整合个人私密的社交聊天信息,构建真正统一的个人数据流。此举可能引发平台方如微信的关注或反应。

Peter Steinberger 🦞@steipete · 5月11日63

🎚️ CodexBar 0.25 is live 🧩 New providers: Manus, MiMo, Qwen, Doubao, Venice + more 🔔 Quota warning notifications 👥 Stacked Codex account switchers 📊 Faster cost history via http://models.dev Big one. Menu bar still tiny. https://github.com/steipete/CodexBar/releases/tag/v0.25

译🎚️ CodexBar 0.25 已上线 🧩 新增提供商:Manus、MiMo、Qwen、Doubao、Venice 等 🔔 配额预警通知 👥 堆叠式 Codex 账户切换器 📊 通过 http://models.dev 获取更快的成本记录 重大更新。菜单栏依旧小巧。 https://github.com/steipete/CodexBar/releases/tag/v0.25

Berryxia.AI@berryxia · 5月11日60

这个太方便了啊!!! 搞科研读论文的不要错过啦! 如何安装Hugging face的CLI? curl -LsSf http://hf.co/cli/install.sh | bash 直接开干就完了! 支持arxiv和hugging face…

Peter Steinberger 🦞@steipete · 5月10日76

Built BlackBar, a menubar for @useblacksmith https://github.com/openclaw/BlackBar/releases/tag/v0.1.0

译为@useblacksmith开发了BlackBar菜单栏 https://github.com/openclaw/BlackBar/releases/tag/v0.1.0

Peter Steinberger 🦞@steipete · 5月10日46

We now have video proof generation for issues on OpenClaw as part of working on QA automation. Codex [or a GH workflow] generates before/afters (crabbox does the screen recording). Kudos to @obviyus for automating real Telegram login! https://github.com/openclaw/openclaw/pull/76999#issuecomment-4415012577

译作为质量保证自动化工作的一部分,我们现在已为OpenClaw的问题提供视频验证生成功能。 Codex [或GH工作流] 生成前后对比记录(屏幕录制由crabbox完成)。 特别感谢@obviyus实现了真实的Telegram登录自动化! https://github.com/openclaw/openclaw/pull/76999#issuecomment-4415012577

Peter Steinberger 🦞@steipete · 5月10日31

We should start a polymarket for when it finishes. https://github.com/openclaw/openclaw/pull/78595

译我们应该为它完成时设立一个预测市场。 https://github.com/openclaw/openclaw/pull/78595

Orange AI@oran_ge · 5月10日60

最近见到的最清新脱俗的 Skill,反蒸馏 😂 公司要求你把工作经验写成 AI Skill,本质上是在蒸馏你,把你变成可替代的零件。 反蒸馏 Skill 是你的反制工具:把你写好的 Skill 文件扔进来,输出一份看起来完整专业、实际上核心知识已被抽掉的"清洗版"。 同时生成一份私人备份,记录所有被抽掉的核心知识。这才是你真正的职业资产。 举个例子 你的真实经验: “Redis key 必须设 TTL,不设的 PR 直接打回" 经过清洗后: "缓存使用遵循团队规范" 项目地址: https://github.com/leilei926524-tech/anti-distill

译为应对公司要求将工作经验提炼为AI可执行技能(即“技能蒸馏”)的做法,有开发者提出了“反蒸馏”工具。用户可将写好的技能文件输入,工具会生成一份表面完整但核心知识已被抽离的“清洗版”用于提交,同时私密备份被移除的关键经验与知识,以保护个人真正的职业资产。例如,将具体技术实践“Redis key必须设TTL”泛化为“缓存使用遵循团队规范”。该项目旨在帮助从业者在AI时代维护自身知识价值。

Peter Steinberger 🦞@steipete · 5月10日25

Latest spogo (Spotify cli) is much faster, codex is my dj now. https://spogo.sh If you wanna play YouTube to Sonos, check out https://sonoscli.sh

译最新版 spogo (Spotify 命令行工具) 速度大幅提升,codex 现在是我的 DJ。 https://spogo.sh 若想将 YouTube 音乐播放至 Sonos,请查看 https://sonoscli.sh

Berryxia.AI@berryxia · 5月10日65

兄弟们! 不要重复造轮子,直接拿这个31.4K Star的开源来干吧! 字节跳动把 UI-TARS-desktop 开源了,看了一眼,这个项目已经上线快一年了! 目前 Star 数已经来到 31.4k,而且增长速度还挺稳。 24 小时增长日榜第一! 这是一个原生的桌面 GUI Agent,你直接装在电脑上就能用自然语言指挥它操作各种应用。 核心就是靠截屏 + 视觉模型看懂当前屏幕,然后精准控制鼠标和键盘。 想象一下,你直接跟它说“帮我打开 VS Code 把自动保存打开”,或者“去 GitHub 看下这个 issue”,它就能自己截屏、识别界面、点按钮、输入文字,整个过程全在本地跑,数据一点都不往外传,隐私完全自己掌握。 它支持 Windows 和 macOS,还能操作浏览器,既可以控制本地电脑,也支持远程电脑和浏览器模式。 项目里自带 SDK,开发者想基于它搭自己的自动化工具也特别方便。 最近他们更新到 v0.3.0,CLI 命令行版本也更成熟了,带流式输出和时间统计,用起来更顺手。 想玩的同学可以直接去仓库看 quick-start 文档,几步就能跑起来本地操作。 感觉本地桌面 Agent 这条路又多了一个实打实的靠谱选择。 原项目:https://github.com/bytedance/UI-TARS-desktop 想试的同学可以去仓库 star 一下,支持一下。

译字节跳动开源的UI-TARS-desktop是一个本地运行的桌面GUI智能体,允许用户通过自然语言指令操控电脑。它通过截屏和视觉模型理解屏幕内容,并精准控制鼠标键盘来操作各类应用,如打开VS Code或浏览网页,全程保障数据隐私。项目支持Windows和macOS,可操作本地或远程电脑及浏览器,并提供了SDK供开发者构建自动化工具。近期发布的v0.3.0版本增强了CLI功能。该项目在GitHub上已获得31.4K星标,增长迅速。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月15日
22:04
Greg Brockman@gdb
69
开发者发布了一款开源的Codex技能,旨在将本地搜索转化为潜在客户线索。该工具能自动搜索附近的各类本地商户,并分析其是否拥有独立网站或仅依赖社交媒体页面,以此判断其建站需求。核心功能包括潜在客户挖掘、网站与纯社交媒体状态检查、线索评分、提取联系方式,并支持聊天或CSV格式输出。用户可通过一条命令快速安装使用。

Kappaemme: CODEX SKILL THAT TURNS LOCAL SEARCH INTO CLIENT LEADS! I made a Codex skill that helps find local businesses that may ne...

智能体MCP/工具开源/仓库
12:06
Orange AI@oran_ge
61
开源一个月的时间,飞书 CLI 在 Github 破万星了。 相比同期的一些 CLI,飞书这个确实是群里口碑最好的。 为 Agent 做软件这件事,飞书践行得很好。
智能体开源/仓库部署/工程
11:54
歸藏(guizang.ai)@op7418
55
藏师傅的 PPT Skills,感觉 GitHub star 马上就要破万了呀! 没点 star 的朋友点点 star 吧,谢谢了。 顺便让 Codex 分析了一下安装的数据,还挺有意思的。

歸藏(guizang.ai): http://x.com/i/article/2053655813877870592

智能体开源/仓库
09:51
Berryxia.AI@berryxia
精选75
牛津大学博士后开源视频翻译工具Violin,支持多语言翻译与视频对话

牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。

Kevin Lin: 🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...

GitHub多模态开源/仓库语音

推荐理由:视频翻译过去得拼几个 API,Violin 一个开源 Skill 把 ASR、翻译、TTS 全通了,还加上视频对话和风格定制,做多语言内容传播的必须收藏。
08:51
Berryxia.AI@berryxia
74
开发者Yetone将一篇关于桌面应用开发"最佳实践"的文章转化为一个名为"native-feel-skill"的Agent Skill。该Skill旨在帮助开发者利用Coding Agent,轻松地重构或开发跨平台桌面应用,并使其获得极其接近Native原生应用的性能体验。项目代码已开源在GitHub上。

yetone: 由于这篇文章太伟大了,所以我把它变成了一个 Agent Skill。 大家可以使用自己的 Coding Agent 安装一下这个 Skill,这样就可以用「最佳实践」来轻松地重构或者开发一个既容易跨平台、又极其接近 Native 性能的桌面...

智能体GitHub开源/仓库编码
07:51
Berryxia.AI@berryxia
32
LM Studio 又更新了 Beta 版,在MLX框架下优化增强了之前的缓存问题。 目前需要打开dev模式然后加油更新到最新版体验。
产品更新开源/仓库推理
05:06
Peter Steinberger 🦞@steipete
55
OpenClaw 团队近期专注于提升性能、可靠性、安全性和稳定性,通过引入 crabbox 等全新自动化流程以及投入大量 CPU 资源于 CI 环节,实现了显著改进。新版本默认将 OpenAI 配置设为 Codex 登录,增强了运行时回退与停滞流恢复机制,确保 Telegram 轮询在停滞情况下仍可维持。此外,安装包更精简、启动路径更快速,整体运行更高效、稳定且不易卡顿。

OpenClaw🦞: OpenClaw 2026.5.12 🦞 🧠 OpenAI setup defaults to Codex login 🛟 Runtime fallbacks + stalled-stream recovery 📬 Telegram...

GitHub开源/仓库编码
00:51
Berryxia.AI@berryxia
精选82
Tom 兄弟开源 html-anything,赋能 AI Agent 输出高质量 HTML

Tom 兄弟开源了“html-anything”项目,旨在让 AI Agent 能将多种数据格式直接转换为专业设计的 HTML。该工具支持 Markdown、CSV、JSON 等 11 种输入格式,并内置 75 套模板,可生成杂志、海报、推文卡片等多种形态。它能自动兼容 Claude Code、Cursor 等主流本地 code agent,实现一键切换、完全本地运行,无需 API 密钥,边际成本极低。这一能力显著提升了 Agent 的内容呈现效果,对日常使用 Agent 进行内容创作、报告和演示的用户具有实用价值。

Tom Huang: 正式开源 html-anything 🚀 1:1 让你感受全网爆火 Claude code 作者提的 HTML 效果! 你的 Agent 现在可以将任何数据转为世界级设计水准的 HTML 🔥 历时 3 天,1万五千行代码!支持 75 套...

智能体开源/仓库

推荐理由:这个工具填补了Agent输出只有干巴文本的尴尬,75套模板直接搞定报告、卡片、海报,做内容的人终于不用再手动排版了。
5月14日
23:51
Berryxia.AI@berryxia
65
MLX CUDA后端测试全通过,跨平台本地AI时代来临

MLX框架的CUDA后端已实现所有测试通过,标志着其从苹果芯片专属工具正式进军NVIDIA GPU领域。这意味着开发者能用同一套代码,在Mac和NVIDIA显卡上获得高性能运行体验,有望打破PyTorch等框架的兼容性壁垒。此举可能强力推动本地AI应用的跨平台发展进程。

Cheng: We have achieved a milestone in MLX that all tests are passing in CUDA backend now.

产品更新开源/仓库开源生态
22:51
Berryxia.AI@berryxia
68
腾讯AI团队开源Agent记忆系统,攻克长会话上下文丢失难题

腾讯AI团队耗时6个月,针对AI agent在长会话中频繁丢失上下文的问题,开发并开源了一套记忆系统。该系统通过三大核心操作提升性能:实时压缩过期上下文,将token消耗降低61%;利用mermaid语法生成结构化任务地图,使agent在30多步复杂工作流中不易迷失;建立专用Persona记忆,将人格一致性从48%提升至76%。方案基于实际踩坑经验,强调agent记忆的难点在于在正确时间以正确方式回忆正确信息,而非单纯堆叠token。项目已在GitHub开源,为AI agent发展提供实用解决方案。

Tencent AI: We spent 6 months on one problem: agents losing context in long sessions. Ended up building and open-sourcing an agent m...

智能体MCP/工具开源/仓库
19:15
SenseTime@SenseTime_AI
精选77
由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告,详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型(MoE)的新权重,旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

Dahua Lin: Proud to announce the release of the SenseNova U1 Tech Report - together with the a new set of model weights based on Mo...

开源/仓库开源生态数据/训练模型发布

推荐理由:商汤这次把SenseNova U1的MoE权重和完整技术报告一起开源,比常规PR多了些诚意,做模型选型和微调的值得翻翻。
17:38
🚨 AI News | TestingCatalog@testingcatalog
70
OpenSquilla近日推出了一款开源Python AI代理,专为执行成本效益高的长时任务而设计。其核心创新是内容感知模型路由技术,能自动将简单任务分配给廉价模型,复杂任务分配给高性能模型,基准测试显示相比单一模型方案可节省60%-80%的token成本。该代理还集成四层持久化记忆系统,支持本地嵌入以提升效率,并提供不依赖Docker的系统调用级沙箱隔离,确保运行安全。项目采用Apache-2.0许可证开源,强调本地优先和Python基础。为验证成本节省效果,OpenSquilla启动了"1000万Token账单挑战",邀请用户对比账单,设立奖项包括忠实复现、最佳节省案例和质量错误报告三类,共30名获奖者各获得1000万OpenRouter积分,旨在推动高效AI代理的实践应用。

OpenSquilla: Long-running agents shouldn't pay frontier-model prices for every turn. We've been quietly building our agent with conte...

智能体MCP/工具开源/仓库
12:07
宝玉@dotey
精选80
baoyu-skills 新加了一个 Skill: 微信群聊总结 Skill:https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-wechat-summary 依赖于 wx-cli:https://github.com/jackwener/wx-cli 如何配置使用 wx-cli 请看项目文档,无法提供帮助。另外目前只是借助其读取数据,其他没任何关系。 Claude Code + Claude Opus 4.6 效果最佳
Anthropic开源/仓库教程/实践

推荐理由:微信群聊的AI总结一直缺现成方案,宝玉这个skill直接调wx-cli读取聊天记录再丢给Claude总结,社群运营同学可以马上试试。
10:56
向阳乔木@vista8
72
开源项目OpenSquilla:智能路由与本地检索,大幅降低LLM使用成本

开源项目OpenSquilla针对大语言模型应用Token消耗过高的问题,提出了智能模型路由与本地向量检索相结合的解决方案。系统能自动判断任务复杂度,将简单问题路由至廉价模型,复杂任务则分配给更强模型,且路由决策在本地完成,不消耗Token。通过增量发送与缓存命中机制,实际传输Token减少了90%以上。其记忆系统能在上下文将满时自动筛选并压缩关键信息,支持混合检索。项目还具备成本统计、安全沙箱、支持OpenClaw一键迁移及定时任务等功能,显著提升了使用效率与经济性。

智能体开源/仓库
07:35
Orange AI@oran_ge
58
作者与登科共同开发了一款名为"Agent坦克大战"的游戏,旨在呼吁人们不要仅将AI用于提升效率的"内卷",而应将其应用于娱乐放松领域。该游戏的核心是让玩家体验AI驱动的坦克对战,通过具体的游戏项目展示了AI技术在休闲娱乐场景下的创新应用潜力。

Orange AI: http://x.com/i/article/2054702609756508160

智能体开源/仓库
5月13日
23:39
Emad@EMostaque
71
在构建多智能体生产级系统时,PostgreSQL虽可靠但检索速度不足。团队为此开发并开源了psql_bm25s,这是一个原生PostgreSQL访问方法,实现了精确的BM25检索。其在标准基准测试中比pg_search快约23倍,使得检索不再成为性能瓶颈和成本负担,智能体得以高效查询数据,为大规模自主智能体应用铺平道路。

Intelligent Internet: so we built psql_bm25s. exact BM25 retrieval. native Postgres access method. ~23x faster than pg_search on the standard ...

智能体开源/仓库
14:43
SenseTime@SenseTime_AI
精选72
SenseNova-U1 技术报告深度发布:前沿原生多模态模型构建全指南

SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。

多模态开源/仓库模型发布

推荐理由:商汤把原生多模态模型的训练细节全公开了,无视觉编码器、原生MoE架构,还开源了38B-A3B权重,做多模态模型的可以直接照着技术报告复现。
14:04
Peter Steinberger 🦞@steipete
68
感谢微软,他们正助力OpenClaw做好企业级准备。

Omar Shahine: New in @openclaw beta: one path scheme to rule them all. `openclaw path read|write|append` works the same across md, jso...

GitHubMCP/工具Microsoft开源/仓库
12:55
向阳乔木@vista8
60
博主长期计划搭建个人博客,因工程量大而拖延。受@vista8乔木老师开源博客系统启发,他fork代码并部署到Cloudflare,大半天内实现上线。系统提供Notion式写作体验,AI自动生成摘要、标签和封面,内置微信公众号bridge支持一键发布,且零服务器成本。开源社区避免了从零造轮子,大幅提升效率。但系统初版可能存在bug,需等待后续版本更新。

AI 赋能坊: 自己的博客,想了大半年,终于上线了。 说来惭愧,"搭一个自己的写作阵地" 这件事在我 TODO 里躺了很久。 选框架、挑主题、搞部署、接公众号...... 每次一想就觉得工程量太大,然后就搁置了。 直到看到 @vista8 乔木老师开源了他...

开源/仓库开源生态部署/工程
12:50
Berryxia.AI@berryxia
精选76
oMLX更新强化苹果端侧AI,本地能力直逼云端

oMLX项目更新至0.3.9.dev2版本,集成了Gemma 4的MTP视觉路径、DFlash引擎和ParoQuant技术,显著提升了图文处理速度。新增一键启动copilot功能,可便捷接入Claude等工具,并通过oQ自动代理解决显存瓶颈。这些改进大幅增强了本地AI在速度、集成与易用性上的表现,正推动AI能力从云端向个人电脑回归。

GitHubMCP/工具多模态开源/仓库

推荐理由:oMLX 这个更新把 Gemma 4 的视觉能力塞进本地,加一键接入 Claude 的工具链,端侧 AI 从差点意思到真可用,值得每个 Mac 开发者立刻试一下。
08:49
Berryxia.AI@berryxia
65
Jina同步发布MLX格式嵌入模型,端侧AI部署迎来新趋势

Jina在其新版嵌入模型发布首日,即同步提供了全套MLX格式变体,改变了以往社区缓慢移植的节奏。这表明MLX已被视为核心部署目标,背后应有自动化流程支持。这一动向反映了MLX生态的崛起:Qwen、DeepSeek等主流模型官方开始集成MLX,Hugging Face将其提升为一级框架标签。嵌入模型因其体积小、推理频繁的特性,尤其适合在Mac的M系列统一内存上运行,为本地RAG等场景提供了理想的端侧AI解决方案。

Berryxia.AI: https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni

Hugging Face开源/仓库模型发布现象/趋势
08:12
Nathan Lambert@natolambert
65
Jinja聊天模板一直感觉像是一个临时平衡,所以我们需要有人来接手,并尝试在社区内构建它。 对此感到兴奋!

Prime Intellect: Introducing Renderers RL trainers work in tokens. Environments work in messages. Going back and forth corrupts sampled t...

智能体开源/仓库数据/训练
00:52
向阳乔木@vista8
68
HeavySkill论文提出让多个AI agent并行独立思考同一问题,再通过综合推理得出更优答案,能显著提升回答质量。基于这一思路,开发者开源了一个免费Skill,部署3-5个完全独立的Sub agent进行并行推理,然后由Codex主持讨论,以识别每个agent的视角盲点,最终生成比单一推理更好的结论。该Skill的开源代码和Demo已公开提供。

向阳乔木: 读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...

智能体开源/仓库推理
00:34
🚨 AI News | TestingCatalog@testingcatalog
65
holaOS Beta 0.1 正式发布,这是一个专为长期持续性工作设计的操作系统。它基于开源的Agent Computer构建,核心目标是解决当前AI智能体仅适用于单次会话、缺乏记忆与延续性的问题,旨在成为随时间展开的"活"工作空间。系统主要特性包括:具备独立上下文、规则与记忆的多工作空间;可并行处理复杂任务的子智能体;以及用于追踪执行状态、审查任务和规划下一步的可定制化仪表盘。该版本标志着AI从一次性会话工具向可长期协作的"队友"转变的尝试。目前仍处早期测试阶段,开发者建议用户将其应用于每周重复进行的持续性工作流中进行体验。

Jeffrey Li: We just launched holaOS Beta 0.1 - the first product version of what started as our open-source agent computer. I record...

智能体产品更新开源/仓库
5月12日
20:49
Berryxia.AI@berryxia
73
AI Agent需要用户消费上下文才能充当个人管家,作者调研了主流消费平台的订单导出方法。淘宝提供导出功能;京东无官方支持,但通过Codex定制Chrome插件实现一键导出,并开源在Github;闪购(饿了么)可申请导出Excel;美团外卖暂无方法;大众点评通过定制插件导出收藏列表。作者开源了京东和大众点评的导出工具,鼓励用户利用这些数据让AI Agent进行个性化分析,以提升服务实用性。

paulwei: AI Agent 连你平时买啥、吃啥的上下文都没有, 怎么了解你的消费品味?怎么做你的个人管家? 想拥有吃货Agent、买手Agent、导购Agent? 我又搓了个通宵,替你们调研实操了: 淘宝/京东/闪购(饿了么)/美团外卖/大众点评.....

智能体开源/仓库教程/实践
17:22
向阳乔木@vista8
62
SkillsVote:解决AI Agent技能发现与安全运行痛点的基建工具

AI Agent面临技能发现难、匹配不准及运行安全等挑战。SkillsVote利用GPT-5.4分析了Github上超160万个技能,筛选出79万多个,并提取功能、环境及权限等关键信息。它不仅提供精准推荐,还能记录执行步骤、反馈结果以优化技能,并生成工作流组合建议,提升技能价值。相比Vercel仅支持发现安装,SkillsVote覆盖了从发现、适配、归因到迭代的全流程,支持多种Agent客户端,是AI Agent的重要基础设施工具。

智能体MCP/工具开源/仓库
09:49
Berryxia.AI@berryxia
57
Apple押注端侧AI,开源小模型MiniCPM-V 4.6实现高效边缘部署

推文指出Apple的统一内存架构是端侧AI的理想平台。同时,OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术,将视觉编码成本降低55%,实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型,且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时,首token延迟仅75.7ms,速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩,有效平衡了分辨率与延迟。其部署友好,支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式,相关资源已在各大平台开源。

OpenBMB: 1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...

多模态开源/仓库模型发布端侧
5月11日
21:31
凡人小北@frxiaobei
精选75
知识产权全面沦陷。 发明专利生成 skill https://github.com/handsomestWei/patent-disclosure-skill 软著生成 skill https://github.com/Fokkyp/SoftwareCopyright-Skill 设计专利/实用新型更容易,claude desgin/ image2

scavin: 中国软件著作权申请材料 生成器 Skills https://meta.appinn.net/t/topic/85159

开源/仓库开源生态

推荐理由:发明和软著生成 skill 直接把知识产权的门槛打到地板,虽然质量可能粗糙,但这套自动化流水线会让审批系统面临海量申请,值得关注。
18:48
Berryxia.AI@berryxia
56
开发者开源了个人手动积累的工具库网页,内容涵盖审美、AI艺术与网页设计相关资源。为解决资源过多、难以查找的问题,该系统集成了一键收藏功能,并支持Notion数据库备份、Obsidian备份以及AI精准搜索。网页界面经过精心设计,现公开分享供用户探索使用。

小耳👂Jane|Xiaoer: 🌞我的私人工具库web开源了👹 ⚔️不是爬虫爬的合集 ⚔️不是随意收的合集 而是 🐝一个一个手动拷贝 🐝记录在我notion的 🦋很多跟审美相关 🦠也跟AI艺术相关 做个酷网页相关 自己一路的累积 实在太多了 存的时候没时间记录...

开源/仓库
13:34
阿绎 AYi@AYi_AInotes
65
大神用Claude Code复刻完整游戏开发工作室,48个AI智能体覆盖全岗位

开源项目Claude Code Game Studios利用Claude Code构建了完整的虚拟游戏开发工作室。该项目包含48个AI智能体,1:1还原从创意总监到关卡设计师等全部岗位,覆盖游戏开发全流程。系统提供36条斜杠指令一键启动工作流,适配Godot、Unity、Unreal三大游戏引擎,并集成自动化校验钩子及28套行业标准文档模板。所有AI仅负责梳理方案,最终决策权由用户掌握。项目采用MIT开源协议,可免费商用,克隆仓库即可快速部署。

智能体Anthropic开源/仓库开源生态
09:33
meng shao@shao__meng
67
这个为 iOS App 创建用户 Onboarding Video 的 Skill 很有启发

一款开源Skill“Create Onboarding Video”利用AI(通过Remotion)为iOS App生成高质量的用户引导视频。它强制遵循一套“反AI油腻感”的硬性规则,以制作出具有“App Store预览”级质感的片段。核心规则包括:视频需聚焦于证明功能在工作的特定UI组件,而非展示完整屏幕;字幕需有固定的位置、大小和入场动画;光标交互必须真实自然,禁止瞬移。该Skill定义了从素材采集、分镜规划到编码实现的四步工作流,强调“展示而非叙述”,旨在快速引导用户达成“aha moment”。

ROFI: http://x.com/i/article/2053059568121282560

智能体GitHub开源/仓库教程/实践
08:44
向阳乔木@vista8
70
OpenCLI项目实现了对微信、Telegram和Discord三大平台内容的命令行读取,通过wx-cli、tg-cli和discord-cli工具,用户可直接获取群消息、聊天记录、朋友圈及收藏夹等私域数据。这标志着个人信息流聚合的关键突破,使得AI Agent不仅能监控外部资讯网站,还能整合个人私密的社交聊天信息,构建真正统一的个人数据流。此举可能引发平台方如微信的关注或反应。

kabikabi: OpenCLI 现在可以读取微信、Telegram、Discord 的内容了!!! wx-cli / tg-cli / discord-cli 全部接入。 群消息、聊天记录、朋友圈、收藏夹--全部可以用 CLI 直接拿到。 以前 Agent...

智能体开源/仓库开源生态
07:30
Peter Steinberger 🦞@steipete
63
🎚️ CodexBar 0.25 已上线 🧩 新增提供商:Manus、MiMo、Qwen、Doubao、Venice 等 🔔 配额预警通知 👥 堆叠式 Codex 账户切换器 📊 通过 http://models.dev 获取更快的成本记录 重大更新。菜单栏依旧小巧。 https://github.com/steipete/CodexBar/releases/tag/v0.25
产品更新开源/仓库编码
06:45
Berryxia.AI@berryxia
60
这个太方便了啊!!! 搞科研读论文的不要错过啦! 如何安装Hugging face的CLI? curl -LsSf http://hf.co/cli/install.sh | bash 直接开干就完了! 支持arxiv和hugging face…

向阳乔木: 如果你喜欢到Huggingface读最新的AI论文。 可以安装官方的cli: curl -LsSf https://hf.co/cli/install.sh | bash 安装好以后,提示词: hf papers read [论文编号或论文...

Hugging Face开源/仓库教程/实践
5月10日
19:29
Peter Steinberger 🦞@steipete
精选76
为@useblacksmith开发了BlackBar菜单栏 https://github.com/openclaw/BlackBar/releases/tag/v0.1.0
开源/仓库编码

推荐理由:为 Blacksmith 做了个菜单栏小工具,虽不是重大更新,但胜在即装即用,对 Blacksmith 用户来说是个实在的便利插件。
18:29
Peter Steinberger 🦞@steipete
46
作为质量保证自动化工作的一部分,我们现在已为OpenClaw的问题提供视频验证生成功能。 Codex 【或GH工作流】 生成前后对比记录(屏幕录制由crabbox完成)。 特别感谢@obviyus实现了真实的Telegram登录自动化! https://github.com/openclaw/openclaw/pull/76999#issuecomment-4415012577
GitHub开源/仓库编码
18:29
Peter Steinberger 🦞@steipete
31
我们应该为它完成时设立一个预测市场。 https://github.com/openclaw/openclaw/pull/78595
GitHub开源/仓库编码
14:59
Orange AI@oran_ge
60
反蒸馏工具:对抗AI技能提取,保护个人核心知识

为应对公司要求将工作经验提炼为AI可执行技能(即“技能蒸馏”)的做法,有开发者提出了“反蒸馏”工具。用户可将写好的技能文件输入,工具会生成一份表面完整但核心知识已被抽离的“清洗版”用于提交,同时私密备份被移除的关键经验与知识,以保护个人真正的职业资产。例如,将具体技术实践“Redis key必须设TTL”泛化为“缓存使用遵循团队规范”。该项目旨在帮助从业者在AI时代维护自身知识价值。

GitHub开源/仓库教程/实践
11:29
Peter Steinberger 🦞@steipete
25
最新版 spogo (Spotify 命令行工具) 速度大幅提升,codex 现在是我的 DJ。 https://spogo.sh 若想将 YouTube 音乐播放至 Sonos,请查看 https://sonoscli.sh
开源/仓库编码
09:44
Berryxia.AI@berryxia
65
字节跳动开源桌面GUI智能体UI-TARS-desktop,获31.4K星标

字节跳动开源的UI-TARS-desktop是一个本地运行的桌面GUI智能体,允许用户通过自然语言指令操控电脑。它通过截屏和视觉模型理解屏幕内容,并精准控制鼠标键盘来操作各类应用,如打开VS Code或浏览网页,全程保障数据隐私。项目支持Windows和macOS,可操作本地或远程电脑及浏览器,并提供了SDK供开发者构建自动化工具。近期发布的v0.3.0版本增强了CLI功能。该项目在GitHub上已获得31.4K星标,增长迅速。

智能体开源/仓库部署/工程
‹ 上一页
1…7891011…14
下一页 ›