全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「开源/仓库」清除

6月5日周五

19:27MarkTechPost（RSS）62NVIDIA AI 发布 Dynamo Snapshot：基于 CRIU 的 Kubernetes AI 推理快速启动系统

19:20AYi27X创作者收益预测平台将开源

16:07歸藏(guizang.ai)43歸藏提醒：PPT Skills 需署名开源或走商业授权

15:57Tencent Hy74精选腾讯混元联合人大开源PlanningBench评估框架

15:39jason41Codex OSS 更新：数百计划已分发

12:47HuggingFace Daily Papers（社区热门论文）53复杂度平衡扩散分裂（CBS）：基于函数逼近理论的时间容量分配框架

10:24公众号：龙猫LongCat（美团）55ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

06:17Hacker News 热门（buzzing.cc 中文翻译）69KVarN：华为开发的用于 KV-cache 量化的原生 vLLM 后端

05:47Hacker News 热门（buzzing.cc 中文翻译）76精选Anthropic 开源 AI 驱动漏洞发现框架

03:43Hugging Face：Blog（RSS）78精选Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

00:53LMSYS：Blog（Chatbot Arena 团队）77精选Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

6月4日周四

22:43HuggingFace Daily Papers（社区热门论文）62KletterMix：面向高质量德语预训练数据的构建与验证

20:52Berryxia.AI71open-design项目开源：html-video称"html版剪映"，Agent可写HTML生成宣传视频

20:42Hugging Face：Blog（RSS）65精选EVA-Bench Data 2.0 发布：覆盖三大领域、121 个工具、213 个场景

06:09OpenClaw🦞64OpenClaw 2026.6.1发布：新增Windows节点与技能工坊

03:31fofr69Ideogram v4开源权重，图像清晰出色

02:49Google Research：Blog（网页）72精选洪水韧性新篇章：Google 开源水文建模框架

02:48MarkTechPost（RSS）68Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

6月3日周三

23:10IT之家（RSS）67京东开源 JoyAI-Echo 长音视频生成框架，支持对话式编辑与 5 分钟角色一致

22:09IT之家（RSS）47上海海思一站式集成开发环境 HiSpark Studio 开源

20:57Simon Willison 博客66datasette-agent-micropython 0.1a0 发布

19:16The Decoder：AI News（RSS）58Nous Research 发布开源 AI 智能体 Hermes Desktop，支持多平台

18:08小互71开源项目OpenSquilla用Python重写"小龙虾"，大幅节省Token与成本

13:09IT之家（RSS）52智元开源行业首个聚焦物理交互的具身数据集

13:09IT之家（RSS）37Vim Classic 8.3.0 编辑器发布：100% 不含 LLM 生成代码

12:42HuggingFace Daily Papers（社区热门论文）70精选世界模型与语言模型：论具体推理与抽象推理的互补性

02:23🚨 AI News | TestingCatalog74TinyFish开源Bigset：自然语言生成实时更新数据集

02:07TechCrunch：AI（RSS）66微软为开发者提供更优方式控制AI智能体行为

01:11AYi73独立开发者用Codex在23.5小时内开发开源App，绕过Whoop 5.0订阅限制

00:36向阳乔木73英伟达开源Skill安全扫描工具

6月2日周二

23:05SenseTime81精选商汤开源SenseNova-Skills AI办公技能套件

22:51OpenBMB56MiniCPM-o 4.5 已合并至 vLLM-Omni

22:40Hugging Face：Blog（RSS）73精选Holo3.1：快速本地计算机使用智能体

21:06StepFun73阶跃星辰 Step 3.7 Flash 发布：开放权重模型进军智能体编程

18:06Alibaba Cloud60阿里云发布AgentScope Java 1.1及Claw等新功能

17:47Berryxia.AI55Don哥开源AI内容生成工程系统，价值万元免费发布

14:32宝玉67baoyu-image-gen Skill 新增 Codex-cli 出图支持

12:50数字生命卡兹克84同事件精选为了不花那120刀，我把电脑清理软件做成了开源skill同一事件，精选展示《基于 Codex 的开源 AI 技能“清理垃圾.skill”：自动扫描电脑生成 HTML 报告，一键清理垃圾》

12:40HuggingFace Daily Papers（社区热门论文）68多智能体计算机使用

12:34Hacker News 热门（buzzing.cc 中文翻译）67Chipotlai Max 项目在 Hacker News 获得关注

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月5日

19:27

MarkTechPost（RSS）

62

NVIDIA AI 发布 Dynamo Snapshot：基于 CRIU 的 Kubernetes AI 推理快速启动系统

NVIDIA Dynamo Snapshot 使用 CRIU 和 cuda-checkpoint 工具，在 Kubernetes 上对 vLLM 推理工作节点进行检查点和恢复，实现快速启动。

开源/仓库推理部署/工程

19:20

AYi@AYi_AInotes

27

X创作者收益预测平台将开源

博主@AYi_AInotes研究X平台算法后，称已掌握底层收益算法逻辑，正计划构建X创作者收益预测平台。为打磨预测模型，博主公开征集用户近两周的创作数据，承诺完成后将开源该平台，供创作者分析自身收益数据。

AYi: http://x.com/i/article/2060717603987791878

开源/仓库开源生态

16:07

歸藏(guizang.ai)@op7418

43

歸藏提醒：PPT Skills 需署名开源或走商业授权

歸藏指出，部分用户在使用 GitHub 时过于关注发言、原生等细节，却忽略版权协议。其 PPT Skills 要求必须署名且开源，如需闭源可联系作者获取商业授权。他同时提醒，抄袭点子、代码甚至项目名称的行为不可取。在引用推文中，歸藏表示 PPT Skills 将继续更新，得益于近期赞助，将推出第三套惊艳的主题，并将小红书图文卡片的经验融入新版。

歸藏(guizang.ai): 说一下 guizang PPT Skills 还会继续更新啊。得益于最近的几个赞助,可以找时间去更新第三套主题了,依旧非常惊艳。同时,在小红书那个图文卡片部分积累的好经验,也会用到 PPT Skills 的新版里面。

开源/仓库开源生态

15:57

Tencent Hy@TencentHunyuan

精选74

腾讯混元联合人大开源PlanningBench评估框架

腾讯混元（Tencent Hunyuan）与中国人民大学高瓴人工智能学院合作，开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务，支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。

智能体 arXiv GitHub 开源/仓库

推荐理由：腾讯混元联合人大开源的 PlanningBench，补上了 LLM 从「会说」到「会做」之间规划能力评估的缺口，做 Agent 的同学可以直接用来评测和训练，开源即用。

15:39

jason@jxnlco

41

codex for oss update 又发放了几百个计划！我们遇到了一些垃圾信息，我收到了3万份申请，被淹没了…

OpenAI 开源/仓库编码行业动态

12:47

HuggingFace Daily Papers（社区热门论文）

53

复杂度平衡扩散分裂（CBS）：基于函数逼近理论的时间容量分配框架

标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态，统一架构效率低下。本文提出复杂度平衡分裂（CBS）框架，基于函数逼近理论和de Boor均衡分布原理，将扩散时间线划分为等近似负担的片段，为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度，无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上，CBS不增加每步推理成本，持续提升合成质量：在SiT-XL上使用CFG时，相比朴素时间划分，FID改善约35%。

图像生成开源/仓库数据/训练论文/研究

10:24

公众号：龙猫LongCat（美团）

55

ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文，涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务，有效性达78.55%；SOP-Maze基于真实业务构建397个流程实例，测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板；AMO-Bench含50道高难度数学题，最强模型准确率仅52.4%；The Evolution of Thought提出推理完成点（RCP）检测器减少冗余生成；MASPO通过软高斯门控等优化推理后训练，提升Avg@32和Pass@32；FLR将隐式推理分解为多维偏好因子，平均提升3.2%。

开源/仓库推理论文/研究评测/基准

06:17

Hacker News 热门（buzzing.cc 中文翻译）

69

KVarN：华为开发的用于 KV-cache 量化的原生 vLLM 后端

华为发布 KVarN，一个原生 vLLM 后端，专门用于键值缓存（KV-cache）量化。项目已在 GitHub 上公开，在 Hacker News 上获得 100 点热度。

开源/仓库推理部署/工程

05:47

Hacker News 热门（buzzing.cc 中文翻译）

精选76

Anthropic 开源 AI 驱动漏洞发现框架

Anthropic 将其用于 AI 驱动漏洞发现的开源框架代码托管在 GitHub 上。该框架借助 AI 技术进行漏洞发现，旨在帮助识别软件中的安全缺陷。

智能体 Anthropic 安全/对齐开源/仓库

推荐理由：Anthropic 把用 Claude 做自主漏洞挖掘的完整流水线开源了，从侦察到修复全链路都有，安全团队可以把它接到自己代码库里跑起来。虽然本质是给 Claude Security 带货，但 pipeline 设计和 prompt 对做 AI 安全自动化很有参考价值。

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face 多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

00:53

LMSYS：Blog（Chatbot Arena 团队）

精选77

Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数，基于 Qwen3-4B 骨干，支持 100 种语言（内部评测覆盖 111 种），在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感（20+种）、风格、韵律（语速/音高/停顿）及音效。模型支持流式合成，文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计，统一调度 AR 解码与轻量计算，实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由：Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型，SGLang-Omni 为它搭好了多阶段推理的底座，做语音 Agent 的可以直接抄作业，这比多数论文落地快半拍。

6月4日

22:43

HuggingFace Daily Papers（社区热门论文）

62

KletterMix：面向高质量德语预训练数据的构建与验证

针对德语预训练数据资源匮乏且缺乏系统验证的问题，研究团队构建了KletterMix——一个高质量德语语料库，用于大语言模型预训练与退火阶段。KletterMix通过翻译一份最优英语预训练语料生成，保留了原文档边界、元数据、来源结构和主题多样性。COMETKiwi评估表明翻译文档在多个领域保持语义与风格丰富性。在受控预训练和退火实验中，基于KletterMix训练的模型在德语下游评测中取得可衡量性能提升，证实精心策划的翻译数据能有效增强德语预训练数据生态。

开源/仓库数据/训练论文/研究

20:52

Berryxia.AI@berryxia

71

open-design项目开源：html-video称"html版剪映"，Agent可写HTML生成宣传视频

open-design（项目名html-video）正式开源，被形容为“html版剪映”。Agent可通过编写HTML生成世界级产品宣传、知识解说视频，成本极低。项目历时3天、3万行代码，支持20多套视频风格模板，分页编辑，可导出mp4，支持Claude Code等主流Agent接入。

Tom Huang: 正式开源 html-video 🚀 html版剪映来了! 你的 Agent 现在可以通过写 html轻松做出世界级水准的产品宣传、知识解说视频,成本极低!🔥 历时 3 天,3 万行代码!支持20多套顶尖视频风格模板,分页编辑,mp4 导...

智能体 GitHub 开源/仓库视频

20:42

Hugging Face：Blog（RSS）

精选65

EVA-Bench Data 2.0 发布：覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理（CSM）、企业 IT 服务管理（ITSM）和医疗 HR 服务交付（HRSD）三个领域，共涵盖 121 个工具、213 个场景，场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则，包含单意图、多意图（最多 4 个意图）和对抗性呼叫类型。所有三个数据集已开源，可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由：语音代理评测缺的就是这种真实场景的数据集，EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了，生成流水线也开源，做评测的可以直接拿来用。

06:09

OpenClaw🦞@openclaw

64

OpenClaw 2026.6.1 已上线 🦞 🪟 原生 Windows 节点主机 🛠️ 用于自主学习型智能体的技能工坊（Skill Workshop） 📋 工作板（Workboard）编排 🧠 支持 MiniMax M3 Windows 加入集群。无需企鹅服。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.1

智能体 GitHub 产品更新开源/仓库

03:31

fofr@fofrAI

69

Ideogram v4 真的很好，而且开源权重。图像清新锐利，令人耳目一新。

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成多模态开源/仓库模型发布

02:49

Google Research：Blog（网页）

精选72

洪水韧性新篇章：Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架，这是一个基于 PyTorch 的 Python 包，采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据，并已与捷克水文气象研究所（CHMI）等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时，整合基于 AI 的洪水预报。

Google 开源/仓库开源生态数据/训练

推荐理由：谷歌开源的水文模型框架，是少数真正能救命的AI应用。不是秀参数，而是把工具直接塞给一线预报员，让他们用本地数据训练。务实，值得给赞。

02:48

MarkTechPost（RSS）

68

Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型，直接将视觉和音频输入大语言模型骨干，支持原生音频，可在 16 GB 笔记本电脑上本地运行，采用 Apache 2.0 开源许可。

Google 多模态开源/仓库模型发布

6月3日

23:10

IT之家（RSS）

67

京东开源 JoyAI-Echo 长音视频生成框架，支持对话式编辑与 5 分钟角色一致

京东发布并开源 JoyAI-Echo 长音视频生成框架。其内置记忆库可在长达 5 分钟的视频中保持角色身份、视觉形象和声音音色高度一致。框架采用记忆驱动后训练流程，结合 SFT、跨模态 RLHF 与 Distribution Matching Distillation（DMD）技术，DMD 带来约 7.5 倍推理速度提升。JoyAI-Echo 还引入 Director Agent，支持自然语言需求自动拆分为剧本、角色、场景和镜头，实现对话式编辑。配套实时超分模块支持 736×1280 → 1152×1920 及 736×1280 → 1472×2560 两档分辨率提升。京东称该项目标志着其在长视频生成领域进入全球第一梯队。

多模态开源/仓库

22:09

IT之家（RSS）

47

上海海思一站式集成开发环境 HiSpark Studio 开源

上海海思 HiSpark Studio 正式在 GitCode 平台开源。该 IDE 基于 VS Code 扩展架构，集成工程管理、代码编辑、编译构建、烧录调试、图形化配置等全链路开发能力，支持智能设备、星闪（NearLink）、嵌入式 AI 开发。核心亮点包括 SDK 一键下载、一键编译与烧录、GDB 调试、图形化工具集（图片解压缩、视频首帧提取、3D 建模、蒙版工具）、系统配置工具、AI 模型处理（量化压缩、格式转换、一键部署验证）及远程开发模式。

开源/仓库端侧

20:57

Simon Willison 博客

66

datasette-agent-micropython 0.1a0 发布

Datasette Agent 推出的新子项目 datasette-agent-micropython 0.1a0 发布，旨在让 Datasette Agent 能够安全地生成和执行 Python 代码。该 alpha 版本采用沙箱隔离机制，目前 GPT-5.5 尚未能逃逸出沙箱。

智能体开源/仓库部署/工程

19:16

The Decoder：AI News（RSS）

58

Nous Research 发布开源 AI 智能体 Hermes Desktop，支持多平台

Nous Research 推出开源 AI 智能体应用 Hermes Desktop，采用 MIT 许可证，可跨平台运行。

智能体开源/仓库

18:08

小互@xiaohu

71

开源项目OpenSquilla用Python重写"小龙虾"，大幅节省Token与成本

国内团队开源项目OpenSquilla用Python重写“小龙虾”，解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类：简单任务走便宜模型，复杂任务走顶级模型。测试25个任务，纯Claude Opus 4.7成本6.2美金，OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金，分数几乎一样。同时，它根据对话语义只注入匹配度最高的Skill（原90+个），每轮省约9000 Token，100次对话累计省100万Token。

智能体 MCP/工具开源/仓库端侧

13:09

IT之家（RSS）

52

智元开源行业首个聚焦物理交互的具身数据集

智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互（Rich Interaction）”。这是行业首个聚焦物理交互的开源具身数据集，系统记录机器人与真实物理世界之间复杂、高密度的交互过程，面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”，目前已在 Hugging Face 平台开放下载。

Hugging Face 具身智能开源/仓库数据/训练

13:09

IT之家（RSS）

37

Vim Classic 8.3.0 编辑器发布：100% 不含 LLM 生成代码

Vim Classic 发布首个稳定版 8.3.0 编辑器，明确承诺代码库完全不含 LLM 生成内容。该版本基于 Vim 8.2.0148 构建，旨在避免 Vim9 Script 带来的长期维护负担，使代码更简洁，但也导致部分现代 Vim 插件无法正常使用。团队已针对上游安全补丁进行评估以覆盖已知漏洞，但提醒早期用户系统可能存在隐藏 Bug，更适合愿意接受兼容性与稳定性风险的用户尝鲜。

产品更新开源/仓库

12:42

HuggingFace Daily Papers（社区热门论文）

精选70

世界模型与语言模型：论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹，但可能视觉合理却任务错误；多模态大语言模型则擅长抽象推理。为此，研究提出了“受控的具体推理”框架，并构建了VRQABench和OpenWorldQA两个基准。同时，提出了Privileged-Future On-Policy Self-Distillation（PF-OPSD）方法，该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹，但部署时无需真实未来。实验结果显示，PF-OPSD在两个基准上分别比基线高出10.6%和10.9%，并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由：世界模型靠视觉预测，语言模型靠抽象推理，这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%，还给全开源，做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。

02:23

🚨 AI News | TestingCatalog@testingcatalog

74

TinyFish发布了Bigset，一个开源的多智能体系统。用户只需用一句自然语言描述所需数据，系统的智能体便会从网络实时抓取、去重并整合信息，生成一个结构化的数据集。该数据集可导出为CSV或XLSX格式，并支持用户自定义的刷新频率以保持数据始终为最新状态。

TinyFish: What if you and your agent had all the data that always stays fresh? Structured, on demand, never stale. Introducing Big...

智能体开源/仓库搜索数据/训练

02:07

TechCrunch：AI（RSS）

66

微软为开发者提供更优方式控制AI智能体行为

微软发布了一项AI智能体控制规范，允许开发者、合规与安全团队在可移植的策略文件中为智能体定义行为准则。

智能体 Microsoft 产品更新开源/仓库

01:11

AYi@AYi_AInotes

73

独立开发者用Codex在23.5小时内开发开源App，绕过Whoop 5.0订阅限制

独立开发者Bennett利用Codex AI编程工具，在23.5小时内开发出开源App Goose。该应用可直接通过蓝牙读取Whoop 5.0的健康数据，无需订阅。实现基于公开的BLE协议分析，使用Rust和SwiftUI将数据本地化存储。此举暴露了依赖用户数据锁定和惯性构成的订阅制硬件护城河的脆弱性，并展示了AI工具如何降低个人挑战封闭生态的成本。

开源/仓库现象/趋势端侧编码

00:36

向阳乔木@vista8

73

英伟达开源Skill安全扫描工具

英伟达开源了一款针对AI智能体Skill（技能）的安全扫描工具。推文指出，Skill安全虽是一个实际问题，但目前专门做此方向扫描的工具和人员似乎较少。尽管尚未出现由Skill引发的严重破坏性案例，但仍需保持警惕。推文建议，用户可以考虑编写一个Meta Skill（元技能）来自动生成各种所需的Skill，并强调他人的Skill应主要用作学习和参考，而非直接使用。

MCP/工具安全/对齐开源/仓库

6月2日

23:05

SenseTime@SenseTime_AI

精选81

商汤开源SenseNova-Skills AI办公技能套件

商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体（如OpenClaw与HermesAgent）设计的开源技能集合，提供四大核心功能：图像信息图表生成（可镜像参考风格）、数据分析（支持多表解析、清洗与可视化）、PPT创建（生成大纲内容并智能排版，输出可编辑文件）以及深度研究（跨学术、技术、社交等多源搜索并生成报告）。该技能套件现已完全开源。

智能体图像生成开源/仓库

推荐理由：商汤掏出了一套开箱即用的 agent 技能包，从做图到写报告都能一键接，而且代码全在 GitHub 上。想做 agent 产品的可以直接 fork 当乐高用，比等 API 发布快多了。

22:51

OpenBMB@OpenBMB

56

🎉 好消息！MiniCPM-o 4.5 已正式合并至 vLLM-Omni！👏 💡 目前，它支持单工非流式使用--这是未来发展的坚实第一步。 🚀 旅程继续！我们将与出色的开源社区一起，继续推进下一步的双工流式功能集成。敬请期待更强大、更无缝的交互体验。敬请关注！💪 http://github.com/vllm-project/vllm-omni/pull/4067 http://huggingface.co/openbmb/MiniCPM-o-4_5

产品更新开源/仓库部署/工程

22:40

Hugging Face：Blog（RSS）

精选73

Holo3.1：快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列，旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸，并首次发布量化检查点，包括 FP8、Q4 GGUF 和 NVFP4，以优化本地推理。在 AndroidWorld 基准测试中，35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上，NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升，并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议，可在第三方智能体框架中部署。

智能体 Hugging Face 开源/仓库模型发布

推荐理由：Holo3.1 把计算机使用代理从桌面扩展到了移动端，还首次放出了量化版，让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。

21:06

StepFun@StepFun_ai

73

阶跃星辰发布 Step 3.7 Flash 模型，强调其为快速智能体编程设计，具备可靠的工具调用与多模态理解能力。该模型采用开放权重。同期，MiniMax 也开源了 M3 模型。两者已均在 Kilo 中上线。此次发布凸显了开放权重模型正从模型卡片走向实际编程工作流的趋势。

Kilo: The open-weight labs did not come to play this week. StepFun dropped Step 3.7 Flash. MiniMax dropped M3. Both with open ...

MCP/工具开源/仓库模型发布编码

18:06

Alibaba Cloud@alibaba_cloud

60

🚀 AgentScope Java 1.1：构建可自我进化的智能体 ✨ Claw：具备Shell访问权限的本地"MinQwenPaw" ✨ Builder：多租户、零代码企业平台 ✨ 工作区驱动的进化与分布式隔离从笔记本电脑到集群无缝扩展。👇 https://int.alibabacloud.com/m/1000413896/ #AgentScope #AIAgents #Java

智能体开源/仓库

17:47

Berryxia.AI@berryxia

55

Don哥（@dontbesilent）将其宣称价值万元的"内容生成工程系统"完全免费开源。主推文作者Berry Xia建议大家安装学习，并表示已安排"AGENT"（指AI智能体）执行安装任务。推文内容侧重于推荐和行动呼吁，但未提供该开源项目的具体名称、技术细节、参数规模或性能基准。

dontbesilent: http://x.com/i/article/2061721924875825152

智能体开源/仓库

14:32

宝玉@dotey

67

baoyu-image-gen Skill 支持 Codex-cli 作为 Provider 画图也就是说你可以在 Claude Code、hermes agent 之类的 Agent 里面用它调用 Codex 出图，而不需要用 Codex，当然前提是安装了 codex cli 并且有订阅。感谢网友的 PRs： https://github.com/JimLiu/baoyu-skills/pull/158 https://github.com/JimLiu/baoyu-skills/pull/161 Skill 地址：https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-image-gen

GitHub MCP/工具图像生成开源/仓库

12:50

数字生命卡兹克@Khazix0918

同事件精选84

为了不花那120刀，我把电脑清理软件做成了开源skill

作者受一条推文启发，使用Codex对自己的MacBook进行了只读存储分析，发现了B站缓存视频等大量可清理空间（激进方案超140G）。为替代收费软件CleanMyMac，作者制作并开源了一个跨平台（支持Mac/Windows）的AI清理skill。该skill会扫描文件并生成可交互的HTML报告，通过三色分级（绿灯可放心清理、黄灯需人工判断、红灯禁止动）直观展示，并提供安全执行按钮。实测清理后释放了近120G空间，相比CleanMyMac仅扫描出的15.8G，其信息更透明、建议更详细。

智能体 GitHub MCP/工具开源/仓库

同一事件，精选展示《基于 Codex 的开源 AI 技能"清理垃圾.skill"：自动扫描电脑生成 HTML 报告，一键清理垃圾》

推荐理由：不花120刀就把Mac清理干净，卡兹克这个开源skill比CleanMyMac更透明、更懂你的乱七八糟。Agent让你直接说人话清垃圾，传统软件那层UI真的多余。

12:40

HuggingFace Daily Papers（社区热门论文）

68

多智能体计算机使用

当前单智能体计算机使用智能体在复杂长时程任务中存在不足。为此，本研究提出了多智能体计算机使用系统。该系统由一个管理器模型将任务分解为有向无环图，并行派遣子智能体执行，并根据新信息动态调整该图。实验表明，该系统在桌面和网页导航基准测试上的性能持续优于强单智能体基线3.4-25.5%，并在长时程网页导航任务上将平均任务完成时间缩短约1.5倍。研究结论是，多智能体协调是扩展计算机使用智能体能力的一个有前景方向。

智能体开源/仓库论文/研究

12:34

Hacker News 热门（buzzing.cc 中文翻译）

67

Chipotlai Max 项目在 Hacker News 获得关注

“Chipotlai Max”项目在 Hacker News 上获得了 102 点热度，并提供了其 GitHub 仓库地址。

GitHub 开源/仓库编码

1…6 789 10…25