开源生态最新动态与精选 · AI HOT

Topic · 主题全部主题 →

开源生态

开源模型、框架与仓库动态：权重开放、社区项目爆火、开源与闭源的力量消长。

2,439条收录

411条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

7月2日

19:39

meng shao@shao__meng

精选79

browser-use 发布开源 AI 视频剪辑 Skill「video-use」

browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」，让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本（含逐词时间戳、说话人分离、事件标记），仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节：分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。

智能体 GitHub 开源/仓库视频

推荐理由：browser-use 团队把 AI 视频剪辑从「看视频帧」变成「读转写文本」，12KB 文本代替 4500 万 token 噪声的思路很聪明，一套可落地的 ffmpeg 脚本集，做 AI agent 视频处理的可以直接抄。

19:14

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Senior SWE-Bench：评估AI智能体作为高级工程师的基准测试

Senior SWE-Bench是一个开源基准测试，用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类：功能任务指令类似自然语言消息，采用验证智能体基于专家配方自动生成行为测试；Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示，Claude Opus 4.8搭配Mini-SWE-Agent（max effort）通过率24.0%，Claude Sonnet 5为19.4%，GPT-5.5为16.0%，最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件，最强智能体也需数百步完成；中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR，由拥有数百次提交的工程师编写。

开源/仓库编码评测/基准

推荐理由：这个新基准把 AI 编程代理的评估拉到了更真实的复杂度，顶尖模型也只有不到四分之一的成功率，做 coding agent 的都该拿它测一测，它会比 SWE-bench 更挑出工程师的“手感”。

17:06

MarkTechPost（RSS）

精选72

Google Health API 推出 CLI：ghealth 是一款针对 Fitbit 数据的开源工具

ghealth 是一款封装 Google Health API v4 的开源命令行工具，以单个 Go 二进制文件发布（Apache 2.0 协议）。它提供 40 种已验证的数据类型（包括步数、心率、睡眠、体重、血氧饱和度、心率变异性等）的结构化 JSON 输出。工具采用 Agent 优先设计，具备确定性退出码、--dry-run 和 --raw 标志，并附带两个 SKILL.md 文件供 AI 智能体使用。用户需自行创建 OAuth 凭据，通过 PKCE S256 认证。数据来源覆盖 Fitbit、Pixel Watch 及连接的第三方设备。

Google MCP/工具开源/仓库数据/训练

推荐理由：把 Google Health API 封装成终端和 AI 代理友好的 CLI，一次性解决了认证、JSON 输出和分页这些烦人细节，想用 Fitbit 数据做健康分析或喂给代理的人可以直接上手，但它的影响仅限于个人健康数据爱好者这个小圈层。

16:40

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Kimi K2.7 Code 已在 GitHub Copilot 上正式发布

Kimi K2.7 Code 开源权重模型已在 GitHub Copilot 中正式可用，成为 Copilot 模型选择器首个可选的开源权重模型，为编程工作流提供更低成本选择。该模型由 GitHub 托管于 Microsoft Azure，按供应商列表价格以用量计费。逐步向 Copilot Pro、Pro+ 和 Max 计划用户推送，用户可在 Visual Studio Code 1.127.0 或更新版本、Visual Studio 17.14.6 或更新版本、JetBrains 1.9.1-251 或更新版本、Xcode、Eclipse 等 IDE 及 Copilot CLI、GitHub.com、GitHub Mobile 等平台中选用。后续几周将扩展至 Copilot Business 和 Enterprise，当前默认关闭，需管理员在 Copilot 设置中启用策略。

GitHub 产品更新开源生态编码

推荐理由：GitHub Copilot 首次把开源权重模型放进模型选择器，Kimi K2.7 Code 作为低价选项可能会改变很多开发者的使用习惯，对个人开发者尤其友好。

7月1日

16:32

MarkTechPost（RSS）

精选73

NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型

NVIDIA 发布 Nemotron-Labs-TwoTower，基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构：上下文塔冻结，降噪器塔训练，通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估，保留 98.7% 的 AR 基线质量，生成吞吐量提升 2.42 倍（γ=0.8，块大小 S=16）。降噪器在约 2.1T token 上训练，骨干使用 25T token 预训练。总参数约 60B，每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。

开源生态推理模型发布部署/工程

推荐理由：NVIDIA这个TwoTower把扩散解码接在已有的AR骨干上，几乎无损质量却让吞吐翻倍，并且开源可商用，对批量文本生成的团队是实在的加速工具。

12:00

公众号：龙猫LongCat（美团）

精选82

美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T，平均激活约48B，原生支持1M超长上下文，在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合（Agent/Reasoning/Interaction三组专家）架构。评测中SWE-bench Pro获59.5，SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放，月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码

关联讨论 9 条

推荐理由：国产算力上首个全流程自训的万亿开源模型，1M上下文和动态专家架构直指Agentic Coding场景，OpenRouter调用量已经冲到前三，不是Demo是生产力。

6月30日

09:50

公众号：卡尔的AI沃茨

精选70

AI News Radar 大更新：新增自媒体板块，支持订阅多平台账号

AI News Radar 迎来大更新，新增自媒体板块，支持订阅某书、某音、某站、某X等平台账号，每日按热度推荐 Top10 信息（无热门则不硬凑），同时保留时间轴视图，可在热度优先和时间优先间切换。官方来源包括 OpenAI、Anthropic、Google 等一手消息及 GitHub AI&ML 更新日志。信息流按来源、类型、信号等级分类，标注高优先级与多源认证。项目完全开源，可零 API 部署独立 AI 日报页面，支持手机移动端及暗色界面。

GitHub 产品更新开源生态

推荐理由：我觉得这是目前最实用的AI信息过滤工具，新版直接整合了社媒热榜和官方源，内容创作者可以拿来当选题雷达，普通人也能一键部署自己的AI日报，省去每天刷各个平台的时间。

02:35

Hacker News 热门（buzzing.cc 中文翻译）

精选75

Qwen 3.6 27B 是本地开发的理想选择

Qwen 3.6 27B 是一款密集参数本地大语言模型，原生支持 256k 上下文。在 Macbook Max M5 上运行 llama.cpp Q8_0 量化版（含多 token 预测）可达 30 tokens/s；用户反馈在 RTX 5090 上 Q6_K 量化可达 50 tokens/s。它可通过单个提示完成创意诗歌、用 pnpm 生成六边形扫雷游戏等任务，作者称其为首个真正具备通用智能的本地模型。另有一个 MoE 变体 35B A3B，但作者推荐 27B 版本。

开源生态端侧评测/基准

推荐理由：一篇详实的 Qwen 3.6 27B 实战评测，从创意写作到代码生成都测了，还给出了 llama.cpp 部署命令和性能数据，想本地跑模型的开发者可以直接抄作业。

6月29日

22:35

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Herdr：驻留在终端中的AI智能体多路复用器

Herdr是一个驻留在终端中的AI智能体多路复用器，允许用户在单一终端界面内管理和切换多个AI智能体会话。

智能体 GitHub MCP/工具开源/仓库

推荐理由：这个工具把 AI 代理管理塞进终端，比开一堆浏览器标签自然，对命令行重度用户是个值得一试的 early idea。

18:58

MarkTechPost（RSS）

精选74

EverOS：开源Markdown优先智能体记忆运行时，支持混合检索与自进化技能

EverMind 推出开源智能体记忆运行时 EverOS（Apache 2.0 许可）。它以可编辑的 Markdown 文件为记忆主体，经 SQLite 管理状态、LanceDB 实现混合检索（BM25 关键词 + 向量搜索 + 标量过滤）。每个完成的任务记录为 Case，离线提炼为可复用的 Skill，使记忆随使用自我进化。v1.1.0 新增 Knowledge APIs（支持分类与话题搜索的 Markdown 页面）和 Reflection（跨会话优化 Profile 和 Skill）。据 EverMind 报告，LoCoMo 得分 93.05%，LongMemEval 83.00%，HaluMem 93.04%，p95 检索延迟低于 500ms。运行时可本地优先部署，也提供 EverOS Cloud 托管选项，兼容 OpenAI 协议端点。

智能体 MCP/工具开源/仓库

推荐理由：EverOS把Agent记忆从沉重的向量数据库堆栈中解放出来，Markdown源真和自进化技能让本地开发更轻便，但基准全由团队自报，上手前最好自己测一下。

01:26

Nathan Lambert：Interconnects（RSS）

精选60

Artifacts 22：Zyphra、Cohere 和 Poolside 正在扩展生态系统广度

开源模型生态正变得更多元，参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs；科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机；产品公司如 JetBrains、Zed、Krea、Photoroom 则训练高度专业的小模型。NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16，采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型 Command A+（05-2026-bf16），这是一款 218B-A25B MoE 模型，具备多模态、多语言和智能体能力。

开源生态模型发布现象/趋势

推荐理由：这篇文章把开源模型玩家拆成三类，清晰解释了不同动机，Cohere 转向 Apache 2.0 和 NVIDIA 采用 OpenMDW 是许可层面的重要信号，关注开源的值得一读。

01:03

Hacker News 热门（buzzing.cc 中文翻译）

精选75

Wayfinder Router：在本地和托管的大语言模型之间进行确定性查询路由

Wayfinder Router 通过分析提示词的结构（长度、标题、列表、代码）和措辞（证明、数学、硬约束），在微秒级完成路由决策，完全离线且无需调用其他模型。默认仅使用结构特征，词汇线索因盲测未泛化而默认为关闭。对比依赖模型调用的路由器（如 RouteLLM、NotDiamond），它避免了延迟、成本和随机性。用户可在自有数据上校准评分阈值。支持任何 OpenAI 兼容 API（含 Ollama、Anthropic、Groq、vLLM 等），可自托管。提供终端和网页演示（--dry-run 无需密钥），以及基准测试和 FAQ。

开源/仓库部署/工程

推荐理由：Wayfinder Router 把 prompt 路由变成了离线文本分析，无需额外模型调用，对希望节省成本同时保持私密的开发者很实用，比现有方案更轻量和确定，但纯语义难题仍是短板。

6月28日

16:10

The Decoder：AI News（RSS）

精选70

新浪开源VibeThinker-3B：推理可压缩，事实知识不能

新浪发布仅3B参数的VibeThinker-3B，在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型，LiveCodeBench超越所有20B以下模型，LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B，经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”：逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。

Hugging Face 开源生态推理模型发布

推荐理由：VibeThinker-3B 用 3B 参数在数学编程上匹敌百倍大模型，推理可压缩而知识不能的假设值得深思。对做推理应用的人来说是个信号。

12:03

Hacker News 热门（buzzing.cc 中文翻译）

精选72

阿德拉菲尼尔：仅在AI agent工作时阻止Mac睡眠的菜单栏工具

Adrafinil 是一款 macOS 菜单栏应用，仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠（包括合盖睡眠）。无 agent 工作时，合盖后 Mac 正常睡眠。它通过各 agent 的钩子系统调用 CLI，往返延迟低于 50ms，支持引用计数断言、热切出（温度阈值强制释放）、空闲释放及进程嗅探。需要 macOS Tahoe 26.4，Xcode 26+ 构建，以签名公证的磁盘映像提供。

智能体开源/仓库编码

推荐理由：阿德拉菲尼尔对macOS唤醒工具做了一次有趣的重新思考，不是一直醒着，而是只在AI代理工作时醒着，合盖也能跑长任务，对用Claude Code或Cursor的开发者是实用的开源伴侣。

00:03

Hacker News 热门（buzzing.cc 中文翻译）

精选81

一次失败的（民族国家？）攻击的剖析

作者收到伪装成新加坡VC Lua Ventures的虚假面试邮件，要求完成一个TypeScript仓库的“测试”。作者将仓库交给Claude扫描，在typescript+5.9.2.patch中发现base64混淆载荷，该载荷在patch-package安装时触发，向~/.cache-等目录写入payload.js和mutex.js，构成后门（命名PinpinRAT）。攻击者使用虚构身份和空洞LinkedIn资料，目标是作者在crates.io上的Rust包。相关信息已报告加拿大CCCS等机构。

安全/对齐开源生态部署/工程

推荐理由：这是一次近乎完美的开发者定向攻击复盘，虚假面试加上精心构造的补丁注入 RAT，手法隐蔽到连作者都差点中招，所有靠开源吃饭的人都该认真看看 Ioc 并重新审视自己的代码审查盲区。

6月27日

16:59

IT之家（RSS）

精选70

AI 账单失控后 DeepSeek 成"香饽饽"，部分美国企业已 100% 切换

美国企业面临 AI 账单失控，开始转向 Token 最小化策略。旧金山公司 Lindy 此前主要调用 Anthropic 的 Claude 模型，每月 AI 账单超支甚至超过员工工资。该公司 CEO 弗洛·克里维洛表示，本月初已将 100% 流量切换到 DeepSeek，预计未来几个月可节省数百万美元。企业开始采用按任务匹配模型的“模型路由”，不再将最贵的前沿模型用于所有场景。部分客户已决定暂停 AI 投入，待证明投资回报率后再继续。

DeepSeek 开源生态现象/趋势

推荐理由：一家初创把AI调用从Claude全切到DeepSeek，省下的钱超过工资总额，企业客户开始用模型路由压成本，这个趋势比任何benchmark都更能说明价格战的影响。

00:16

AYi@AYi_AInotes

精选76

Leaf 开源项目：将网红峰哥做成实时通话 AI 分身

开发者 Leaf 开源项目，将网红峰哥做成能实时通话的 AI 分身，集成实时对话、音色克隆和人格注入，工程延迟压到 1 秒内。技术拆解：语音识别用 Cartesia ink-whisper 降噪防误触发；大模型选 MiniMax 高速版，首字响应 361ms；语音合成用 VoxCPM 开源克隆，15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通：克隆项目后，用 Claude Code 或 Cursor 配置，填两个 API Key 即可使用。

Leaf Yeah!: http://x.com/i/article/2070103285181349888

GitHub 开源/仓库语音

推荐理由：Leaf 开源的这个实时语音分身项目，把工程延迟拆解到毫秒级，选型和人格蒸馏细节全公开，想做个性化语音机器人的可以直接复用，实践导向很强。

6月26日

12:00

公众号：龙猫LongCat（美团）

精选69

美团 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

美团 LongCat 团队推出 VitaBench 2.0，首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具，每位用户平均2093个交互事件，时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示，最强模型 Claude-Opus-4.6 在“开卷”模式下平均分刚过0.5；开启思考模式并不总能提升个性化任务表现；所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。

智能体开源生态评测/基准

推荐理由：美团LongCat开源的VitaBench 2.0是首个评测AI长期理解用户偏好的基准，实验发现最强模型得分也刚过0.5，做Agent和推荐系统的值得跑一遍。

09:27

小互@xiaohu

精选81

小互开源个人IP配图技能"小互IP Studio"，含31个原创角色

博主小互开源个人IP配图技能“小互IP Studio”，包含31个原创角色（15个手绘线稿角色+16个谐音梗meme形象）及一套配图方法论。该Agent可自动读取文章、规划配图类型（情绪图/示意图/四格漫画）、生成并自查返工。默认画风为手绘线稿淡彩，另备5种皮肤（3D盲盒、黑白线稿等）可切换。安装仅需Python3，支持Claude Code、Codex等工具，需自备OpenAI兼容的图像API key（默认GPT-image-2）；也可只输出提示词手动生图。

智能体 GitHub 图像生成开源/仓库

推荐理由：小互开源了一整套AI配图skill和31个原创角色，把“读文-定图-生图-自查”的流程装进一个命令，自媒体人装上就能用，省去调提示词的痛苦。

02:31

Hacker News 热门（buzzing.cc 中文翻译）

精选79

赫库兰尼姆古卷首次被完整虚拟解读

研究人员利用高分辨率X射线显微断层扫描和机器学习，在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667（Scroll4）。这是首卷被从头到尾连续读取的纸莎草卷，内容为斯多葛哲学论著，提及克里西普斯的侄子Aristocreon。第二卷PHerc.Paris4通过更高分辨率成像使墨水在三维数据中直接可见，独立确认了2023年大奖赛的解读。第三卷PHerc.139确定标题和作者为菲洛德穆《论诸神》第八卷。所有数据与代码已公开。

GitHub 开源生态论文/研究

关联讨论 1 条

推荐理由：两千年来首次完整读取密封的古卷，用 X 射线和机器学习做到了，还把数据和代码全开放了，我觉得这是 AI 应用在人文领域最优雅的示范之一。

00:19

Berryxia.AI@berryxia

精选76

Ornith-1.0 开源模型家族发布，专注 Agentic Coding 全参数规模

Ornith-1.0 开源模型家族发布，专注智能体编程（Agentic Coding），覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖：SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练，采用强化学习联合优化任务脚手架（scaffold）与最终解决方案，让模型自主改进执行框架。全系列 MIT 开源，提供 GGUF 版本，支持 Ollama、Unsloth 等本地运行。

Ornith: Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...

智能体开源生态模型发布编码

关联讨论 1 条

推荐理由：Ornith-1.0 不是又刷 benchmark，而是第一次把‘任务脚手架’的生成也纳入 RL 优化，这个思路可能改变 agent coding 的训练范式。MIT 开源加 GGUF，本地党可以立刻跑起来。

00:16

Hugging Face：Blog（RSS）

精选65

OLMo Hybrid vs Transformer：混合模型在实义词上优势明显，但重复短语上几无优势

通过对比7B参数的OLMo 3（Transformer）与OLMo Hybrid（混合架构），实验发现混合模型在大多数token上预测损失更低：对名词、动词、形容词等实义词优势明显（loss gap约0.04），功能词上gap约0.02，且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号（如}）上，混合模型的优势几乎消失，Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face 开源生态推理论文/研究

推荐理由：OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里，优势在名词动词等意义词，但在重复 token 上接近消失，这份洞察对做模型架构的人很有启发性。

6月25日

00:15

Hugging Face：Blog（RSS）

精选66

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调

NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库，添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中，相比原生 v5，训练吞吐量提升 3.4–3.7 倍，GPU 内存减少 29–32%，仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时，v5 因内存不足无法运行，而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型（如 Qwen3-30B-A3B）同样获得可量化的性能优势。

开源/仓库教程/实践数据/训练

推荐理由：英伟达的 NeMo AutoModel 把 MoE 模型微调速度提高了三倍多，内存省了近三分之一，代码只需改一行 import，做训练的可以立刻升级。

6月24日

15:10

OpenBMB@OpenBMB

精选65

🥳感谢分享，@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行，实在令人印象深刻--尤其是在 Apple Core AI 上以不到 2B 参数跑出。干得漂亮，推动高效多模态 AI 向前发展。🫡

MLBoy_DaisukeMajima: 📸 MiniCPM-V 4.6 - one of the strongest vision models under 2B params - now runs at ~51 tok/s on iPhone 17 Pro via Apple...

多模态开源/仓库端侧

推荐理由：社区把 MiniCPM-V 4.6 搬上 iPhone 17 Pro，跑出 51 tok/s，还给了代码和模型，做端侧多模态的可以直接跑起来了。

11:55

HuggingFace Daily Papers（社区热门论文）

精选70

NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

NatureBench是一个跨学科基准测试，包含90个从Nature系列同行评审论文中提取的任务，用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线，为每个任务提供标准化容器化环境，解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置，最强模型仅在17.8%任务上超过已发表SOTA（g>0.1准则）。分析表明，智能体成功主要依赖方法论翻译，失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。

智能体 GitHub 开源生态评测/基准

推荐理由：这个基准把AI agent丢进Nature论文的复现池里游了一圈，发现最强的配置也只能在17.8%的任务上超越SOTA，而且靠的是方法翻译而非发明——对做科研agent的团队来说，既是冷水也是路线图。

03:43

GitHub Blog

精选56

GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源

GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟，呼吁对加州 AI 透明度法案（SB 942，拟由 SB 1000 修正）进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证，这与开源许可证永久不可撤销的性质冲突。联盟认为该要求非必要，已有直接监管和执法机制，并建议参考欧盟 AI 法案的透明度实践规范，以向下游用户通知最佳实践文档的方式替代撤销条款。GitHub 支持这些修正，以在保持透明度目标的同时兼容开源开发模式。

GitHub 开源生态政策/监管

推荐理由：GitHub 联合 Hugging Face 等开源玩家公开呼吁修正加州 AI 透明法案，核心矛盾是许可撤销条款与开源许可的‘永久不可撤销’冲突，对开源开发者是个明确的政策信号，值得留意。

02:26

Hugging Face：Blog（RSS）

精选64

在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时，不同来源的 Web 应用会重复下载并缓存相同的模型资源（如 Xenova/whisper-tiny.en）和 Wasm 运行时文件（如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm），即使资源 URL 相同，浏览器因 Network Isolation Key 隔离缓存，单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案，旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现，但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face 开源生态教程/实践部署/工程

推荐理由：这个Chrome提案让不同网站的AI模型共享缓存，对用Transformers.js的Web开发者是切实的性能改进，但还只是早期实验。

01:37

Krea@krea_ai

精选71

我们的技术报告已发布。深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

Krea: today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-trainin...

图像生成开源生态模型发布

关联讨论 1 条

推荐理由：Krea 2 开源了两个图像模型权重，一个未蒸馏适合微调，一个快速蒸馏版覆盖多样审美。对于做图像生成应用和模型融合的团队，这次开放权重比很多大厂都实在。

6月23日

21:56

Hacker News 热门（buzzing.cc 中文翻译）

精选70

无限制OCR：单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的 OCR 任务。

多模态开源/仓库

关联讨论 1 条

推荐理由：百度把能处理超长文档的 OCR 系统开源了，宣称一次推理搞定整份文件，做发票、合同、档案数字化的可以马上跑起来试试。

21:20

Hugging Face：Blog（RSS）

精选73

IBM 开源 CUGA：轻量级智能体框架，提供二十余个单文件示例应用

IBM 开源了 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环，在 AppWorld（2025年7月–2026年2月）和 WebArena（2025年2月–9月）基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式，代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数，通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用，涵盖电影推荐、IBM Cloud 架构顾问等场景，每个应用仅需一个 FastAPI 文件。

智能体 GitHub MCP/工具产品更新

推荐理由：CUGA 把 agent 的规划、状态、策略等繁琐工程压缩成配置，开发者只写工具列表和 prompt 就能跑起 agent，配套的二十多个单文件应用是现成的模板库，对自建 agent 的团队来说省去了八成重复工作。

16:12

Hugging Face：Blog（RSS）

精选59

我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型，配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b，经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10（128 GB 统一内存）上，相比每月 200 美元的 ChatGPT Pro 订阅，可实现近乎实时的通知且仅消耗电费。

智能体 Hugging Face 开源生态教程/实践

推荐理由：Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案，包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队，这是一套可直接借鉴的 recipe。

16:12

Hugging Face：Blog（RSS）

精选67

huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM‑5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建，任何维护者都可直接复制使用。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 把周更流程完全开源，用 GLM-5.2 生成发布说明初稿，再加确定性校验和人工修订，成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。

14:10

公众号：京东JoyAI

精选73

京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署，适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程

关联讨论 2 条

推荐理由：京东这个实时交互模型不是又一个刷榜模型，它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人，做安防、看护、直播的开发者可以直接试了。

6月20日

20:24

meng shao@shao__meng

精选75

开源教程《Deep Agents 实战》发布

LangChain 官方认证大使 @zhanghaili0610 推出开源教程《Deep Agents 实战》，基于 LangChain / LangGraph 生态，讲解如何用 Deep Agents Harness 框架构建真实 Agent 应用。核心是“三层架构”：Runtime（LangGraph）、Framework（LangChain）、Harness（Deep Agents）。技术内核为上下文工程，通过虚拟文件系统实现按需读取、中间结果落盘、大文件局部读取。教程共 8 章 + 2 准备篇，覆盖虚拟文件系统（六大工具）、任务规划、子 Agent 委派（异步并行）及 Skills 复用（可在 Claude Code、Cursor 等 30+ 工具中通用）。

Harry Zhang: A gift to the Chinese developer community for anyone building agents on @LangChain: After 2 books on the ecosystem, I op...

智能体开源生态教程/实践

推荐理由：海里的这份 Deep Agents 教程把 LangChain 生态下的 Agent 开发梳理成了清晰的三层架构，虚拟文件系统、子 Agent、Skills 这些实战点讲得透，正在做协作型 Agent 的开发者终于有个成体系的免费入门路径了。

15:01

AYi@AYi_AInotes

精选75

微软双向转售GPT与DeepSeek成全球最大AI中间商

彭博社报道，微软已成为全球最大AI模型中转站，既将ChatGPT卖给中国企业，也反向将DeepSeek模型卖给西方客户。报道称微软正在测试DeepSeek-R1和DeepSeek-V4，计划向西方客户提供这些中国模型。这一模式构建起跨中美AI模型的双向贸易网络。

DeepSeek Microsoft 开源生态行业动态

推荐理由：微软做起了跨中美模型的双向经销商，这事比表面看起来意义大——它可能绕过限制，把最先进的模型分发到原本接触不到的市场，全球 AI 供应链要改写了。

06:54

MarkTechPost（RSS）

精选77

NVIDIA Research 发布 SpatialClaw：免训练空间推理框架

NVIDIA Research 发布 SpatialClaw，一个免训练的空间推理框架。它通过将代码作为动作接口，让智能体调用感知工具（Depth Anything 3、SAM 3）并自由组合输出，解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%，比近期智能体 SpaceTools 高 11.2 个百分点，比无工具基线高 6.5 点，比结构化工具调用高 3.2 点。框架无需重新训练，同一提示词和工具集可跨所有基准和骨干网络运行，支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

智能体具身智能开源/仓库推理

推荐理由：NVIDIA 把空间推理的动作接口从工具调用换成代码，这个思路很巧，20 个基准平均拉升到 59.9%，无训练即插即用，做机器人和视频理解的人该直接跑一下 repo。

04:26

OpenRouter：Announcements（RSS）

精选68

OpenRouter vs LiteLLM：如何选择 LLM 网关

OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关，无需管理基础设施，收取 5.5% 平台费（前 100 万次请求免费），支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理（Docker/PostgreSQL/Redis），数据不离开内网，免费开源，但需承担基础设施成本（生产部署约数百美元/月）。当模型月支出超过约 $3,600（基础设施 $200/月）或 $9,100（基础设施 $500/月）时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由；OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。

开源生态评测/基准部署/工程

推荐理由：OpenRouter 这份官方对比很坦诚，把成本、延迟、合规的权衡掰开了讲，自建 LiteLLM 和托管谁更划算的算术也给清楚了，做 LLM 网关选型的直接看这篇就够了。

6月19日

21:59

Nathan Lambert：Interconnects（RSS）

精选56

禁止开源AI将是一个错误

近期行政命令、国会提案及对Anthropic最先进模型的境外访问限制，可能开启新一轮AI监管。开源软件已支撑全球90%以上软件并创造8万亿美元经济价值，在教育、创新和竞争三方面持续赋能。Anthropic与OpenAI的封闭模型加剧市场集中，开源（尤其开放权重）是初创公司、教育机构和企业获得替代方案的唯一平衡力量。开源透明性使其更安全，更多工程师可剔除不需要的模型行为或修复漏洞。以中国竞争为由监管开源将适得其反，美国初创公司正依赖包括中国在内的开源模型提升效率。

大佬观点开源生态政策/监管

推荐理由：在华盛顿弥漫监管 AI 空气的当下，这篇文章是对‘禁止开源 AI’冲动的清晰反驳。它系统梳理了开源在教育、创新和竞争中不可替代的价值，尤其适合对政策走向摇摆不定的人阅读。

20:51

elvis@omarsar0

精选75

YT 视频 -> Artifacts 看看我如何使用新的 /youtube-notetaker 技能从 YT 视频生成 Artifacts。捕获幻灯片、笔记、转录内容…… 快去试试 ↓

开源/仓库教程/实践视频

推荐理由：Elvis 新做的 /youtube-notetaker skill 能直接从 YouTube 视频提取幻灯和笔记，学生和 UP 主会很受用，对业界整体没什么推动，但实用度很高。

18:01

公众号：卡尔的AI沃茨

精选77

Humanize PPT v0.9：为演讲而生的开源PPT Skill

Humanize PPT v0.9 是一款专为演讲场景设计的PPT Skill，核心通过AST（Audience, State, Transfer）逻辑重新编排大纲，将页面渲染外包给下游Skill。渲染前先输出4张真实预览页，并将图片、视频素材的占位与生成prompt写入大纲。新增质检环节自动修复常见渲染问题，并支持演讲模式：按S键在独立窗口显示演讲稿备注，按ESC键打开全局索引快速跳页。项目已开源至github.com/LearnPrompt/humanize-ppt，由卡尔 & yc星辰开发。

GitHub MCP/工具开源/仓库

推荐理由：卡尔把 AI 做 PPT 的坑全趟了一遍，这套工具体系让页面从‘好看’变成‘能讲’，做演讲的人可以抄作业了。