5月9日

00:34

HuggingFace Daily Papers（社区热门论文）

GeoStack是一个模块化框架，旨在解决视觉语言模型中多领域知识组合导致的灾难性遗忘问题。该框架允许将独立训练的领域专家模型组合成一个统一模型，通过对适配器流形施加几何与结构约束，确保基础模型的原有知识得以保留。研究从数学上证明了其权重折叠特性，使得无论集成多少专家模型，推理复杂度均保持恒定。在多领域适应和类增量学习任务上的实验表明，GeoStack能有效实现长期知识组合，并显著缓解灾难性遗忘。相关代码已开源。

多模态开源/仓库论文/研究

5月8日

17:26

HuggingFace Daily Papers（社区热门论文）

Sparkle：通过解耦引导实现生动的指令引导视频背景替换

近年来，视频编辑在自然语言指令引导下发展迅速，但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互，面临高质量数据匮乏的挑战，导致现有模型生成静态、不自然背景。为此，研究团队设计可扩展数据生成流程，以解耦方式分别生成前景与背景引导，并实施严格质量过滤，构建了Sparkle数据集（包含约14万视频对，覆盖五种常见背景更换主题）及迄今最大的专项评估基准Sparkle-Bench。实验表明，基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。

arXiv 多模态开源/仓库视频

11:06

SemiAnalysis@SemiAnalysis_

@vllm_project 维护者在第0天优化DeepSeekv4性能并在周末合并了他们的初始模型支持PR。速度就是护城河

DeepSeek 开源/仓库推理部署/工程

08:06

Rohan Paul@rohanpaul_ai

精选78

atomic.chat为LLaMA.cpp引入多令牌预测技术，显著加速本地模型推理

atomic.chat通过为LLaMA.cpp引入多令牌预测技术，大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案，由主模型进行验证。在MacBook Pro M5 Max上测试时，使Gemma 4 26B模型的令牌生成速度加快约40%，整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位，为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

atomic.chat: Multi-Token Prediction (MTP) for LLaMA.cpp! Running Gemma4 local model 1.5x faster. We patched LLaMA.cpp. Quantized Gemm...

开源/仓库推理教程/实践端侧

推荐理由：在笔记本上把 Gemma 26B 的生成速度拉高 40% 是个真实的体验提升，atomic.chat 把 MTP 带入 LLaMA.cpp 生态，本地 AI 玩家可以直接拿去用。

08:00

HuggingFace Daily Papers（社区热门论文）

SEIF：用于指令跟随的自进化强化学习

指令跟随是大语言模型的基本能力，但持续提升面临挑战。现有方法依赖昂贵的外部监督或静态指令自训练。为此，研究团队提出SEIF框架，通过自进化循环提升指令跟随能力。SEIF包含四个角色：生成难度递增指令的Instructor、过滤低质量指令的Filter、学习跟随指令的Follower，以及提供强化学习奖励信号的Judger。Instructor与Follower交替训练、协同进化，使指令难度与模型能力相互促进。实验显示，SEIF在不同规模和架构的模型上均能稳定提升性能。分析发现，有效训练策略是在早期充分训练以打下基础，后期适度训练以避免过拟合。相关代码与数据已开源。

开源/仓库推理数据/训练论文/研究

07:21

Berryxia.AI@berryxia

SuperSplat将3D高斯泼溅变为大众创作平台

SuperSplat项目将3D Gaussian Splatting技术转化为大众可用的创作与分发平台。其核心功能是允许创作者一键开启文件下载，观众可直接获取Gaussian splat文件。平台支持附加多种CC 4.0许可证并自动生成署名，个人页面可集成社交链接，成为3D作品集。下载的文件能直接导入PlayCanvas引擎快速创建交互体验。该项目免费开源，旨在降低技术门槛，推动3DGS从实验室走向普通创作者的实际应用。

产品更新多模态开源/仓库

04:30

Simon Willison 博客

大文字工具

Simon Willison 为配合其“氛围编码”macOS演示工具，快速开发了一个名为“Big Words”的网页工具。该工具通过URL参数（如文本、渐变、大小）动态生成可自定义的幻灯片页面，解决了演示工具仅能嵌入URL内容的需求。用户可双击页面访问设置表单，自由调整文本内容、颜色、背景（支持纯色或渐变）、字体、字重、大小等多种视觉选项。所有设置均可生成一个特定的URL以便保存和分享，从而快速创建用于演示的文本幻灯片。

开源/仓库部署/工程

03:06

Hacker News 热门（buzzing.cc 中文翻译）

精选74

DeepSeek 4：适用于 Metal 的 Flash 本地推理引擎

DeepSeek 4 Flash 本地推理引擎正式发布，这是一个专为苹果 Metal 框架优化的开源项目。它允许开发者在配备 Apple Silicon 芯片的 Mac 上高效运行 DeepSeek 4 模型，实现本地离线推理。引擎通过 Metal Performance Shaders 显著提升了计算性能，降低了延迟与内存占用。该项目已在 GitHub 开源，并在 Hacker News 上获得了关注。

DeepSeek 开源/仓库推理端侧

推荐理由：antirez 写的引擎让 DeepSeek 4 在 Mac 本地跑出近乎 Flash 的速度，而且代码极其精简，做本地推理的开发者应该立刻克隆下来跑一下。

00:06

凡人小北@frxiaobei

精选81

姚金刚: 和 @vista8 讨论了下,决定将我们的新书《AI营销:从SEO到GEO》里配套的25个AI营销与GEO相关的提示词,也开源到GitHub 另外补充了部分短视频和文案相关的提示词,欢迎下载使用或重新拉取 1、提示词合集地址: https:...

GitHub 开源/仓库搜索

推荐理由：不是又一个提示词合集，而是把《AI营销》书里的实操技巧拆成了现成指令，短视频和GEO部分尤其解渴，做内容营销的建议直接fork。

5月7日

23:21

Berryxia.AI@berryxia

精选76

SenseNova-U1开源8步蒸馏LoRA，扩散模型推理提速11倍

SenseNova-U1开源了一项8步蒸馏LoRA技术，将扩散模型的生成步骤从100步压缩至8步，使GPU推理时间从23秒大幅缩短至2秒，速度提升达11倍。该技术同时完整支持ComfyUI，并提供了文本生图、图像编辑和交错生成等开箱即用的工作流程。此举标志着扩散模型从研究阶段迈向实用化，引发了业界关于未来应聚焦参数规模竞赛还是追求速度与实用性的讨论。

Ziwei Liu: 🚀SenseNova-U1 Update🚀 ⚡Open-source an 8-step distilled LoRA: 100 NFE → 8 NFE, cutting GPU inference from 23s to 2s 🧩C...

图像生成开源/仓库部署/工程

推荐理由：这个LoRA把扩散模型推理从23秒压到2秒，还带全套ComfyUI工作流，玩图像生成的人今天就应该装上去试试，速度飞升11倍是真的能立刻用上。

18:11

小互@xiaohu

精选82

开发者@yaojingang将其公开分享的提示词整理并开源至GitHub仓库。该合集包含约100个提示词，覆盖AI方法、工作、学习、生活、教育、内容、编程、营销和思考等九大类场景。其中特别推荐的是对用户帮助显著的元提示词，包括简易版和进阶版。开发者表示后续将持续在该仓库更新经过验证的有价值提示词。

姚金刚: 开源一套我的提示词合集前几天,收到一位微信好友反馈,说使用了我不少公开的提示词,效果很不错这一年来,公开分享了不少提示词,一直沉淀在飞书文档为了方便大家更好的下载和迭代,今天抽空,把公开的提示词整理了下,通过GitHub开源给大家目...

开源/仓库教程/实践

推荐理由：一个把提示词真正用起来的实战者，把压箱底的100个prompt开源了，九个场景全覆盖。尤其元提示词把写提示词的思路直接拆给你，比收藏模板更有用。

17:20

Berryxia.AI@berryxia

开源20B参数MoE模型本地流畅运行

刚刚刷到Hugging Face上这个gpt-oss-20b-tq3，真的有点爽啊！ OpenAI自己开源的20B参数MoE模型，被社区用TurboQuant 3-bit量化 + MLX优化后，竟然能直接在普通MacBook上本地丝滑跑起来。完全不用联网、不用交月费，还支持131K超长上下文。日常聊天、写作、写代码这些日常需求，现在都能在自己笔记本上搞定。非常适合公司的一些部门使用啊！以前本地跑大模型还得配高端显卡，现在一台M系列Mac就够了。模型直达👉 https://huggingface.co/manjunathshiva/gpt-oss-20b-tq3

Hugging Models: A new GPT model just dropped for Apple Silicon. The gpt-oss-20b-tq3 is a 20B parameter MoE text generator, optimized wit...

Hugging Face OpenAI 开源/仓库部署/工程

10:12

向阳乔木@vista8

精选76

Open Slide：让 AI 来写你的 PPT 代码

开源项目 Open Slide 基于 React 框架构建 PPT，其工作流专为 AI Agent 设计。它利用丰富的 React 组件库实现更强扩展性，便于集成各类图表。核心功能包括可视化编辑器支持手动修改，以及 AI 能直接读取用户评论并协同修改内容。项目还集成了包含 1500+ 品牌 Logo 的 SVGL 库，方便技术演示，旨在提升 PPT 制作的效率与自动化程度。

智能体 GitHub 开源/仓库

推荐理由：用 React 写 PPT 的思路很妙，加上 1500+ 品牌 Logo 库，AI 生成演示文稿终于不是一坨屎了。做技术的可以 clone 下来跑跑看。