6月24日

11:39

OpenBMB@OpenBMB

面壁智能（OpenBMB）的扩散式 TTS 模型 VoxCPM-0.5B 已通过 Apple Core AI 完全部署至 iPhone 端侧，无需联网。该模型整合了 MiniCPM4 语言模型、LocDiT flow-matching 和 AudioVAE，每一层均运行于 Neural Engine 和 GPU 上。模型权重和部署代码已开源至 HuggingFace 与 GitHub。

MLBoy_DaisukeMajima: VoxCPM now runs FULLY on-device on iPhone - via Apple's Core AI. @OpenBMB's diffusion TTS (MiniCPM4 LM + LocDiT flow-mat...

开源/仓库开源生态端侧语音

10:20

Alibaba Cloud@alibaba_cloud

阿里云FFA2026议程公布，Apache Fluss 1.0发布

阿里云宣布距FFA2026大会仅剩2天，全部11个分论坛议程已上线，覆盖7大Data+AI方向：多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相，具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。

智能体多模态开源/仓库数据/训练

08:13

DogeDesigner@cb_doge

突发：埃隆·马斯克刚刚确认了SpaceX AI卫星星座的官方名称："STARMIND"。

开源/仓库行业动态

06:12

HuggingFace Daily Papers（社区热门论文）

TROPT：统一与推进离散文本优化的开源框架

TROPT 是首个开源框架，通过统一接口标准化离散优化器的执行与开发。它支持灵活替换模型、目标和优化器，定制端到端优化配方。框架内置30余个优化配方（覆盖LLM越狱、模型内部探测等），由15余个优化器（白盒到黑盒）和15余个损失函数组合而成。通过大规模对比实验验证了LLM越狱优化策略改进，并将优化器从越狱场景移植至语料投毒嵌入模型等领域，显著降低了离散文本优化的使用门槛。

arXiv 安全/对齐开源/仓库

04:16

宝玉@dotey

transitions.dev 动画过渡可安装为 Agent 技能

http://transitions.dev 这个网站的动画过渡效果很不错👍 还可以安装技能，这样 Agent 可以自己为你的网页添加炫酷的动画 npx skills add jakubantalik/transitions.dev

Jakub Antalik: Added new transitions to http://transitions.dev There are now 21 transitions you can copy as CSS or React code or use as...

智能体开源/仓库编码

02:16

Rohan Paul@rohanpaul_ai

Latitude 开源 AI 智能体监控平台，将对话转化为调试数据

Latitude 发布 MIT 许可的开源监控平台，将 AI 智能体对话转为生产调试数据。多数智能体已比员工接触更多用户，但对话仅存为原始日志，导致团队错过用户不满、未满足请求、重复失败和流失信号。平台提供 see, catch, fix 循环：查看会话、用户、工具、成本、延迟和 behaviors；通过 Signals 捕获重复失败；通过 MCP 从编辑器直接修复。平台面向生产智能体，关注工具使用、用户意图、重试、成本、延迟等，而非仅模型调用。推文称智能体对话是公司最被低估的数据源，Latitude 正改变此局面。

cesar.wtf: Most underrated data source in a company: your AI agent's conversations. Your agent talks to more customers than any emp...

智能体 MCP/工具开源/仓库

02:12

AYi@AYi_AInotes

开源AI投资系统：18位智能体模仿巴菲特芒格等大师

一个4.6万星标、8千次分叉的MIT协议开源项目，提供免费AI投研系统。输入股票代码后，18位分别模仿巴菲特、芒格、木头姐、格雷厄姆等流派的智能体会自动抓取实时财报、新闻，依据各自投资哲学独立分析，风控模块排查仓位风险，最终由组合经理输出买卖持有结论，推理链完全透明。内置回测引擎、可视化网页界面，支持云模型或通过Ollama完全本地运行，核心基础数据永久免费，无需API密钥。

AYi: http://x.com/i/article/2069024565901119488

智能体开源/仓库开源生态

00:59

Chubby♨️@kimmonismus

Latitude 是一款开源的 AI agent 可观测性工具，MIT 许可、可自托管。它不局限于提供 traces，而是将重复失败自动归纳为单个 issue，显示频率和根本原因；还支持用自然语言搜索生产对话。引用推文指出，AI agent 对话是公司最被低估的数据源，Latitude 能改变这一状况。推荐优先尝试其 Claude Code token telemetry 功能。

cesar.wtf: Most underrated data source in a company: your AI agent's conversations. Your agent talks to more customers than any emp...

智能体开源/仓库部署/工程

6月23日

21:56

Hacker News 热门（buzzing.cc 中文翻译）

精选70

无限制OCR：单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的 OCR 任务。

多模态开源/仓库

关联讨论 1 条

推荐理由：百度把能处理超长文档的 OCR 系统开源了，宣称一次推理搞定整份文件，做发票、合同、档案数字化的可以马上跑起来试试。

16:12

Hugging Face：Blog（RSS）

精选67

huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM‑5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建，任何维护者都可直接复制使用。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 把周更流程完全开源，用 GLM-5.2 生成发布说明初稿，再加确定性校验和人工修订，成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。

15:41

MarkTechPost（RSS）

Prime Intellect 发布 prime-rl 0.6.0，用于万亿参数 MoE 模型的智能体强化学习训练

prime-rl 0.6.0 是一个开源异步强化学习框架，针对万亿参数 MoE 模型，聚焦长周期智能体任务（如软件工程）。研究团队在 GLM-5 上训练 SWE 任务，序列长度达 131k，步时间低于5分钟，batch size 256，仅用28个H200节点。推理优化包括 FP8（DeepEP、DeepGEMM 内核）、宽专家并行（≥32 GPU）、前填充与解码分离、KV 缓存分层卸载（vLLM 原生或 Mooncake Store）以及路由重放（R3，降低 KL 不匹配约一个量级）。训练基于 torchtitan，采用3D并行（FSDP2、上下文并行、专家并行）和块缩放 FP8（由 DeepSeek V3 提出），以匹配推理精度并稳定训练。

智能体开源/仓库部署/工程

13:13

HuggingFace Daily Papers（社区热门论文）

CLI-Universe：面向终端智能体的可验证任务合成引擎

CLI-Universe是一个原则性合成引擎，通过多维能力分类树采样并基于真实技术材料进行证据引导深度研究，生成候选终端智能体任务。候选任务经Docker实例化后，通过rubric-gated测试构造、hint-conditional过滤和严格fail-to-pass检查等多阶段可执行验证流水线，约三分之二的候选被丢弃，仅保留真实、可验证且有难度的任务。基于此构建的6,000条轨迹数据集CLI-Universe-6K，微调Qwen3-32B后在Terminal-Bench 2.0上达到33.4%准确率，创下开源数据训练的32B及以下参数模型新SOTA，并超越多个参数规模大一个数量级的模型。

智能体开源/仓库数据/训练论文/研究

11:14

Berryxia.AI@berryxia

百度开源 Unlimited OCR：单次解析多页 PDF，疑似挖角 DeepSeek 技术骨干

百度在 HuggingFace 开源 Unlimited OCR 模型，核心卖点为 One-Shot Long-Horizon Parsing（单次长时解析），一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA（参考滑动窗口注意力）模拟人类抄写时的注意力模式——每个 token 看到完整图像，输出端只维护前 128 个状态，32K 上下文，KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系，核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

DeepSeek 多模态开源/仓库模型发布

09:13

Berryxia.AI@berryxia

成峰开源剪辑Skills接入Codex，Agent自动完成口播视频剪辑与合成

成峰开源了一款2000+ Star的剪辑Skills，与Codex结合后，Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程：先安装Skills，用/剪口播命令上传素材和文稿，生成审核页并输出带字幕视频；再用/口播成片命令生成HTML分镜核对页，用户反馈后Codex通过Computer Use自动调整，最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。

Agent成峰: http://x.com/i/article/2068926393719685120

智能体 MCP/工具开源/仓库教程/实践

08:31

向阳乔木@vista8

百度开源 Unlimited OCR：3B参数500M激活性能惊艳

百度开源 Unlimited OCR 模型，仅3B参数、500M激活参数，在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术，并附带了技术解读和开源地址。

多模态开源/仓库端侧

08:13

Berryxia.AI@berryxia

百度开源 Unlimited-OCR，R-SWA 实现单次多页 PDF 解析

百度在 HuggingFace 开源 Unlimited-OCR 模型，核心创新 R-SWA 使解码时 KV Cache 恒定，不随页数增长。模型不逐页处理，一次前向推理即可转录多页 PDF，32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分，比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位，暗示架构继承；同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

Berryxia.AI: 这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...

多模态开源/仓库模型发布

01:12

Berryxia.AI@berryxia

百度开源Unlimited-OCR：可一次性处理数百页文档

百度PaddlePaddle在HuggingFace发布Unlimited-OCR，核心创新R-SWA（Reference Sliding Window Attention）使解码时KV Cache保持恒定，避免随页数爆炸。该模型可一次性处理数百页文档，速度和稳定性优于逐页处理。在OmniDocBench上得分93%，比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底，直接理解整篇文档结构与布局。

Adina Yakup: Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...

DeepSeek Hugging Face 多模态开源/仓库

01:04

TechCrunch：AI（RSS）

SpaceX与开源AI实验室Reflection AI签署算力协议

开源AI初创公司Reflection AI宣布与SpaceX签署价值高达63亿美元的算力协议。自2026年7月1日起至2029年，Reflection每月支付1.5亿美元，获得SpaceX在田纳西州孟菲斯附近Colossus 2数据中心的Nvidia GB300芯片使用权。合同首三个月后任一方可提前90天解约。该交易规模小于SpaceX与Anthropic（每月12.5亿美元）及Google（每月9.2亿美元）的合同。Reflection由两位前Google DeepMind研究员于2024年创立，主打开放权重模型策略，称该交易是迄今最大的公开开放AI基础设施承诺之一。

开源/仓库行业动态

6月22日

15:38

Hacker News 热门（buzzing.cc 中文翻译）

Recall：Claude Code 的本地项目记忆工具

Recall 是为 Claude Code 设计的完全本地项目记忆工具。它自动记录每次会话日志（history.md），并通过 TF‑IDF + TextRank 提取式摘要算法在本地生成压缩摘要（context.md，约 1–2K token），无需调用任何外部模型或 API 密钥。摘要完全在本地完成，不消耗 Claude Code 的模型 token，可离线使用，解决会话冷启动问题。用户可通过 /recall:save 和 /recall:show 命令管理记忆，与 Claude 内置的 CLAUDE.md 和 --continue 功能互补。

开源/仓库编码

15:37

MarkTechPost（RSS）

MoonMath AI 开源 AMD MI300X 注意力核，全面超越 AITER v3

MoonMath AI 团队开源了一款 bf16 前向注意力核，专为 AMD MI300X（gfx942）设计，使用 HIP 编写，MIT 许可。该核在所有测试形状和三种舍入模式下均超越 AMD 官方 AITER v3：几何平均加速比 1.18×（RTNE）、1.15×（RTNA）、1.08×（RTZ），最高单形状 1.26×。性能提升来自单指令 asm 包装和内存布局优化——K 置于 LDS，V 常驻 L1，Q 和累加器保持在寄存器。该核已通过 SGLang PR 将 Wan2.1 视频扩散模型推理速度提升 1.23 倍，质量无损。当前仅支持 bf16、头维度固定 128，无因果掩码、GQA 或变长批处理。

开源/仓库部署/工程

08:06

AYi@AYi_AInotes

Netflix 工程师开源工具 Headroom，减少 95% token 消耗

Netflix 工程师开源 Headroom，在 Codex、Cursor 等 AI 编码工具外包围本地 Agent，自动压缩日志、JSON 和代码，保留逻辑准确性，减少 95% token 消耗。数据本地化，无需改代码，已获 35k GitHub 星标。核心将降本从改提示词、换模型转向输入前置处理。

开源/仓库编码部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

AOHP：面向个性化、高效与安全交互的开源操作系统级智能体框架

AOHP（Android Open Harness Project）基于Android开源项目（AOSP）构建，将AI智能体视为操作系统的一等角色，提供自适应UI和智能体友好运行时环境，同时保留安卓软硬件生态。系统引入三种智能体导向机制：个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中，AOHP的任务完成率提升21.12%，token成本降低51.55%，并满足安全策略合规要求。

智能体开源/仓库论文/研究部署/工程

02:36

Rohan Paul@rohanpaul_ai

一个庞大的法律数据集刚刚在 Huggingface 上发布。研究人员首次使用 AI 收集、运行光学字符识别、处理并构建了全美每一条法律的数据库。那就是 220 万条法律。 LocalLaws/LOCUS-v1 - Hugging Face 上的数据集。

Hugging Face 开源/仓库数据/训练

00:09

Berryxia.AI@berryxia

博主转发开源乔木icon Skill，支持两种方案：1）调用Imagen参考数百图标生成；2）搜索2万SVG图标叠加纯色/渐变背景。适用于App或网页快速设计图标，精细打磨仍需设计师。安装命令：`npx skills add joeseesun/qiaomu-icon-generator`。

向阳乔木: 不求设计师!Codex一句话生成App图标,加快项目开发速度。开源乔木icon设计Skill,支持两种方案: 1. Codex内调用Imagen生图能力,参考小耳@xiaoerzhan收集的几百个图标参考生成。 2. 支持搜索 2w SV...

GitHub 图像生成开源/仓库编码

00:09

Berryxia.AI@berryxia

10个免费开源GitHub仓库推荐

推荐10个免费开源GitHub仓库：Recordly（免费屏幕录制，AGPL-3.0）、Stirling-PDF（PDF工具集，50+功能，MIT）、PhotoGIMP（GIMP转Photoshop界面）、Open Notebook（自托管NotebookLM，支持PDF/URL/YouTube，18+数据源，MIT）、Odysseus（PewDiePie开发的AI工作空间，本地优先，MIT）、FreeDomain（免费域名指向Cloudflare，AGPL-3.0）、Hyperframes（HeyGen的HTML/CSS转MP4引擎，Apache-2.0）、Web-to-App（网站转Android应用，支持Node/PHP/Python运行时）、ReClip（基于yt-dlp的多平台视频/音频下载）、Excalidraw（无限画布手绘图表，端到端加密，12万+好评）。

m0h: 10 GITHUB REPOS THAT SHOULD BE ILLEGAL TO HAVE. all free. all open-source. bookmark this for later. 1️⃣ recordly - the f...

开源/仓库教程/实践部署/工程

6月21日