6月20日

15:59

IT之家（RSS）

开源工具 Headroom 爆火：Netflix 工程师打造，声称可节省 60%-95% Token 消耗量

Netflix 高级工程师 Tejas Chopra 开发的开源工具 Headroom（v0.26.0）在 AI 应用与 LLM 间建立本地透明压缩层，通过压缩 JSON、代码、RAG 片段和对话历史等冗余数据减少 Token 消耗，支持可逆压缩与 CCR 缓存机制。实测代码搜索场景 Token 从 17765 降至 1408（节省 92%），SRE 事故调试场景从 65694 降至 5118（同样节省 92%）。累计帮助用户节省约 70 万美元成本、释放超 2000 亿 Token。提供 Python/TypeScript 库、智能体代理模式、直接包装现有 AI 编程智能体以及 MCP 服务器模式，并可精简 AI 回复中客套话进一步降低成本。

GitHub MCP/工具开源/仓库部署/工程

06:54

MarkTechPost（RSS）

精选77

NVIDIA Research 发布 SpatialClaw：免训练空间推理框架

NVIDIA Research 发布 SpatialClaw，一个免训练的空间推理框架。它通过将代码作为动作接口，让智能体调用感知工具（Depth Anything 3、SAM 3）并自由组合输出，解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%，比近期智能体 SpaceTools 高 11.2 个百分点，比无工具基线高 6.5 点，比结构化工具调用高 3.2 点。框架无需重新训练，同一提示词和工具集可跨所有基准和骨干网络运行，支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

智能体具身智能开源/仓库推理

推荐理由：NVIDIA 把空间推理的动作接口从工具调用换成代码，这个思路很巧，20 个基准平均拉升到 59.9%，无训练即插即用，做机器人和视频理解的人该直接跑一下 repo。

6月19日

18:01

公众号：卡尔的AI沃茨

精选77

Humanize PPT v0.9：为演讲而生的开源PPT Skill

Humanize PPT v0.9 是一款专为演讲场景设计的PPT Skill，核心通过AST（Audience, State, Transfer）逻辑重新编排大纲，将页面渲染外包给下游Skill。渲染前先输出4张真实预览页，并将图片、视频素材的占位与生成prompt写入大纲。新增质检环节自动修复常见渲染问题，并支持演讲模式：按S键在独立窗口显示演讲稿备注，按ESC键打开全局索引快速跳页。项目已开源至github.com/LearnPrompt/humanize-ppt，由卡尔 & yc星辰开发。

GitHub MCP/工具开源/仓库

推荐理由：卡尔把 AI 做 PPT 的坑全趟了一遍，这套工具体系让页面从‘好看’变成‘能讲’，做演讲的人可以抄作业了。

6月18日

21:47

Hugging Face：Blog（RSS）

精选74

AI 智能体够格吗？在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架，以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动，通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率，而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍（最高 6 倍），该框架旨在验证类似优化对 transformers 的效果。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 这波实验打破了我的直觉——为大型模型优化的 CLI+Skill 方案反而让小模型正确率暴跌，做 agent 工具链的人应该马上看这个标杆。

18:14

IT之家（RSS）

小米发布并开源全屋智能 AI 方案 Xiaomi Miloco 2.0

小米开源全屋智能 AI 方案 Xiaomi Miloco 2.0，基于自研 MiMo 大模型，以 Agent 形式接入 OpenClaw。具备六大核心特性：通用常识（自动识别危险并预警）、身份识别（人脸+体态）、家庭记忆（沉淀习惯供主动决策）、家庭任务（条件自动化、定时提醒等）、主动智能、家庭面板。前置条件：内存≥4GB、存储≥256GB、7×24运行（推荐 Mac mini），macOS/Linux，需小米账号及米家设备，以及多模态大模型 API Key（感知用 MiMo-v2.5，Agent 用 MiMo-v2.5-pro）。

智能体产品更新开源/仓库端侧

11:14

Hacker News 热门（buzzing.cc 中文翻译）

精选70

cuTile Rust：安全无数据竞争的 GPU 内核系统

cuTile Rust 是一个基于 tile 的 GPU 编程系统，允许用 Rust 编写内存安全、无数据竞争的内核。它通过 #[cutile::module] 宏将内核 AST 嵌入主机二进制，在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。可变张量在启动前分割，不可变张量共享，启动器在 GPU 工作期间保持所有权。在 NVIDIA B200 上，逐元素操作达 7 TB/s（约 91% 峰值带宽），GEMM 达 2 PFlop/s（约 92% 密集 f16 峰值）。基于 cuTile Rust 构建的 Grout 推理引擎在 RTX 5090 上解码 Qwen3-4B 达 171 tokens/s，在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目处于早期研究阶段。

arXiv Hugging Face 开源/仓库开源生态

推荐理由：用Rust的所有权模型保证GPU内核无数据竞争，性能还能达到峰值的92%，这个方向可能是安全GPU编程的未来，系统编程和推理引擎开发者值得一试。

04:12

GitHub Blog

精选61

GitHub 发布 CC0-1.0 开源多语言仓库级数据集，覆盖 README、Issue 和 PR

GitHub 推出一个新的仓库级数据集，采用 CC0-1.0 许可证，旨在帮助研究人员和开发者发现跨 README、Issue 和 Pull Request 的多语言开发者内容，加速多语言 AI 开发。

GitHub 开源/仓库数据/训练

推荐理由：GitHub 发布了一个多语言开发者内容数据集，CC0 许可，对于训练跨语言代码模型和辅助翻译有直接价值，做多语言 Copilot 的团队应该会关注。

03:47

Ars Technica：AI（RSS）

AI编码智能体教会机器人安装GPU和剪扎带--NVIDIA GEAR等团队开发ENPIRE框架

NVIDIA GEAR实验室联合卡内基梅隆大学和UC Berkeley开发了ENPIRE框架，让AI编码智能体自主训练机器人。测试了OpenAI Codex（GPT-5.5）、Anthropic Claude Code（Opus 4.7）和月之暗面Kimi Code（Kimi K2.6）。在Push-T、插针盒、剪扎带和GPU安装等任务中，智能体达到99%成功率；插针任务中AI智能体比人类参与方法更快接近100%。8个智能体协作2小时完成Push-T（4个需3小时，单个近5小时）。局限包括机器人闲置、智能体耗时总结彼此想法和token消耗高。团队将开源全部内容。

智能体具身智能开源/仓库

00:32

Hacker News 热门（buzzing.cc 中文翻译）

GLM-5.2 （max）性能、价格与开源发布

智谱AI于2026年6月发布开源推理模型GLM-5.2 (max)，总参数753B，活跃参数40B，支持文本输入输出，上下文窗口1M tokens。在Artificial Analysis Intelligence Index上以51分位居同类92款模型第一。输出速度111 tokens/s（第15/92）。价格输入$1.40/百万tokens、输出$4.40/百万tokens，属较贵一档；缓存命中$0.26/百万tokens（便宜81%）。模型权重以MIT协议开源发布于HuggingFace。

开源/仓库推理评测/基准

6月17日

15:36

蚂蚁 inclusionAI：GitHub 新仓库

蚂蚁集团 GitHub 新建仓库 inclusionAI/asystem，内容暂未公开

蚂蚁集团在 GitHub 上新建仓库 inclusionAI/asystem。目前仓库仅包含 docs、.nojekyll 和 CNAME 等基础文件，尚无代码或详细说明，具体功能与项目目标尚未披露。

开源/仓库开源生态

00:53

MarkTechPost（RSS）

同事件精选76

Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite：Qwen-RobotManip（基于Qwen3.5-4B的VLA模型，通过统一对齐框架和3800小时开源数据（含24708小时合成）实现跨本体操作，在LIBERO-Plus OOD基准上达91.4%，跨本体迁移性能为π0.5的3.2倍）、Qwen-RobotWorld（60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型，以自然语言为统一动作接口预测未来视频）和Qwen-RobotNav（基于Qwen3-VL的导航模型，2B/4B/8B，输出航点轨迹）。RobotManip与RobotNav已开源GitHub。

具身智能多模态开源/仓库模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen-RobotSuite 一次性放出三个具身模型，用统一对齐策略解决了机器人数据碎片化问题，多个 SOTA 结果加上两个开源仓库，做具身智能的值得认真看一下。

00:01

IT之家（RSS）

开发者绕过苹果软件限制，成功解锁 M4 芯片 15.8TFLOPS 的 AI 算力

苹果 M4 神经网络引擎原仅开放推理，X 用户 @0x0SojalSec 通过逆向工程，从零开发自定义 MIL 直接与芯片通信，绕开了软件限制。训练全程将数据放在 RAM 中运行，不写入 NAND 闪存以维持高速。解锁后 M4 可达 15.8TFLOPS AI 性能，足以承担模型训练。目前不确定该 MIL 能否用于更新的 Apple Silicon，exec() 命令在新平台上的兼容性也未知。

开源/仓库端侧部署/工程

6月16日

10:40

公众号：蚂蚁百灵（Ling）

同事件精选79

蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告，系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构，将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s，Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60，ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节，开源模型在OpenClaw登顶，把万亿模型从聊天拉到真实工作流，做Agent应用的值得细读。

03:59

GitHub Blog

GitHub 发布新开源数据集，加速多语言 AI 研究与开发

GitHub 在 CC0-1.0 许可下发布了一个仓库级数据集，涵盖多语言开发者内容，包括 README、issue 和 pull request。该数据集旨在帮助研究者和开发者发现并利用跨语言的技术文档与社区讨论，以推动多语言 AI 的构建与优化。

GitHub 开源/仓库数据/训练

6月15日

17:41

MarkTechPost（RSS）

精选73

Flash-KMeans：IO感知的精确K-Means，在GPU上比FAISS快200倍以上

UC Berkeley与UT Austin团队开源Flash-KMeans（Apache 2.0，pip install flash-kmeans），精确实现标准Lloyd's k-Means，通过重构GPU数据流而非改变数学或近似来提速。在NVIDIA H200上，端到端速度比最佳基线快17.9×，比cuML快33×，比FAISS快200×以上。其FlashAssign核避免物化完整N×K距离矩阵，将IO复杂度从O(NK)降至O(Nd+Kd)，单核加速最高21.2×；Sort-Inverse Update核通过排序聚类ID减少原子争用，单核加速最高6.3×。支持out-of-core处理，在1B数据点、K=32768时单次迭代仅41.4s。适用于向量搜索索引、稀疏注意力路由、KV缓存压缩等在线场景。

开源/仓库数据/训练部署/工程

推荐理由：Flash-KMeans 把 k-means 从离线预处理拉进了在线循环，200 倍加速不是纸面数字，而是让向量索引重建、稀疏注意力路由这些场景突然可行了。做大规模聚类的可以立刻换掉 FAISS。

08:00

HuggingFace Daily Papers（社区热门论文）

LOGOS：面向自然科学的通用科学生成语言模型

LOGOS 是一个科学生成语言模型，将自然科学的异构任务统一到同一自回归框架和共享科学语法中。它把科学对象及其空间交互编码成 token 序列，无需依赖坐标或几何神经网络，即可用纯序列方式捕获复杂结构相互作用。该统一表示使得多领域持续预训练与下游任务高度对齐。在多个任务上，LOGOS 匹配或超越领域专用基线，且 1B、3B、8B 三种参数规模与性能呈正相关。模型权重已开源以促进后续研究。

arXiv 开源/仓库数据/训练论文/研究

02:29

Hacker News 热门（buzzing.cc 中文翻译）

里约热内卢的"本土化"LLM 似乎是现有模型的融合体

里约热内卢声称自主研发的大语言模型（LLM）被指实为现有模型的融合体，相关代码托管于 GitHub。

开源/仓库数据/训练行业动态

01:59

Hacker News 热门（buzzing.cc 中文翻译）

精选72

里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

里约热内卢市政府开发的 AI 模型 Rio3.5，在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子，指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。

Hugging Face 开源/仓库模型发布评测/基准

推荐理由：一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7，这让人重新审视谁在参与前沿模型竞争。如果结果可复现，可能是今年最意外的黑马。

6月14日