AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「开源/仓库」清除
6月24日周三
11:39OpenBMB63面壁智能 VoxCPM-0.5B 在 iPhone 上实现全端侧运行
10:20Alibaba Cloud13阿里云FFA2026议程公布,Apache Fluss 1.0发布
08:13DogeDesigner32马斯克确认SpaceX AI卫星星座命名STARMIND
06:12HuggingFace Daily Papers(社区热门论文)69TROPT:统一与推进离散文本优化的开源框架
04:16宝玉70transitions.dev 动画过渡可安装为 Agent 技能
02:16Rohan Paul70Latitude 开源 AI 智能体监控平台,将对话转化为调试数据
02:12AYi45开源AI投资系统:18位智能体模仿巴菲特芒格等大师
00:59Chubby♨️70Latitude:开源AI agent可观测性工具,聚合失败原因并支持自然语言搜索
6月23日周二
21:56Hacker News 热门(buzzing.cc 中文翻译)70精选无限制OCR:单次长时域解析
16:12Hugging Face:Blog(RSS)67精选huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环
15:41MarkTechPost(RSS)49Prime Intellect 发布 prime-rl 0.6.0,用于万亿参数 MoE 模型的智能体强化学习训练
13:13HuggingFace Daily Papers(社区热门论文)50CLI-Universe:面向终端智能体的可验证任务合成引擎
11:14Berryxia.AI63百度开源 Unlimited OCR:单次解析多页 PDF,疑似挖角 DeepSeek 技术骨干
09:13Berryxia.AI72成峰开源剪辑Skills接入Codex,Agent自动完成口播视频剪辑与合成
08:31向阳乔木48百度开源 Unlimited OCR:3B参数500M激活性能惊艳
08:13Berryxia.AI73百度开源 Unlimited-OCR,R-SWA 实现单次多页 PDF 解析
01:12Berryxia.AI66百度开源Unlimited-OCR:可一次性处理数百页文档
01:04TechCrunch:AI(RSS)62SpaceX与开源AI实验室Reflection AI签署算力协议
6月22日周一
15:38Hacker News 热门(buzzing.cc 中文翻译)69Recall:Claude Code 的本地项目记忆工具
15:37MarkTechPost(RSS)60MoonMath AI 开源 AMD MI300X 注意力核,全面超越 AITER v3
08:06AYi71Netflix 工程师开源工具 Headroom,减少 95% token 消耗
08:00HuggingFace Daily Papers(社区热门论文)48AOHP:面向个性化、高效与安全交互的开源操作系统级智能体框架
02:36Rohan Paul57LOCALUS-v1 美国法律数据集发布
00:09Berryxia.AI62乔木icon设计Skill:Codex中快速生成App图标
00:09Berryxia.AI6510个免费开源GitHub仓库推荐
6月21日周日
13:34OpenClaw🦞36OpenClaw v2026.6.9 发布,聚焦小修小补
12:35向阳乔木70开源乔木icon Skill:Codex一句话生成App图标
10:08Berryxia.AI74钟二信开源Cowart:Codex无限画布插件
09:35向阳乔木65Cowart开源:Codex + 无限画布工具插件
6月20日周六
23:03Berryxia.AI19GLM-5.2 达 Opus 4.6 水平,即将开源
17:25MarkTechPost(RSS)68如何使用TimeCopilot构建预测流水线:基础模型与自动异常检测
15:59IT之家(RSS)66开源工具 Headroom 爆火:Netflix 工程师打造,声称可节省 60%-95% Token 消耗量
08:56向阳乔木21Vista 计划开发 PPT 生成 Skill
06:54MarkTechPost(RSS)77精选NVIDIA Research 发布 SpatialClaw:免训练空间推理框架
6月19日周五
21:19OpenBMB54社区开发者基于 VoxCPM2 和 ComfyUI 构建 VoiceGate,实现跨语言视频配音
20:51elvis75精选/youtube-notetaker:YT 视频转 Artifacts
18:01公众号:卡尔的AI沃茨77精选Humanize PPT v0.9:为演讲而生的开源PPT Skill
12:19AYi76精选DeepSeek研究员开源AutoResearch:AI自主跑通285B模型RL研究闭环
11:59向阳乔木71Codex MCP集成Claude Code和多模型协作开源
11:59向阳乔木61《道德经》AI配图版开源,Seedream 5生图
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月24日
11:39
OpenBMB@OpenBMB
63
面壁智能(OpenBMB)的扩散式 TTS 模型 VoxCPM-0.5B 已通过 Apple Core AI 完全部署至 iPhone 端侧,无需联网。该模型整合了 MiniCPM4 语言模型、LocDiT flow-matching 和 AudioVAE,每一层均运行于 Neural Engine 和 GPU 上。模型权重和部署代码已开源至 HuggingFace 与 GitHub。

MLBoy_DaisukeMajima: VoxCPM now runs FULLY on-device on iPhone - via Apple's Core AI. @OpenBMB's diffusion TTS (MiniCPM4 LM + LocDiT flow-mat...

开源/仓库开源生态端侧语音
10:20
Alibaba Cloud@alibaba_cloud
13
阿里云FFA2026议程公布,Apache Fluss 1.0发布

阿里云宣布距FFA2026大会仅剩2天,全部11个分论坛议程已上线,覆盖7大Data+AI方向:多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相,具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。

智能体多模态开源/仓库数据/训练
08:13
DogeDesigner@cb_doge
32
突发:埃隆·马斯克刚刚确认了SpaceX AI卫星星座的官方名称:"STARMIND"。
开源/仓库行业动态
06:12
HuggingFace Daily Papers(社区热门论文)
69
TROPT:统一与推进离散文本优化的开源框架

TROPT 是首个开源框架,通过统一接口标准化离散优化器的执行与开发。它支持灵活替换模型、目标和优化器,定制端到端优化配方。框架内置30余个优化配方(覆盖LLM越狱、模型内部探测等),由15余个优化器(白盒到黑盒)和15余个损失函数组合而成。通过大规模对比实验验证了LLM越狱优化策略改进,并将优化器从越狱场景移植至语料投毒嵌入模型等领域,显著降低了离散文本优化的使用门槛。

arXiv安全/对齐开源/仓库
04:16
宝玉@dotey
70
transitions.dev 动画过渡可安装为 Agent 技能

http://transitions.dev 这个网站的动画过渡效果很不错👍 还可以安装技能,这样 Agent 可以自己为你的网页添加炫酷的动画 npx skills add jakubantalik/transitions.dev

Jakub Antalik: Added new transitions to http://transitions.dev There are now 21 transitions you can copy as CSS or React code or use as...

智能体开源/仓库编码
02:16
Rohan Paul@rohanpaul_ai
70
Latitude 开源 AI 智能体监控平台,将对话转化为调试数据

Latitude 发布 MIT 许可的开源监控平台,将 AI 智能体对话转为生产调试数据。多数智能体已比员工接触更多用户,但对话仅存为原始日志,导致团队错过用户不满、未满足请求、重复失败和流失信号。平台提供 see, catch, fix 循环:查看会话、用户、工具、成本、延迟和 behaviors;通过 Signals 捕获重复失败;通过 MCP 从编辑器直接修复。平台面向生产智能体,关注工具使用、用户意图、重试、成本、延迟等,而非仅模型调用。推文称智能体对话是公司最被低估的数据源,Latitude 正改变此局面。

cesar.wtf: Most underrated data source in a company: your AI agent's conversations. Your agent talks to more customers than any emp...

智能体MCP/工具开源/仓库
02:12
AYi@AYi_AInotes
45
开源AI投资系统:18位智能体模仿巴菲特芒格等大师

一个4.6万星标、8千次分叉的MIT协议开源项目,提供免费AI投研系统。输入股票代码后,18位分别模仿巴菲特、芒格、木头姐、格雷厄姆等流派的智能体会自动抓取实时财报、新闻,依据各自投资哲学独立分析,风控模块排查仓位风险,最终由组合经理输出买卖持有结论,推理链完全透明。内置回测引擎、可视化网页界面,支持云模型或通过Ollama完全本地运行,核心基础数据永久免费,无需API密钥。

AYi: http://x.com/i/article/2069024565901119488

智能体开源/仓库开源生态
00:59
Chubby♨️@kimmonismus
70
Latitude 是一款开源的 AI agent 可观测性工具,MIT 许可、可自托管。它不局限于提供 traces,而是将重复失败自动归纳为单个 issue,显示频率和根本原因;还支持用自然语言搜索生产对话。引用推文指出,AI agent 对话是公司最被低估的数据源,Latitude 能改变这一状况。推荐优先尝试其 Claude Code token telemetry 功能。

cesar.wtf: Most underrated data source in a company: your AI agent's conversations. Your agent talks to more customers than any emp...

智能体开源/仓库部署/工程
6月23日
21:56
Hacker News 热门(buzzing.cc 中文翻译)
精选70
无限制OCR:单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),旨在一次性处理长时间跨度的 OCR 任务。

多模态开源/仓库
关联讨论 1 条MarkTechPost(RSS)
推荐理由:百度把能处理超长文档的 OCR 系统开源了,宣称一次推理搞定整份文件,做发票、合同、档案数字化的可以马上跑起来试试。
16:12
Hugging Face:Blog(RSS)
精选67
huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 把周更流程完全开源,用 GLM-5.2 生成发布说明初稿,再加确定性校验和人工修订,成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。
15:41
MarkTechPost(RSS)
49
Prime Intellect 发布 prime-rl 0.6.0,用于万亿参数 MoE 模型的智能体强化学习训练

prime-rl 0.6.0 是一个开源异步强化学习框架,针对万亿参数 MoE 模型,聚焦长周期智能体任务(如软件工程)。研究团队在 GLM-5 上训练 SWE 任务,序列长度达 131k,步时间低于5分钟,batch size 256,仅用28个H200节点。推理优化包括 FP8(DeepEP、DeepGEMM 内核)、宽专家并行(≥32 GPU)、前填充与解码分离、KV 缓存分层卸载(vLLM 原生或 Mooncake Store)以及路由重放(R3,降低 KL 不匹配约一个量级)。训练基于 torchtitan,采用3D并行(FSDP2、上下文并行、专家并行)和块缩放 FP8(由 DeepSeek V3 提出),以匹配推理精度并稳定训练。

智能体开源/仓库部署/工程
13:13
HuggingFace Daily Papers(社区热门论文)
50
CLI-Universe:面向终端智能体的可验证任务合成引擎

CLI-Universe是一个原则性合成引擎,通过多维能力分类树采样并基于真实技术材料进行证据引导深度研究,生成候选终端智能体任务。候选任务经Docker实例化后,通过rubric-gated测试构造、hint-conditional过滤和严格fail-to-pass检查等多阶段可执行验证流水线,约三分之二的候选被丢弃,仅保留真实、可验证且有难度的任务。基于此构建的6,000条轨迹数据集CLI-Universe-6K,微调Qwen3-32B后在Terminal-Bench 2.0上达到33.4%准确率,创下开源数据训练的32B及以下参数模型新SOTA,并超越多个参数规模大一个数量级的模型。

智能体开源/仓库数据/训练论文/研究
11:14
Berryxia.AI@berryxia
63
百度开源 Unlimited OCR:单次解析多页 PDF,疑似挖角 DeepSeek 技术骨干

百度在 HuggingFace 开源 Unlimited OCR 模型,核心卖点为 One-Shot Long-Horizon Parsing(单次长时解析),一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA(参考滑动窗口注意力)模拟人类抄写时的注意力模式——每个 token 看到完整图像,输出端只维护前 128 个状态,32K 上下文,KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系,核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

DeepSeek多模态开源/仓库模型发布
09:13
Berryxia.AI@berryxia
72
成峰开源剪辑Skills接入Codex,Agent自动完成口播视频剪辑与合成

成峰开源了一款2000+ Star的剪辑Skills,与Codex结合后,Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程:先安装Skills,用/剪口播命令上传素材和文稿,生成审核页并输出带字幕视频;再用/口播成片命令生成HTML分镜核对页,用户反馈后Codex通过Computer Use自动调整,最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。

Agent成峰: http://x.com/i/article/2068926393719685120

智能体MCP/工具开源/仓库教程/实践
08:31
向阳乔木@vista8
48
百度开源 Unlimited OCR:3B参数500M激活性能惊艳

百度开源 Unlimited OCR 模型,仅3B参数、500M激活参数,在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术,并附带了技术解读和开源地址。

多模态开源/仓库端侧
08:13
Berryxia.AI@berryxia
73
百度开源 Unlimited-OCR,R-SWA 实现单次多页 PDF 解析

百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

Berryxia.AI: 这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...

多模态开源/仓库模型发布
01:12
Berryxia.AI@berryxia
66
百度开源Unlimited-OCR:可一次性处理数百页文档

百度PaddlePaddle在HuggingFace发布Unlimited-OCR,核心创新R-SWA(Reference Sliding Window Attention)使解码时KV Cache保持恒定,避免随页数爆炸。该模型可一次性处理数百页文档,速度和稳定性优于逐页处理。在OmniDocBench上得分93%,比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底,直接理解整篇文档结构与布局。

Adina Yakup: Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...

DeepSeekHugging Face多模态开源/仓库
01:04
TechCrunch:AI(RSS)
62
SpaceX与开源AI实验室Reflection AI签署算力协议

开源AI初创公司Reflection AI宣布与SpaceX签署价值高达63亿美元的算力协议。自2026年7月1日起至2029年,Reflection每月支付1.5亿美元,获得SpaceX在田纳西州孟菲斯附近Colossus 2数据中心的Nvidia GB300芯片使用权。合同首三个月后任一方可提前90天解约。该交易规模小于SpaceX与Anthropic(每月12.5亿美元)及Google(每月9.2亿美元)的合同。Reflection由两位前Google DeepMind研究员于2024年创立,主打开放权重模型策略,称该交易是迄今最大的公开开放AI基础设施承诺之一。

开源/仓库行业动态
6月22日
15:38
Hacker News 热门(buzzing.cc 中文翻译)
69
Recall:Claude Code 的本地项目记忆工具

Recall 是为 Claude Code 设计的完全本地项目记忆工具。它自动记录每次会话日志(history.md),并通过 TF‑IDF + TextRank 提取式摘要算法在本地生成压缩摘要(context.md,约 1–2K token),无需调用任何外部模型或 API 密钥。摘要完全在本地完成,不消耗 Claude Code 的模型 token,可离线使用,解决会话冷启动问题。用户可通过 /recall:save 和 /recall:show 命令管理记忆,与 Claude 内置的 CLAUDE.md 和 --continue 功能互补。

开源/仓库编码
15:37
MarkTechPost(RSS)
60
MoonMath AI 开源 AMD MI300X 注意力核,全面超越 AITER v3

MoonMath AI 团队开源了一款 bf16 前向注意力核,专为 AMD MI300X(gfx942)设计,使用 HIP 编写,MIT 许可。该核在所有测试形状和三种舍入模式下均超越 AMD 官方 AITER v3:几何平均加速比 1.18×(RTNE)、1.15×(RTNA)、1.08×(RTZ),最高单形状 1.26×。性能提升来自单指令 asm 包装和内存布局优化——K 置于 LDS,V 常驻 L1,Q 和累加器保持在寄存器。该核已通过 SGLang PR 将 Wan2.1 视频扩散模型推理速度提升 1.23 倍,质量无损。当前仅支持 bf16、头维度固定 128,无因果掩码、GQA 或变长批处理。

开源/仓库部署/工程
08:06
AYi@AYi_AInotes
71
Netflix 工程师开源工具 Headroom,减少 95% token 消耗

Netflix 工程师开源 Headroom,在 Codex、Cursor 等 AI 编码工具外包围本地 Agent,自动压缩日志、JSON 和代码,保留逻辑准确性,减少 95% token 消耗。数据本地化,无需改代码,已获 35k GitHub 星标。核心将降本从改提示词、换模型转向输入前置处理。

开源/仓库编码部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
48
AOHP:面向个性化、高效与安全交互的开源操作系统级智能体框架

AOHP(Android Open Harness Project)基于Android开源项目(AOSP)构建,将AI智能体视为操作系统的一等角色,提供自适应UI和智能体友好运行时环境,同时保留安卓软硬件生态。系统引入三种智能体导向机制:个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中,AOHP的任务完成率提升21.12%,token成本降低51.55%,并满足安全策略合规要求。

智能体开源/仓库论文/研究部署/工程
02:36
Rohan Paul@rohanpaul_ai
57
一个庞大的法律数据集刚刚在 Huggingface 上发布。 研究人员首次使用 AI 收集、运行光学字符识别、处理并构建了全美每一条法律的数据库。 那就是 220 万条法律。 LocalLaws/LOCUS-v1 - Hugging Face 上的数据集。
Hugging Face开源/仓库数据/训练
00:09
Berryxia.AI@berryxia
62
博主转发开源乔木icon Skill,支持两种方案:1)调用Imagen参考数百图标生成;2)搜索2万SVG图标叠加纯色/渐变背景。适用于App或网页快速设计图标,精细打磨仍需设计师。安装命令:`npx skills add joeseesun/qiaomu-icon-generator`。

向阳乔木: 不求设计师!Codex一句话生成App图标,加快项目开发速度。 开源乔木icon设计Skill,支持两种方案: 1. Codex内调用Imagen生图能力,参考小耳@xiaoerzhan收集的几百个图标参考生成。 2. 支持搜索 2w SV...

GitHub图像生成开源/仓库编码
00:09
Berryxia.AI@berryxia
65
10个免费开源GitHub仓库推荐

推荐10个免费开源GitHub仓库:Recordly(免费屏幕录制,AGPL-3.0)、Stirling-PDF(PDF工具集,50+功能,MIT)、PhotoGIMP(GIMP转Photoshop界面)、Open Notebook(自托管NotebookLM,支持PDF/URL/YouTube,18+数据源,MIT)、Odysseus(PewDiePie开发的AI工作空间,本地优先,MIT)、FreeDomain(免费域名指向Cloudflare,AGPL-3.0)、Hyperframes(HeyGen的HTML/CSS转MP4引擎,Apache-2.0)、Web-to-App(网站转Android应用,支持Node/PHP/Python运行时)、ReClip(基于yt-dlp的多平台视频/音频下载)、Excalidraw(无限画布手绘图表,端到端加密,12万+好评)。

m0h: 10 GITHUB REPOS THAT SHOULD BE ILLEGAL TO HAVE. all free. all open-source. bookmark this for later. 1️⃣ recordly - the f...

开源/仓库教程/实践部署/工程
6月21日
13:34
OpenClaw🦞@openclaw
36
OpenClaw v2026.6.9 发布,专注于小修小补! 💬 更丰富的 Telegram 投递 👏 更稳定的智能体恢复 🧬 更强的 Codex 集成 📦 更精简的分发包 👌 搜索与技能的改进 https://github.com/openclaw/openclaw/releases/tag/v2026.6.9
产品更新开源/仓库编码
12:35
向阳乔木@vista8
70
开源乔木icon Skill:Codex一句话生成App图标

Vista分享开源乔木icon设计Skill,支持Codex内一句话生成App/网页图标。两种方案:1)调用Imagen生图,参考数百图标示例;2)搜索2万SVG图标,搭配纯色或渐变背景。适用于快速原型开发,精细设计仍需设计师。安装命令:npx skills add joeseesun/qiaomu-icon-generator。

MCP/工具图像生成开源/仓库
10:08
Berryxia.AI@berryxia
74
钟二信开源Cowart:Codex无限画布插件

钟二信发布了开源插件Cowart,结合Codex与无限画布工具,让用户直接在画布上用自然语言标注、修改图片。该过程比传统AI图片处理(发prompt、等生成、再迭代)更直观,也更容易留痕。插件还支持更自由地使用GPT Image 2。Cowart名字来自“Code with Art”。插件已开源至GitHub。

钟二信: Cowart:Codex + 无限画布工具插件开源,大家可以来试试啦,这个插件先取名叫 Cowart,别问为什么叫这个,我只能说 Code with Art 这种冠冕堂皇的理由:https://github.com/zhongerxin/c...

OpenAI图像生成开源/仓库
09:35
向阳乔木@vista8
65
开发者 @zhongerxin 发布开源项目 Cowart,将 OpenAI Codex 与无限画布工具结合,作为 VS Code 插件使用。项目名 Cowart 取自 "Code with Art"。代码已托管至 GitHub:https://github.com/zhongerxin/cowart#

钟二信: Cowart:Codex + 无限画布工具插件开源,大家可以来试试啦,这个插件先取名叫 Cowart,别问为什么叫这个,我只能说 Code with Art 这种冠冕堂皇的理由:https://github.com/zhongerxin/c...

GitHubMCP/工具开源/仓库编码
6月20日
23:03
Berryxia.AI@berryxia
19
GLM-5.2 已达到 Opus 4.6 水平。主推文称"搞的差不多了,过2天就给大家开源玩玩"。

Berryxia.AI: GLM-5.2 这次真的有Opus 4.6 的水平了,牛逼~~

图像生成开源/仓库
17:25
MarkTechPost(RSS)
68
如何使用TimeCopilot构建预测流水线:基础模型与自动异常检测

本教程使用TimeCopilot构建端到端预测工作流。安装TimeCopilot等库后,加载AirPassengers数据集及合成季节序列(注入三处异常)。配置统计模型(AutoARIMA、AutoETS、SeasonalNaive、Theta)、Prophet和基础模型(Chronos,根据GPU选用amazon/chronos-bolt-small或tiny,可选TimesFM)。通过滚动交叉验证和RMSE等指标评选最优模型,生成概率预测与预测区间,可视化未来趋势并检测异常值。可选LLM智能体自动选择模型并输出分析响应。

开源/仓库教程/实践数据/训练
15:59
IT之家(RSS)
66
开源工具 Headroom 爆火:Netflix 工程师打造,声称可节省 60%-95% Token 消耗量

Netflix 高级工程师 Tejas Chopra 开发的开源工具 Headroom(v0.26.0)在 AI 应用与 LLM 间建立本地透明压缩层,通过压缩 JSON、代码、RAG 片段和对话历史等冗余数据减少 Token 消耗,支持可逆压缩与 CCR 缓存机制。实测代码搜索场景 Token 从 17765 降至 1408(节省 92%),SRE 事故调试场景从 65694 降至 5118(同样节省 92%)。累计帮助用户节省约 70 万美元成本、释放超 2000 亿 Token。提供 Python/TypeScript 库、智能体代理模式、直接包装现有 AI 编程智能体以及 MCP 服务器模式,并可精简 AI 回复中客套话进一步降低成本。

GitHubMCP/工具开源/仓库部署/工程
08:56
向阳乔木@vista8
21
Vista 计划开发 PPT 生成 Skill

Vista 计划开发 PPT 生成 Skill,核心:同时输出可编辑 PPTX、PDF、HTML;基于 GPT 5.5 Pro 方法论;按环境在 Codex 生图或 SVG 渐变背景;集成 echart、lucide icon、Google Font;内置抓取 X 帖子、长文、论文 PDF 素材。预计下周开源。

开源/仓库开源生态
06:54
MarkTechPost(RSS)
精选77
NVIDIA Research 发布 SpatialClaw:免训练空间推理框架

NVIDIA Research 发布 SpatialClaw,一个免训练的空间推理框架。它通过将代码作为动作接口,让智能体调用感知工具(Depth Anything 3、SAM 3)并自由组合输出,解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点,比无工具基线高 6.5 点,比结构化工具调用高 3.2 点。框架无需重新训练,同一提示词和工具集可跨所有基准和骨干网络运行,支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

智能体具身智能开源/仓库推理

推荐理由:NVIDIA 把空间推理的动作接口从工具调用换成代码,这个思路很巧,20 个基准平均拉升到 59.9%,无训练即插即用,做机器人和视频理解的人该直接跑一下 repo。
6月19日
21:19
OpenBMB@OpenBMB
54
社区开发者基于 VoxCPM2 和 ComfyUI 构建 VoiceGate,实现跨语言视频配音

社区开发者基于 VoxCPM2 与 ComfyUI 构建了 VoiceGate,实现自动语音提取(ASR)、大语言模型翻译、多语言语音合成(支持 30 多种语言和 9 种方言,含语音克隆与音色设计)、时间戳对齐音频以及背景音分离混音。核心创新 VoiceBridge 插件首次在 ComfyUI 中引入 SRT 时间戳驱动的 TTS 对齐,实现字幕级精细控制,解决 AI 配音音视频不同步问题。应用包括中文视频转英/日/韩等多语言,以及全球视频转中文及方言。

开源/仓库视频语音
20:51
elvis@omarsar0
精选75
YT 视频 -> Artifacts 看看我如何使用新的 /youtube-notetaker 技能从 YT 视频生成 Artifacts。 捕获幻灯片、笔记、转录内容…… 快去试试 ↓
开源/仓库教程/实践视频

推荐理由:Elvis 新做的 /youtube-notetaker skill 能直接从 YouTube 视频提取幻灯和笔记,学生和 UP 主会很受用,对业界整体没什么推动,但实用度很高。
18:01
公众号:卡尔的AI沃茨
精选77
Humanize PPT v0.9:为演讲而生的开源PPT Skill

Humanize PPT v0.9 是一款专为演讲场景设计的PPT Skill,核心通过AST(Audience, State, Transfer)逻辑重新编排大纲,将页面渲染外包给下游Skill。渲染前先输出4张真实预览页,并将图片、视频素材的占位与生成prompt写入大纲。新增质检环节自动修复常见渲染问题,并支持演讲模式:按S键在独立窗口显示演讲稿备注,按ESC键打开全局索引快速跳页。项目已开源至github.com/LearnPrompt/humanize-ppt,由卡尔 & yc星辰开发。

GitHubMCP/工具开源/仓库

推荐理由:卡尔把 AI 做 PPT 的坑全趟了一遍,这套工具体系让页面从‘好看’变成‘能讲’,做演讲的人可以抄作业了。
12:19
AYi@AYi_AInotes
精选76
DeepSeek研究员开源AutoResearch:AI自主跑通285B模型RL研究闭环

DeepSeek研究员Deli Chen将AutoResearch协议开源,并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结,全程零人工干预。系统调用了GRPO工具,被视为持续学习研究的开端。

Deli Chen: 🧵 Deli AutoResearch SKILL is now officially open source! 🎉 https://victorchen96.github.io/auto_research/framework.html...

智能体DeepSeek开源/仓库

推荐理由:Deli Chen 开源的不是模型,是能让 AI 自己跑通 RL 研究全流程的「后厨系统」,从实验设计到 debug 全自动,五个工程思路可以直接抄作业。
11:59
向阳乔木@vista8
71
Codex MCP集成Claude Code和多模型协作开源

开发者在Codex基础上开发了一个MCP,支持在Codex中调用Claude Code(用于写作等场景用Claude Sonnet 4.6,前端网页用Claude 4.8),并可随时调用国产廉价模型如智谱GLM-5.2、Deepseek V4 Flash用于开发、翻译等。该MCP还支持多模型多轮讨论,由Codex汇总方案。项目已免费开源。

MCP/工具开源/仓库编码
11:59
向阳乔木@vista8
61
《道德经》AI配图版开源,Seedream 5生图

一个将《道德经》每句拆解翻译成大白话并配以AI生图的漫画项目已开源,在线体验和GitHub仓库已公开。生图基于Seedream 5模型,目前效果尚有优化空间(图文相关性不够稳定),但整体阅读体验有所提升。

向阳乔木: 你可能和我一样,经典古籍实在读不下去。 以《道德经》为例,拆解每句翻译成大白话 + AI生图,一下就Get了。 项目正在开发中,预计本周开源。

图像生成开源/仓库
‹ 上一页
12345…25
下一页 ›