AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「开源/仓库」清除
今天7月3日 周五
05:08MarkTechPost(RSS)70精选阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控
7月2日周四
20:34TechCrunch:AI(RSS)58用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频,引发隐私争议
19:39meng shao79精选browser-use 发布开源 AI 视频剪辑 Skill「video-use」
19:14Hacker News 热门(buzzing.cc 中文翻译)71精选Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试
17:06MarkTechPost(RSS)72精选Google Health API 推出 CLI:ghealth 是一款针对 Fitbit 数据的开源工具
12:04IT之家(RSS)51知名GPU架构师Raja Koduri创立的OXMIQ Labs完成3500万美元A轮融资
11:28HuggingFace Daily Papers(社区热门论文)47域算术:环境变化下的一次性VLA适配
11:25歸藏(guizang.ai)71藏师傅社交卡片Skill更新:支持Live Photo生成与编辑
09:05OpenClaw🦞31OpenClaw iOS UI维护者回应批评邀参与
7月1日周三
23:22Jim Fan71Jim Fan团队推出ASPIRE:机器人自我进化的技能库系统
14:41OpenBMB55VoxCPM2:2B开源语音编辑模型,声音可像滤镜一样调整
12:06François Chollet60tufalabs开源第一名notebook 有望解锁新浪潮
09:08Hacker News 热门(buzzing.cc 中文翻译)68Meta AI 发布 Brain2Qwerty v2:无需手术的脑电波解码系统
07:32Nathan Lambert48RLHF Book代码库新增on-policy自蒸馏示例
07:31Rohan Paul51Meta开源脑机接口系统Brain2Qwerty v2,无需手术词准确率达78%
02:36AK49Claude Code 与 hf-claude 的 open-fusion
02:19Simon Willison 博客50AI指南针
6月30日周二
16:38The Decoder:AI News(RSS)67Deepseek发布DSpark推理框架,AI响应速度最高提升85%
15:18向阳乔木64腾讯开源ARGUS:万卡GPU集群监控方案
14:36karminski-牙医60SGLang DSpark实测:1.81倍加速,预测3个token
13:02IT之家(RSS)48920 亿参数,华为 openPangu-2.0-Flash 模型正式开源上线
12:05AK23LongCat-2.0 即将登陆 Hugging Face
10:59meng shao69Codex Skill Manager 开源发布
03:29MarkTechPost(RSS)61NVIDIA BioNeMo Agent Toolkit 将生物分子模型封装为 AI 智能体可调用的技能
03:26Emad70开源Zenith harness登顶FrontierSWE,超越Fable
02:28宝玉79同事件精选Meta 发布 Brain2Qwerty v1 论文与 v2,非侵入式脑机接口解码准确率大幅提升同一事件,精选展示《Meta发布Brain2Qwerty v2:非侵入式实时句子解码》
01:17Simon Willison 博客67Ornith-1.0:用于自主编程的自构建大语言模型
6月29日周一
22:35Hacker News 热门(buzzing.cc 中文翻译)71精选Herdr:驻留在终端中的AI智能体多路复用器
18:58MarkTechPost(RSS)74精选EverOS:开源Markdown优先智能体记忆运行时,支持混合检索与自进化技能
18:24Berryxia.AI62开源视频制作项目OpenMontage单日获3000 Star
14:24Berryxia.AI64Supervision:Roboflow计算机视觉开源工具包,45K Stars
13:50公众号:卡尔的AI沃茨67开源Bugu - 防止合盖休眠的macOS菜单栏应用
08:00HuggingFace Daily Papers(社区热门论文)50MatMMExtract:面向材料科学的大规模多模态数据集MatSciFig
05:57宝玉68RepoPrompt 已开源,社区版上线GitHub
05:22🚨 AI News | TestingCatalog64Vida开源BrowserBC:浏览器会话→AI智能体技能
02:18AYi72开源AI skill:文章转黑底手绘风格图表
01:03Hacker News 热门(buzzing.cc 中文翻译)75精选Wayfinder Router:在本地和托管的大语言模型之间进行确定性查询路由
00:23Berryxia.AI72姚老师免费开源GEO内容工程全套资料,价值上万元课程公开
00:23Berryxia.AI50DeepSeek 开源 DSpark 投机解码框架
6月28日周日
21:23Berryxia.AI63Agent-Reach:为AI Agent免费读取多平台内容的开源CLI工具
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
05:08
MarkTechPost(RSS)
精选70
阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控

阿里巴巴发布 Page Agent,一个开源的 JavaScript 客户端库,嵌入网页后可通过自然语言指令直接操作 DOM 元素。与 Playwright、Puppeteer 等外部浏览器自动化工具不同,Page Agent 不依赖截图或多模态模型,而是将实时 DOM 脱水压缩为 FlatDomTree 文本映射,让纯文本模型精准执行点击、表单填写等操作。它继承用户 cookies 和会话,无需独立后端,并支持任意 OpenAI 兼容端点的模型(示例使用 qwen3.5-plus)。项目采用 MIT 许可证,适合在自有应用内构建 AI 副驾、智能表单填充或无障碍控制等场景,但限于单页面范围,风险操作仍需服务端验证。

智能体开源/仓库部署/工程

推荐理由:Page Agent 把浏览器自动化从外部驱动变成页面内 JS,读 DOM 而非截图,让 SaaS 内的 AI 助手成本更低、更精准,适合自己产品内嵌 copilot 的团队。
7月2日
20:34
TechCrunch:AI(RSS)
58
用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频,引发隐私争议

内容创作者Ben Guez用开源AI智能体OpenClaw追踪世界杯赛果,触发Claude自动生成Instagram试播视频,配文“我无法相信{国家}输了……需要情感支持的{国家}女孩请私信我”,几天内获得超过100万次观看和200条私信。另一位用户Jeff Weisbein利用OpenClaw规划南佛罗里达约会地点。还有人用Claude自动编写分手消息。安全公司NanoClaw联合创始人Lazer Cohen警告,让AI智能体单方面控制账户存在隐私风险,强调需要人类参与审批。

智能体Anthropic开源/仓库教程/实践
19:39
meng shao@shao__meng
精选79
browser-use 发布开源 AI 视频剪辑 Skill「video-use」

browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」,让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本(含逐词时间戳、说话人分离、事件标记),仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节:分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。

智能体GitHub开源/仓库视频

推荐理由:browser-use 团队把 AI 视频剪辑从「看视频帧」变成「读转写文本」,12KB 文本代替 4500 万 token 噪声的思路很聪明,一套可落地的 ffmpeg 脚本集,做 AI agent 视频处理的可以直接抄。
19:14
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试

Senior SWE-Bench是一个开源基准测试,用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类:功能任务指令类似自然语言消息,采用验证智能体基于专家配方自动生成行为测试;Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示,Claude Opus 4.8搭配Mini-SWE-Agent(max effort)通过率24.0%,Claude Sonnet 5为19.4%,GPT-5.5为16.0%,最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件,最强智能体也需数百步完成;中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR,由拥有数百次提交的工程师编写。

开源/仓库编码评测/基准

推荐理由:这个新基准把 AI 编程代理的评估拉到了更真实的复杂度,顶尖模型也只有不到四分之一的成功率,做 coding agent 的都该拿它测一测,它会比 SWE-bench 更挑出工程师的“手感”。
17:06
MarkTechPost(RSS)
精选72
Google Health API 推出 CLI:ghealth 是一款针对 Fitbit 数据的开源工具

ghealth 是一款封装 Google Health API v4 的开源命令行工具,以单个 Go 二进制文件发布(Apache 2.0 协议)。它提供 40 种已验证的数据类型(包括步数、心率、睡眠、体重、血氧饱和度、心率变异性等)的结构化 JSON 输出。工具采用 Agent 优先设计,具备确定性退出码、--dry-run 和 --raw 标志,并附带两个 SKILL.md 文件供 AI 智能体使用。用户需自行创建 OAuth 凭据,通过 PKCE S256 认证。数据来源覆盖 Fitbit、Pixel Watch 及连接的第三方设备。

GoogleMCP/工具开源/仓库数据/训练

推荐理由:把 Google Health API 封装成终端和 AI 代理友好的 CLI,一次性解决了认证、JSON 输出和分页这些烦人细节,想用 Fitbit 数据做健康分析或喂给代理的人可以直接上手,但它的影响仅限于个人健康数据爱好者这个小圈层。
12:04
IT之家(RSS)
51
知名GPU架构师Raja Koduri创立的OXMIQ Labs完成3500万美元A轮融资

由知名GPU架构师Raja Koduri创立的芯片IP企业OXMIQ Labs宣布完成3500万美元A轮融资,由Fundomo和Samsung Catalyst Fund领投,联发科、英特尔资本、和鼎创投、雷蛇等跟投,累计融资6000万美元。其核心IP OxCore集成标量、矢量、张量单元,专为近内存计算设计,已完成FPGA原型并开放授权。配套软件OxCapsule和OxPython支持现有CUDA/PyTorch代码直接运行,优化大规模推理。

开源/仓库行业动态
11:28
HuggingFace Daily Papers(社区热门论文)
47
域算术:环境变化下的一次性VLA适配

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换(如从Panda换为UR5e)时通常无法完成已学任务。传统适配需为每个任务收集多次演示,成本高昂。DART(Domain ARiThmetic)提出基于类比推理的方法,通过权重向量算术添加特定领域信息,仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中,DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXivGitHub具身智能开源/仓库
11:25
歸藏(guizang.ai)@op7418
71
藏师傅社交卡片Skill更新:支持Live Photo生成与编辑

歸藏的guizang-social-card-skill新增Live Photo能力,支持单视频动态卡片、拼图式(二/三/四宫格)、三连Live Photo及长视频筛选。核心细节:第一帧可作为静态图发布;小红书5秒/公众号3秒时长区分;发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右,让AI判断适合做Live Photo的片段。安装或更新后即可使用。

智能体GitHub产品更新图像生成
09:05
OpenClaw🦞@openclaw
31
主推文只是说"把这段留给喷子"。引用推文中,Colin自我介绍:他是OpenClaw iOS UI的主要贡献者之一,作为志愿者维护者,他接受公开批评。他时间有限但对移动端智能体充满热情。他邀请大家与他对话、指出不足,并加入Discord共同改进。

Colin: I want to introduce myself. Hi I'm Colin, I did a lot of the @openclaw iOS UI, so as one of the volunteers responsible, ...

智能体开源/仓库
7月1日
23:22
Jim Fan@DrJimFan
71
继EMPIRE后,Jim Fan团队发布ASPIRE,为机器人构建可自我进化、无限累积的技能库。编码智能体观察仿真和真实机器人的多模态感官轨迹,对控制程序进行进化搜索,将最佳策略蒸馏进不断扩展的库中。ASPIRE无需梯度下降或端到端策略,而是通过传递"技能知识"绕过sim2real和跨本体迁移难题,相比从头训练实现约10倍迁移学习token缩减。已在150+任务和90+技能上验证,计划开源全栈。

Jim Fan: Today, we give robots a /skills library that self-evolves and compounds indefinitely! Introducing ASPIRE: a robot solvin...

智能体具身智能开源/仓库论文/研究
14:41
OpenBMB@OpenBMB
55
面壁智能发布VoxCPM2,一个2B参数的开源语音模型,支持30种语言及9种方言。该模型实现"声音可编辑":通过提示词指定年龄、音色、情绪和语速,也可上传参考音频保留原音色并重新控制表达方式。实测显示,语音生成已从单纯模仿真人转向按需导演级表演,让声音变得像图片滤镜一样可描述、复制和改写。

Vincent | 信号>噪音: 本地跑了一遍 VoxCPM2,最让我意外的不是它会说粤语、河南话,而是"声音"正在变成一种可以编辑的东西。 写一句提示词,就能指定年龄、音色、情绪和语速;再上传一段参考音频,它还能保留音色,重新控制表达方式。 以前语音模型追求的是"像不像本...

开源/仓库语音
12:06
François Chollet@fchollet
60
tufalabs 刚刚开源了他们获得第一名的 notebook。主推文表示,这有望解锁新一波更好的参赛作品。

Greg Kamradt: .@tufalabs just open sourced their 1st place notebook 👀

开源/仓库开源生态教程/实践
09:08
Hacker News 热门(buzzing.cc 中文翻译)
68
Meta AI 发布 Brain2Qwerty v2:无需手术的脑电波解码系统

Meta AI 推出 Brain2Qwerty v2,一种无需手术植入即可实时从脑电波解码句子的非侵入式系统。基于脑磁图(MEG)设备记录 9 名志愿者各 10 小时的打字脑活动,训练约 22,000 个句子,采用端到端深度学习并微调大语言模型。词准确率达 61%,最佳参与者达 78%,远超其他非侵入方法的 8%。解码精度随数据量对数线性提升,有望进一步缩小与手术方法的差距。Meta 已开源 v1 和 v2 训练代码,合作方 BCBL 开放 v1 数据集。

Meta开源/仓库数据/训练论文/研究
07:32
Nathan Lambert@natolambert
48
很高兴宣布 @zafstojano -- 一位新增的维护者,他帮助我维护 RLHF Book 代码 -- 向代码库添加了一个简单的在线策略自蒸馏示例,可在一些玩具问题上运行。期待进一步探索,很高兴看到仓库不断完善!
安全/对齐开源/仓库数据/训练
07:31
Rohan Paul@rohanpaul_ai
51
Meta开源脑机接口系统Brain2Qwerty v2,无需手术词准确率达78%

Meta开源非侵入式脑机接口系统Brain2Qwerty v2,通过读取MEG头盔采集的脑信号实现文字输出,无需植入电极。9名志愿者每人录入约10小时、共约2.2万句神经活动数据。系统平均词准确率61%,最强参与者达78%;超50%句子解码误差不超过1个词。v2版本联合映射脑信号到字符、词汇及完整句义,深度学习直接从原始信号学习模式,再经微调LLM利用上下文修正错误。相比早期非侵入方法8%的准确率显著提升,且准确率随训练数据量增加而提高。

Meta开源/仓库
02:36
AK@_akhaliq
49
在 Claude Code 中使用 hf-claude 进行 open-fusion。
AnthropicHugging Face开源/仓库编码
02:19
Simon Willison 博客
50
AI指南针

一个名为“AI指南针”的政治指南针风格测验通过29道关于AI和AI伦理的是非题,将参与者匹配到30种原型之一。作者本人在首次回答后被归类为“The Garage Tinkerer”。该测验以单页React应用实现,利用<script type="text/babel">脚本标签绕过构建步骤。

其他大佬观点开源/仓库
6月30日
16:38
The Decoder:AI News(RSS)
67
Deepseek发布DSpark推理框架,AI响应速度最高提升85%

Deepseek推出DSpark推理框架,采用推测解码技术,由小模型生成候选答案、大模型批量验证,并一次生成多个token而非单个,使每用户响应速度提升60–85%。系统基于置信度动态调整验证深度,减少无效计算。DSpark与Deepseek-V4-Pro模型(与北京大学联合开发)已在HuggingFace和GitHub以MIT许可证开源。高效推理降低对高端芯片需求,有助于中国与欧盟在芯片受限下获取更多AI性能,短期构成战略优势。

DeepSeek开源/仓库开源生态推理
15:18
向阳乔木@vista8
64
腾讯开源ARGUS:万卡GPU集群监控方案

腾讯团队开源ARGUS方案,用于管理和监控超10,000块GPU的集群。大模型训练成本极高,万卡集群每天电费和折旧达数十万元。ARGUS解决的核心问题是在集群出问题时几分钟内定位原因。论文发现:万卡规模下,超70%训练中断由网络通信问题导致,而非GPU故障。ARGUS通过采集每GPU实时数据(计算负载、显存、网络带宽、通信延迟)进行关联分析,精准定位故障GPU或链路。

开源/仓库部署/工程
14:36
karminski-牙医@karminski3
60
SGLang DSpark实测:1.81倍加速,预测3个token

SGLang的DSpark在PR中放出实测数据,可预测3个token(数学类3.37,日常对话3,代码3.52)。1K长度prompt下加速比达1.81倍,8卡B200速度297 token/s(无DSpark为164 token/s)。单并发提升最高,超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms,延迟可忽略。该PR(#29538)尚未合并。

开源/仓库推理部署/工程
13:02
IT之家(RSS)
48
920 亿参数,华为 openPangu-2.0-Flash 模型正式开源上线

华为 openPangu-2.0-Flash 模型(总参数量 92B,激活参数量 6B)于 6 月 30 日正式开源上线,支持 512K 上下文。该模型为 openPangu 2.0 系列的两个版本之一,另一版本 Pro(505B 总参数,18B 激活参数)计划 7 月开源。openPangu 2.0 将从 6 月 30 日起陆续开源 7 大组件,包括模型权重、基础推理代码、训推算子等。

开源/仓库开源生态模型发布
12:05
AK@_akhaliq
23
LongCat-2.0 即将登陆 Hugging Face
开源/仓库模型发布
10:59
meng shao@shao__meng
69
Codex 团队 @Dimillian 也是一位知名 iOS/Swift 开发者,把他的 Codex Skill Manager 开源了! 这是一个用 SwiftUI + SwiftPM 原生构建的 macOS 应用,作为 Codex Skills 的图形化管理器和商店,把 Codex、Claude Code、OpenCode 和 Copilot 的四套 Skills 目录抽象成 SkillPlatform 枚举,让一个 GUI 统一管理跨平台的 Skills。 https://github.com/Dimillian/CodexSkillManager
GitHub开源/仓库编码
03:29
MarkTechPost(RSS)
61
NVIDIA BioNeMo Agent Toolkit 将生物分子模型封装为 AI 智能体可调用的技能

NVIDIA 发布开源 BioNeMo Agent Toolkit,将蛋白质折叠(OpenFold3、Boltz‑2)、分子对接(DiffDock)、生成化学(GenMol)、序列设计(ProteinMPNN)、MSA 搜索、RFdiffusion 及基因组学模型(Evo 2)等封装为标准化 agent skill。每个 skill 包含 SKILL.md 说明文档,支持 MCP 服务器包装,可通过 npx skills add 安装至 Claude Code 等 agent。测试显示:接入技能后任务完成率从 57.1% 升至 100%,每千 token 通过断言数提升 2 倍。用户可选择托管 NIM 端点或本地 NIM 部署。

智能体产品更新开源/仓库
03:26
Emad@EMostaque
70
ii 团队推出开源 Zenith harness,通过自适应自我改进(adaptive self improvement)将基础模型推向 FrontierSWE 基准榜首,在需数小时或数天的复杂任务(如蛋白质预测模型训练、编译器优化)上超越 Fable。同时预告 GLM 5.2 即将到来。

Intelligent Internet: You don't need Fable for the most complex tasks, from training models for protein prediction to optimising compilers Our...

开源/仓库开源生态编码
02:28
宝玉@dotey
同事件精选79
Meta 发布 Brain2Qwerty v1 论文与 v2,非侵入式脑机接口解码准确率大幅提升

Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文,同日发布 v2。v1 从脑电信号逐字母解码,字符错误率 32%。v2 实现句子级实时解码,平均单词准确率 61%,最优 78%,过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据(约 2.2 万句子),结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高,但该成果为脑损伤患者提供了无需开颅的可行路径。

AI at Meta: We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...

Meta多模态开源/仓库论文/研究
同一事件,精选展示《Meta发布Brain2Qwerty v2:非侵入式实时句子解码》
推荐理由:非侵入式脑机接口从近乎不能用进步到能大致沟通,这一步证明了不开颅也可能接近侵入式的效果,剩下的主要是工程问题。做脑机接口或医疗 AI 的都值得关注。
01:17
Simon Willison 博客
67
Ornith-1.0:用于自主编程的自构建大语言模型

DeepReinforce 发布首个开源模型 Ornith-1.0(MIT 许可),提供 9B、31B、35B MoE 及 397B MoE 四种规模变体,基于预训练的 Gemma 4 和 Qwen 3.5 构建,在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版(20GB),实测推理速度 103 tokens/秒,实际代码检索和工具调用任务表现流畅。

智能体开源/仓库模型发布编码
6月29日
22:35
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Herdr:驻留在终端中的AI智能体多路复用器

Herdr是一个驻留在终端中的AI智能体多路复用器,允许用户在单一终端界面内管理和切换多个AI智能体会话。

智能体GitHubMCP/工具开源/仓库

推荐理由:这个工具把 AI 代理管理塞进终端,比开一堆浏览器标签自然,对命令行重度用户是个值得一试的 early idea。
18:58
MarkTechPost(RSS)
精选74
EverOS:开源Markdown优先智能体记忆运行时,支持混合检索与自进化技能

EverMind 推出开源智能体记忆运行时 EverOS(Apache 2.0 许可)。它以可编辑的 Markdown 文件为记忆主体,经 SQLite 管理状态、LanceDB 实现混合检索(BM25 关键词 + 向量搜索 + 标量过滤)。每个完成的任务记录为 Case,离线提炼为可复用的 Skill,使记忆随使用自我进化。v1.1.0 新增 Knowledge APIs(支持分类与话题搜索的 Markdown 页面)和 Reflection(跨会话优化 Profile 和 Skill)。据 EverMind 报告,LoCoMo 得分 93.05%,LongMemEval 83.00%,HaluMem 93.04%,p95 检索延迟低于 500ms。运行时可本地优先部署,也提供 EverOS Cloud 托管选项,兼容 OpenAI 协议端点。

智能体MCP/工具开源/仓库

推荐理由:EverOS把Agent记忆从沉重的向量数据库堆栈中解放出来,Markdown源真和自进化技能让本地开发更轻便,但基准全由团队自报,上手前最好自己测一下。
18:24
Berryxia.AI@berryxia
62
开源项目OpenMontage单日获3000 Star,将视频生产拆为12条pipeline,内置52工具和500+ agent skills。用户用自然语言描述需求,agent完成从调研到剪辑全流程,支持AI与真实素材混合工作流,具备预合成验证、后渲染自检等质量把控,渲染引擎Remotion+HyperFrames,普通人对话可产出专业级视频。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体GitHub开源/仓库视频
14:24
Berryxia.AI@berryxia
64
Supervision:Roboflow计算机视觉开源工具包,45K Stars

Roboflow出品的Supervision工具包已获45K GitHub Stars,三周增长5K。它将常见CV工作流抽象为复用组件,支持模型无关推理、多种annotator(框、掩码、标签、轨迹)、数据集加载转换、跟踪及区域统计。用户只需几行代码即可用YOLO、RF-DETR等模型完成检测标注可视化,大幅降低重复造轮子成本,社区贡献了丰富工具生态。

GitHub开源/仓库开源生态
13:50
公众号:卡尔的AI沃茨
67
开源Bugu - 防止合盖休眠的macOS菜单栏应用

Bugu(布谷)是一款macOS菜单栏应用,防止合盖后电脑休眠,通过心跳音效提示Agent的五个状态:接收任务(Accept)、运行中(Running)、成功(Done)、中断(Interrupted)和授权(Permission)。支持跳转到具体对话界面。由作者使用Codex和Kimi Code K2.7 Code Highspeed联合开发,Kimi Code在中等编码任务中达180 token/s,短上下文任务260 token/s,速度提升6倍,可导入Claude Code和Codex的skill及MCP。项目已在GitHub开源。

智能体开源/仓库编码
08:00
HuggingFace Daily Papers(社区热门论文)
50
MatMMExtract:面向材料科学的大规模多模态数据集MatSciFig

MatMMExtract 是一个端到端开源管道,将复合图表分解为独立子面板,并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章,从 180,571 张图中生成 MatSciFig 数据集,包含 391,606 个面板级图像-文本对,每对配有子标题、两级可视化类别(19 个大类、100+ 子类)和科学摘要。引入 MaterialScope 检测数据集(2,811 张人工标注图),微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中,Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡,82% 输出良好,模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍,所有资源已向社区开放。

多模态开源/仓库数据/训练论文/研究
05:57
宝玉@dotey
68
RepoPrompt 已开源,社区版上线GitHub

RepoPrompt 已开源,社区版上线GitHub。作者Provencher被OpenAI招安,条件是为付费用户做好安排:先免费再开源,付费用户获赠Codex Credits。该工具从仓库挑选文件生成prompt,解决超32K token使模型变笨的问题,称为“上下文工程”。开源版反转架构:内置MCP server为主控,底层CLI工具可替换,支持推理模型规划并并行分发子任务。目前仅支持macOS,可通过Homebrew安装。

宝玉: RepoPrompt 作者被 OpenAI 招安了,然后这软件现在免费了,即将开源。 如果你是 RepoPrompt 付费用户会给你送 Codex 的 Credits。

GitHubMCP/工具OpenAI开源/仓库
05:22
🚨 AI News | TestingCatalog@testingcatalog
64
Vida 开源了 BrowserBC 框架,能将浏览器会话转化为 AI 智能体的可重用技能。仅需一次录制,智能体即可依据之前任务执行的技能导航,无需每次重新计算。Vida 报告称,使用相同 AI 智能体,该方法成功率显著更高且步骤更少。

Vida: We open-sourced BrowserBC: A system that turns human browser trajectories into reusable agent skills. Just one recording...

智能体GitHub开源/仓库
02:18
AYi@AYi_AInotes
72
开发者@LufzzLiz 开源了一个AI skill,可将文章或架构内容先压缩为结构化JSON spec,再由本地Python + Pillow渲染出黑底手绘风格的PNG、GIF及可编辑的Excalidraw JSON。目前仅内置一种风格,用户可自行通过Agent DIY添加更多风格。开源地址在评论中。

岚叔: 嘿嘿,skill写好了,开源了朋友们! 实现原理: 把文章或架构内容先压缩成一份结构化 JSON spec,再由本地 Python + Pillow 渲染出黑底手绘风格的 PNG、GIF 和可编辑的 Excalidraw JSON。 开源地...

智能体图像生成开源/仓库
01:03
Hacker News 热门(buzzing.cc 中文翻译)
精选75
Wayfinder Router:在本地和托管的大语言模型之间进行确定性查询路由

Wayfinder Router 通过分析提示词的结构(长度、标题、列表、代码)和措辞(证明、数学、硬约束),在微秒级完成路由决策,完全离线且无需调用其他模型。默认仅使用结构特征,词汇线索因盲测未泛化而默认为关闭。对比依赖模型调用的路由器(如 RouteLLM、NotDiamond),它避免了延迟、成本和随机性。用户可在自有数据上校准评分阈值。支持任何 OpenAI 兼容 API(含 Ollama、Anthropic、Groq、vLLM 等),可自托管。提供终端和网页演示(--dry-run 无需密钥),以及基准测试和 FAQ。

开源/仓库部署/工程

推荐理由:Wayfinder Router 把 prompt 路由变成了离线文本分析,无需额外模型调用,对希望节省成本同时保持私密的开发者很实用,比现有方案更轻量和确定,但纯语义难题仍是短板。
00:23
Berryxia.AI@berryxia
72
Berry Xia称赞@yaojingang(姚老师)将本可卖到上万元的GEO内容工程课程资料全部免费开源。资源包括:3份核心文档(操作手册、研究报告、实操教程)、2本推荐书籍、3篇学术论文;GEO改写提示词、改写Skill、单篇内容GEO特征标注演示;以及3个GitHub开源仓库(GEO Skills、GEOFlow、Meta skill)。所有资源通过链接直接获取,无需付费或陪跑课程。

姚金刚: 这是今晚直播的相关资料、资源及系统,分享给大家 相关资料: 1、《GEO内容工程操作手册与评估标准》https://doc.laoyao.cn/9fl0bc 2、《GEO内容工程系统研究报告》https://doc.laoyao.cn/t7...

开源/仓库搜索教程/实践
00:23
Berryxia.AI@berryxia
50
DeepSeek 开源 DSpark 投机解码框架

DeepSeek 开源 DSpark,一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构,消除后缀衰减;并引入置信度 head 和负载感知调度器,动态控制验证数量。在 DeepSeek-V4 生产系统中,单用户生成速度比 MTP-1 基线快 60-85%,吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 DeepSeek-V4-Pro-DSpark/Flash-DSpark checkpoint,以及 MIT 协议的 DeepSpec 训练代码,与北京大学联合开发。

Dmytro Dzhulgakov: DSpark from @deepseek_ai ingeniously integrates many speculative decoding ideas to achieve 1.5x to 5x higher throughput ...

DeepSeek开源/仓库推理部署/工程
6月28日
21:23
Berryxia.AI@berryxia
63
Agent-Reach:为AI Agent免费读取多平台内容的开源CLI工具

Agent-Reach(3.5K Star)通过CLI工具让AI Agent免费读取Twitter、Reddit、YouTube、GitHub、B站、小红书等多平台内容。核心是智能选择当下最稳定的开源后端,自动健康检查和故障切换,无需自写爬虫。安装后Agent可直接处理“看视频字幕”、“搜产品评价”等任务,全程零API费用、本地运行。项目将碎片能力封装为Agent可调用的skill,实现多后端路由和自动降级,补齐Agent低成本、可靠获取网页和社交媒体内容的能力。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体开源/仓库
‹ 上一页
123…25
下一页 ›