AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 470 条
全部一手资讯X论文
标签「开源/仓库」清除
今天7月3日 周五
05:08MarkTechPost(RSS)70精选阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控
7月2日周四
20:34TechCrunch:AI(RSS)58用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频,引发隐私争议
19:14Hacker News 热门(buzzing.cc 中文翻译)71精选Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试
17:06MarkTechPost(RSS)72精选Google Health API 推出 CLI:ghealth 是一款针对 Fitbit 数据的开源工具
12:04IT之家(RSS)51知名GPU架构师Raja Koduri创立的OXMIQ Labs完成3500万美元A轮融资
11:28HuggingFace Daily Papers(社区热门论文)47域算术:环境变化下的一次性VLA适配
7月1日周三
09:08Hacker News 热门(buzzing.cc 中文翻译)68Meta AI 发布 Brain2Qwerty v2:无需手术的脑电波解码系统
02:19Simon Willison 博客50AI指南针
6月30日周二
16:38The Decoder:AI News(RSS)67Deepseek发布DSpark推理框架,AI响应速度最高提升85%
13:02IT之家(RSS)48920 亿参数,华为 openPangu-2.0-Flash 模型正式开源上线
03:29MarkTechPost(RSS)61NVIDIA BioNeMo Agent Toolkit 将生物分子模型封装为 AI 智能体可调用的技能
01:17Simon Willison 博客67Ornith-1.0:用于自主编程的自构建大语言模型
6月29日周一
22:35Hacker News 热门(buzzing.cc 中文翻译)71精选Herdr:驻留在终端中的AI智能体多路复用器
18:58MarkTechPost(RSS)74精选EverOS:开源Markdown优先智能体记忆运行时,支持混合检索与自进化技能
13:50公众号:卡尔的AI沃茨67开源Bugu - 防止合盖休眠的macOS菜单栏应用
08:00HuggingFace Daily Papers(社区热门论文)50MatMMExtract:面向材料科学的大规模多模态数据集MatSciFig
01:03Hacker News 热门(buzzing.cc 中文翻译)75精选Wayfinder Router:在本地和托管的大语言模型之间进行确定性查询路由
6月28日周日
12:03Hacker News 热门(buzzing.cc 中文翻译)72精选阿德拉菲尼尔:仅在AI agent工作时阻止Mac睡眠的菜单栏工具
12:00IT之家(RSS)61M-Robots OS 完整捐献至开放原子开源基金会
6月27日周六
15:59IT之家(RSS)66DeepSeek 联合北大发布 DSpark 推理加速框架,速度提升 60% 至 85%
08:00HuggingFace Daily Papers(社区热门论文)52Agentic Abstention:大语言模型智能体何时应停止行动
01:32Hacker News 热门(buzzing.cc 中文翻译)55脑部超声成像
6月26日周五
18:59IT之家(RSS)60微博发布开源CLI工具weibo-cli:面向开发者与AI Agent,封装70余API
06:01Hacker News 热门(buzzing.cc 中文翻译)61Show HN: OpenKnowledge--Obsidian/Notion 的开源替代方案
01:34MarkTechPost(RSS)66DeepReinforce 发布 Ornith-1.0 开源编码模型族
6月25日周四
08:08Simon Willison 博客69browser-compat-db:将 MDN 浏览器兼容性数据转为 SQLite 数据库
04:29Hacker News 热门(buzzing.cc 中文翻译)61AI编码智能体导致OpenClaw项目PR泛滥:合并率从48%暴跌至9.3%
00:15Hugging Face:Blog(RSS)66精选NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调
6月24日周三
17:44IT之家(RSS)64OpenAI 开源 Plant Talk:让室内植物通过 ChatGPT 拥有"声音"
11:55HuggingFace Daily Papers(社区热门论文)49EDV:逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架
06:12HuggingFace Daily Papers(社区热门论文)69TROPT:统一与推进离散文本优化的开源框架
6月23日周二
21:56Hacker News 热门(buzzing.cc 中文翻译)70精选无限制OCR:单次长时域解析
16:12Hugging Face:Blog(RSS)67精选huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环
15:41MarkTechPost(RSS)49Prime Intellect 发布 prime-rl 0.6.0,用于万亿参数 MoE 模型的智能体强化学习训练
13:13HuggingFace Daily Papers(社区热门论文)50CLI-Universe:面向终端智能体的可验证任务合成引擎
01:04TechCrunch:AI(RSS)62SpaceX与开源AI实验室Reflection AI签署算力协议
6月22日周一
15:38Hacker News 热门(buzzing.cc 中文翻译)69Recall:Claude Code 的本地项目记忆工具
15:37MarkTechPost(RSS)60MoonMath AI 开源 AMD MI300X 注意力核,全面超越 AITER v3
08:00HuggingFace Daily Papers(社区热门论文)48AOHP:面向个性化、高效与安全交互的开源操作系统级智能体框架
6月20日周六
17:25MarkTechPost(RSS)68如何使用TimeCopilot构建预测流水线:基础模型与自动异常检测
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
05:08
MarkTechPost(RSS)
精选70
阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控

阿里巴巴发布 Page Agent,一个开源的 JavaScript 客户端库,嵌入网页后可通过自然语言指令直接操作 DOM 元素。与 Playwright、Puppeteer 等外部浏览器自动化工具不同,Page Agent 不依赖截图或多模态模型,而是将实时 DOM 脱水压缩为 FlatDomTree 文本映射,让纯文本模型精准执行点击、表单填写等操作。它继承用户 cookies 和会话,无需独立后端,并支持任意 OpenAI 兼容端点的模型(示例使用 qwen3.5-plus)。项目采用 MIT 许可证,适合在自有应用内构建 AI 副驾、智能表单填充或无障碍控制等场景,但限于单页面范围,风险操作仍需服务端验证。

智能体开源/仓库部署/工程

推荐理由:Page Agent 把浏览器自动化从外部驱动变成页面内 JS,读 DOM 而非截图,让 SaaS 内的 AI 助手成本更低、更精准,适合自己产品内嵌 copilot 的团队。
7月2日
20:34
TechCrunch:AI(RSS)
58
用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频,引发隐私争议

内容创作者Ben Guez用开源AI智能体OpenClaw追踪世界杯赛果,触发Claude自动生成Instagram试播视频,配文“我无法相信{国家}输了……需要情感支持的{国家}女孩请私信我”,几天内获得超过100万次观看和200条私信。另一位用户Jeff Weisbein利用OpenClaw规划南佛罗里达约会地点。还有人用Claude自动编写分手消息。安全公司NanoClaw联合创始人Lazer Cohen警告,让AI智能体单方面控制账户存在隐私风险,强调需要人类参与审批。

智能体Anthropic开源/仓库教程/实践
19:14
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试

Senior SWE-Bench是一个开源基准测试,用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类:功能任务指令类似自然语言消息,采用验证智能体基于专家配方自动生成行为测试;Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示,Claude Opus 4.8搭配Mini-SWE-Agent(max effort)通过率24.0%,Claude Sonnet 5为19.4%,GPT-5.5为16.0%,最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件,最强智能体也需数百步完成;中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR,由拥有数百次提交的工程师编写。

开源/仓库编码评测/基准

推荐理由:这个新基准把 AI 编程代理的评估拉到了更真实的复杂度,顶尖模型也只有不到四分之一的成功率,做 coding agent 的都该拿它测一测,它会比 SWE-bench 更挑出工程师的“手感”。
17:06
MarkTechPost(RSS)
精选72
Google Health API 推出 CLI:ghealth 是一款针对 Fitbit 数据的开源工具

ghealth 是一款封装 Google Health API v4 的开源命令行工具,以单个 Go 二进制文件发布(Apache 2.0 协议)。它提供 40 种已验证的数据类型(包括步数、心率、睡眠、体重、血氧饱和度、心率变异性等)的结构化 JSON 输出。工具采用 Agent 优先设计,具备确定性退出码、--dry-run 和 --raw 标志,并附带两个 SKILL.md 文件供 AI 智能体使用。用户需自行创建 OAuth 凭据,通过 PKCE S256 认证。数据来源覆盖 Fitbit、Pixel Watch 及连接的第三方设备。

GoogleMCP/工具开源/仓库数据/训练

推荐理由:把 Google Health API 封装成终端和 AI 代理友好的 CLI,一次性解决了认证、JSON 输出和分页这些烦人细节,想用 Fitbit 数据做健康分析或喂给代理的人可以直接上手,但它的影响仅限于个人健康数据爱好者这个小圈层。
12:04
IT之家(RSS)
51
知名GPU架构师Raja Koduri创立的OXMIQ Labs完成3500万美元A轮融资

由知名GPU架构师Raja Koduri创立的芯片IP企业OXMIQ Labs宣布完成3500万美元A轮融资,由Fundomo和Samsung Catalyst Fund领投,联发科、英特尔资本、和鼎创投、雷蛇等跟投,累计融资6000万美元。其核心IP OxCore集成标量、矢量、张量单元,专为近内存计算设计,已完成FPGA原型并开放授权。配套软件OxCapsule和OxPython支持现有CUDA/PyTorch代码直接运行,优化大规模推理。

开源/仓库行业动态
11:28
HuggingFace Daily Papers(社区热门论文)
47
域算术:环境变化下的一次性VLA适配

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换(如从Panda换为UR5e)时通常无法完成已学任务。传统适配需为每个任务收集多次演示,成本高昂。DART(Domain ARiThmetic)提出基于类比推理的方法,通过权重向量算术添加特定领域信息,仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中,DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXivGitHub具身智能开源/仓库
7月1日
09:08
Hacker News 热门(buzzing.cc 中文翻译)
68
Meta AI 发布 Brain2Qwerty v2:无需手术的脑电波解码系统

Meta AI 推出 Brain2Qwerty v2,一种无需手术植入即可实时从脑电波解码句子的非侵入式系统。基于脑磁图(MEG)设备记录 9 名志愿者各 10 小时的打字脑活动,训练约 22,000 个句子,采用端到端深度学习并微调大语言模型。词准确率达 61%,最佳参与者达 78%,远超其他非侵入方法的 8%。解码精度随数据量对数线性提升,有望进一步缩小与手术方法的差距。Meta 已开源 v1 和 v2 训练代码,合作方 BCBL 开放 v1 数据集。

Meta开源/仓库数据/训练论文/研究
02:19
Simon Willison 博客
50
AI指南针

一个名为“AI指南针”的政治指南针风格测验通过29道关于AI和AI伦理的是非题,将参与者匹配到30种原型之一。作者本人在首次回答后被归类为“The Garage Tinkerer”。该测验以单页React应用实现,利用<script type="text/babel">脚本标签绕过构建步骤。

其他大佬观点开源/仓库
6月30日
16:38
The Decoder:AI News(RSS)
67
Deepseek发布DSpark推理框架,AI响应速度最高提升85%

Deepseek推出DSpark推理框架,采用推测解码技术,由小模型生成候选答案、大模型批量验证,并一次生成多个token而非单个,使每用户响应速度提升60–85%。系统基于置信度动态调整验证深度,减少无效计算。DSpark与Deepseek-V4-Pro模型(与北京大学联合开发)已在HuggingFace和GitHub以MIT许可证开源。高效推理降低对高端芯片需求,有助于中国与欧盟在芯片受限下获取更多AI性能,短期构成战略优势。

DeepSeek开源/仓库开源生态推理
13:02
IT之家(RSS)
48
920 亿参数,华为 openPangu-2.0-Flash 模型正式开源上线

华为 openPangu-2.0-Flash 模型(总参数量 92B,激活参数量 6B)于 6 月 30 日正式开源上线,支持 512K 上下文。该模型为 openPangu 2.0 系列的两个版本之一,另一版本 Pro(505B 总参数,18B 激活参数)计划 7 月开源。openPangu 2.0 将从 6 月 30 日起陆续开源 7 大组件,包括模型权重、基础推理代码、训推算子等。

开源/仓库开源生态模型发布
03:29
MarkTechPost(RSS)
61
NVIDIA BioNeMo Agent Toolkit 将生物分子模型封装为 AI 智能体可调用的技能

NVIDIA 发布开源 BioNeMo Agent Toolkit,将蛋白质折叠(OpenFold3、Boltz‑2)、分子对接(DiffDock)、生成化学(GenMol)、序列设计(ProteinMPNN)、MSA 搜索、RFdiffusion 及基因组学模型(Evo 2)等封装为标准化 agent skill。每个 skill 包含 SKILL.md 说明文档,支持 MCP 服务器包装,可通过 npx skills add 安装至 Claude Code 等 agent。测试显示:接入技能后任务完成率从 57.1% 升至 100%,每千 token 通过断言数提升 2 倍。用户可选择托管 NIM 端点或本地 NIM 部署。

智能体产品更新开源/仓库
01:17
Simon Willison 博客
67
Ornith-1.0:用于自主编程的自构建大语言模型

DeepReinforce 发布首个开源模型 Ornith-1.0(MIT 许可),提供 9B、31B、35B MoE 及 397B MoE 四种规模变体,基于预训练的 Gemma 4 和 Qwen 3.5 构建,在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版(20GB),实测推理速度 103 tokens/秒,实际代码检索和工具调用任务表现流畅。

智能体开源/仓库模型发布编码
6月29日
22:35
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Herdr:驻留在终端中的AI智能体多路复用器

Herdr是一个驻留在终端中的AI智能体多路复用器,允许用户在单一终端界面内管理和切换多个AI智能体会话。

智能体GitHubMCP/工具开源/仓库

推荐理由:这个工具把 AI 代理管理塞进终端,比开一堆浏览器标签自然,对命令行重度用户是个值得一试的 early idea。
18:58
MarkTechPost(RSS)
精选74
EverOS:开源Markdown优先智能体记忆运行时,支持混合检索与自进化技能

EverMind 推出开源智能体记忆运行时 EverOS(Apache 2.0 许可)。它以可编辑的 Markdown 文件为记忆主体,经 SQLite 管理状态、LanceDB 实现混合检索(BM25 关键词 + 向量搜索 + 标量过滤)。每个完成的任务记录为 Case,离线提炼为可复用的 Skill,使记忆随使用自我进化。v1.1.0 新增 Knowledge APIs(支持分类与话题搜索的 Markdown 页面)和 Reflection(跨会话优化 Profile 和 Skill)。据 EverMind 报告,LoCoMo 得分 93.05%,LongMemEval 83.00%,HaluMem 93.04%,p95 检索延迟低于 500ms。运行时可本地优先部署,也提供 EverOS Cloud 托管选项,兼容 OpenAI 协议端点。

智能体MCP/工具开源/仓库

推荐理由:EverOS把Agent记忆从沉重的向量数据库堆栈中解放出来,Markdown源真和自进化技能让本地开发更轻便,但基准全由团队自报,上手前最好自己测一下。
13:50
公众号:卡尔的AI沃茨
67
开源Bugu - 防止合盖休眠的macOS菜单栏应用

Bugu(布谷)是一款macOS菜单栏应用,防止合盖后电脑休眠,通过心跳音效提示Agent的五个状态:接收任务(Accept)、运行中(Running)、成功(Done)、中断(Interrupted)和授权(Permission)。支持跳转到具体对话界面。由作者使用Codex和Kimi Code K2.7 Code Highspeed联合开发,Kimi Code在中等编码任务中达180 token/s,短上下文任务260 token/s,速度提升6倍,可导入Claude Code和Codex的skill及MCP。项目已在GitHub开源。

智能体开源/仓库编码
08:00
HuggingFace Daily Papers(社区热门论文)
50
MatMMExtract:面向材料科学的大规模多模态数据集MatSciFig

MatMMExtract 是一个端到端开源管道,将复合图表分解为独立子面板,并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章,从 180,571 张图中生成 MatSciFig 数据集,包含 391,606 个面板级图像-文本对,每对配有子标题、两级可视化类别(19 个大类、100+ 子类)和科学摘要。引入 MaterialScope 检测数据集(2,811 张人工标注图),微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中,Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡,82% 输出良好,模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍,所有资源已向社区开放。

多模态开源/仓库数据/训练论文/研究
01:03
Hacker News 热门(buzzing.cc 中文翻译)
精选75
Wayfinder Router:在本地和托管的大语言模型之间进行确定性查询路由

Wayfinder Router 通过分析提示词的结构(长度、标题、列表、代码)和措辞(证明、数学、硬约束),在微秒级完成路由决策,完全离线且无需调用其他模型。默认仅使用结构特征,词汇线索因盲测未泛化而默认为关闭。对比依赖模型调用的路由器(如 RouteLLM、NotDiamond),它避免了延迟、成本和随机性。用户可在自有数据上校准评分阈值。支持任何 OpenAI 兼容 API(含 Ollama、Anthropic、Groq、vLLM 等),可自托管。提供终端和网页演示(--dry-run 无需密钥),以及基准测试和 FAQ。

开源/仓库部署/工程

推荐理由:Wayfinder Router 把 prompt 路由变成了离线文本分析,无需额外模型调用,对希望节省成本同时保持私密的开发者很实用,比现有方案更轻量和确定,但纯语义难题仍是短板。
6月28日
12:03
Hacker News 热门(buzzing.cc 中文翻译)
精选72
阿德拉菲尼尔:仅在AI agent工作时阻止Mac睡眠的菜单栏工具

Adrafinil 是一款 macOS 菜单栏应用,仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠(包括合盖睡眠)。无 agent 工作时,合盖后 Mac 正常睡眠。它通过各 agent 的钩子系统调用 CLI,往返延迟低于 50ms,支持引用计数断言、热切出(温度阈值强制释放)、空闲释放及进程嗅探。需要 macOS Tahoe 26.4,Xcode 26+ 构建,以签名公证的磁盘映像提供。

智能体开源/仓库编码

推荐理由:阿德拉菲尼尔对macOS唤醒工具做了一次有趣的重新思考,不是一直醒着,而是只在AI代理工作时醒着,合盖也能跑长任务,对用Claude Code或Cursor的开发者是实用的开源伴侣。
12:00
IT之家(RSS)
61
M-Robots OS 完整捐献至开放原子开源基金会

深圳开鸿数字产业发展有限公司 CEO 王成录宣布,全国首个开源鸿蒙机器人操作系统 M-Robots OS 正式完整捐献至开放原子开源基金会,专属一级根社区同步启动运营。该系统 1.0 版本于 2025 年 4 月发布,今年 5 月升级至 2.0 版本。2.0 版本具备积木式框架、混合部署、自研 M-DDS 分布式通信、硬件能力及算法共享、AI 原生及中间件生态兼容等核心能力,其中本体间音视频时延低至 4 毫秒,应用迁移成本降低 80%。

具身智能开源/仓库部署/工程
6月27日
15:59
IT之家(RSS)
66
DeepSeek 联合北大发布 DSpark 推理加速框架,速度提升 60% 至 85%

DeepSeek 联合北京大学发布 DSpark 推理加速框架,已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版。DSpark 采用半自回归架构与置信度调度验证机制,在同等吞吐量下将单用户生成速度提升 60% 至 85%。在 Qwen3 系列和 Gemma4-12B 的离线测试中,DSpark 平均每轮接受长度优于 Eagle3 和 DFlash。生产环境下,V4-Flash 引擎在 80 token/s SLA 下吞吐量提升 51%,120 token/s 时提升 661%。相关论文、训练代码已在 GitHub 开源。

DeepSeek开源/仓库推理部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
52
Agentic Abstention:大语言模型智能体何时应停止行动

研究定义Agentic Abstention问题,即智能体在不确定环境下应判断何时停止行动。在网页购物、终端环境、问答等任务上评估13个LLM智能体系统和2个智能体框架对28,000+任务的表现。结果显示关键挑战在于停止时机:部分从不停止,部分在大量冗余交互后才停止。提出CONVOLVE上下文工程方法,将完整交互轨迹蒸馏为可复用停止规则,在WebShop上将Llama-3.3-70B的及时召回率从26.7%提升至57.4%。数据集与代码已开源。

智能体开源/仓库推理论文/研究
01:32
Hacker News 热门(buzzing.cc 中文翻译)
55
脑部超声成像

一支研究团队通过完整颅骨对活人脑部进行超分辨率超声成像,获得了迄今最详细的脑血管三维图像。该技术利用FDA批准的微泡造影剂实现超衍射极限定位,体积分辨率比CT高100倍。团队已开源完整处理流程和数据集。下一步目标是无需造影剂的神经血管成像,依靠硬件小型化和端到端机器学习从每小时TB级原始数据中提取更多信号。

开源/仓库开源生态端侧
6月26日
18:59
IT之家(RSS)
60
微博发布开源CLI工具weibo-cli:面向开发者与AI Agent,封装70余API

微博开放平台6月22日上线官方命令行工具weibo-cli,专为开发者和AI Agent设计。基于Node.js 18+,封装70余个API,命令采用<group> <action>结构,输出支持JSON、YAML、表格和原始格式,原生支持MCP协议。功能涵盖内容发布、互动管理、检索、热搜趋势、粉丝画像等。采用订阅制计费:Free(7天试用,每小时5次)、Basic 29元/月(3000 Credits)、Plus 69元/月(7500)、Pro 299元/月(32000)、Ultra 899元/月(100000)。以MIT协议在npm发布,每周下载约300次。

MCP/工具产品更新开源/仓库
06:01
Hacker News 热门(buzzing.cc 中文翻译)
61
Show HN: OpenKnowledge--Obsidian/Notion 的开源替代方案

OpenKnowledge 是一款开源、AI 优先的笔记与知识管理工具,可作为 Obsidian 和 Notion 的替代方案。项目代码托管在 GitHub 上。

GitHub开源/仓库开源生态
01:34
MarkTechPost(RSS)
66
DeepReinforce 发布 Ornith-1.0 开源编码模型族

DeepReinforce 发布 Ornith-1.0 开源编码模型族,基于 Gemma 4 和 Qwen 3.5 后训练,提供 9B、31B、35B-MoE(每 token 激活约 3B 参数)和 397B-MoE 四个尺寸,均以 MIT 许可在 HuggingFace 开放。与固定人工设计框架的编码智能体不同,Ornith-1.0 在强化学习中联合优化框架与解决方案,并引入三层防御(固定信任边界、确定性监视器、冻结 LLM 裁判)防止奖励黑客。旗舰版 Ornith-1.0-397B 在 Terminal-Bench 2.1 上得分 77.5、在 SWE-Bench Verified 上得分 82.4,超越 Claude Opus 4.7(70.3)但低于 Claude Opus 4.8(85)和 GLM-5.2-744B(81.0)。支持 vLLM、SGLang 等推理框架,9B 模型(bf16 约 19GB)可部署在单张 80GB GPU 上。

智能体开源/仓库模型发布编码
6月25日
08:08
Simon Willison 博客
69
browser-compat-db:将 MDN 浏览器兼容性数据转为 SQLite 数据库

Simon Willison 受 Mozilla 新 MDN MCP 服务启发,将 mdn/browser-compat-data 的浏览器兼容性数据转为 SQLite 数据库。他用 Claude Code for web (Opus 4.8) 生成基于 sqlite-utils 的转换脚本,再用 Codex Desktop (GPT-5.5) 编写 GitHub Actions 工作流,将约 66MB 数据库 force-push 到仓库的 db 孤立分支,使其可通过 GitHub CDN 访问并附带开放 CORS 头。用户可直接下载或通过 Datasette Lite 在线探索。

GitHubMCP/工具开源/仓库部署/工程
04:29
Hacker News 热门(buzzing.cc 中文翻译)
61
AI编码智能体导致OpenClaw项目PR泛滥:合并率从48%暴跌至9.3%

Greptile观察OpenClaw项目发现,AI编码智能体正大量生成低质量PR。提交量从去年12月每周2个飙升至今年2月每周3400个,合并率从约48%降至9.3%以下。一名贡献者一天内提交106个PR,中位间隔仅3秒。项目开始依据贡献者信誉过滤:首次贡献者合并率8.2%,5次以上为18.6%。Ghostty作者Mitchell Hashimoto因此限制AI贡献并发布信誉管理工具Vouch。此外,多个贡献者使用相同AI工具(Claude/Codex/Cursor/Devin)独立提交相同功能PR,导致思路同质化。数据显示重构类PR合并率35%,远高于新功能类的9%,表明对代码库深度理解更重要。

开源/仓库开源生态现象/趋势
00:15
Hugging Face:Blog(RSS)
精选66
NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调

NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库,添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中,相比原生 v5,训练吞吐量提升 3.4–3.7 倍,GPU 内存减少 29–32%,仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时,v5 因内存不足无法运行,而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型(如 Qwen3-30B-A3B)同样获得可量化的性能优势。

开源/仓库教程/实践数据/训练

推荐理由:英伟达的 NeMo AutoModel 把 MoE 模型微调速度提高了三倍多,内存省了近三分之一,代码只需改一行 import,做训练的可以立刻升级。
6月24日
17:44
IT之家(RSS)
64
OpenAI 开源 Plant Talk:让室内植物通过 ChatGPT 拥有"声音"

OpenAI 在 GitHub 开源 Plant Talk 项目,通过 Codex Desktop 连接 ChatGPT,让室内植物具备语音能力。用户可与植物语音交流,如询问“最近怎么样?”“需要浇水吗?”等。系统支持 Arduino、土壤湿度传感器、LM393 光照传感器获取环境数据,还可连接二氧化碳传感器、空气湿度传感器。用户可创建不同植物人格,如高冷仙人掌、话痨绿萝、吐槽多肉。搭建需配备麦克风、摄像头、扬声器的电脑及 OpenAI 账户。

OpenAI开源/仓库语音
11:55
HuggingFace Daily Papers(社区热门论文)
49
EDV:逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

大语言模型智能体在开放世界交互中自我进化时,单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功,导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段:多异构智能体并行探索产生多样化轨迹;第三方智能体对比分析减少归纳偏差;执行组通过共识机制验证候选经验,仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上,EDV 持续超越强基线,验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。

智能体Hugging Face开源/仓库论文/研究
06:12
HuggingFace Daily Papers(社区热门论文)
69
TROPT:统一与推进离散文本优化的开源框架

TROPT 是首个开源框架,通过统一接口标准化离散优化器的执行与开发。它支持灵活替换模型、目标和优化器,定制端到端优化配方。框架内置30余个优化配方(覆盖LLM越狱、模型内部探测等),由15余个优化器(白盒到黑盒)和15余个损失函数组合而成。通过大规模对比实验验证了LLM越狱优化策略改进,并将优化器从越狱场景移植至语料投毒嵌入模型等领域,显著降低了离散文本优化的使用门槛。

arXiv安全/对齐开源/仓库
6月23日
21:56
Hacker News 热门(buzzing.cc 中文翻译)
精选70
无限制OCR:单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),旨在一次性处理长时间跨度的 OCR 任务。

多模态开源/仓库
关联讨论 1 条MarkTechPost(RSS)
推荐理由:百度把能处理超长文档的 OCR 系统开源了,宣称一次推理搞定整份文件,做发票、合同、档案数字化的可以马上跑起来试试。
16:12
Hugging Face:Blog(RSS)
精选67
huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 把周更流程完全开源,用 GLM-5.2 生成发布说明初稿,再加确定性校验和人工修订,成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。
15:41
MarkTechPost(RSS)
49
Prime Intellect 发布 prime-rl 0.6.0,用于万亿参数 MoE 模型的智能体强化学习训练

prime-rl 0.6.0 是一个开源异步强化学习框架,针对万亿参数 MoE 模型,聚焦长周期智能体任务(如软件工程)。研究团队在 GLM-5 上训练 SWE 任务,序列长度达 131k,步时间低于5分钟,batch size 256,仅用28个H200节点。推理优化包括 FP8(DeepEP、DeepGEMM 内核)、宽专家并行(≥32 GPU)、前填充与解码分离、KV 缓存分层卸载(vLLM 原生或 Mooncake Store)以及路由重放(R3,降低 KL 不匹配约一个量级)。训练基于 torchtitan,采用3D并行(FSDP2、上下文并行、专家并行)和块缩放 FP8(由 DeepSeek V3 提出),以匹配推理精度并稳定训练。

智能体开源/仓库部署/工程
13:13
HuggingFace Daily Papers(社区热门论文)
50
CLI-Universe:面向终端智能体的可验证任务合成引擎

CLI-Universe是一个原则性合成引擎,通过多维能力分类树采样并基于真实技术材料进行证据引导深度研究,生成候选终端智能体任务。候选任务经Docker实例化后,通过rubric-gated测试构造、hint-conditional过滤和严格fail-to-pass检查等多阶段可执行验证流水线,约三分之二的候选被丢弃,仅保留真实、可验证且有难度的任务。基于此构建的6,000条轨迹数据集CLI-Universe-6K,微调Qwen3-32B后在Terminal-Bench 2.0上达到33.4%准确率,创下开源数据训练的32B及以下参数模型新SOTA,并超越多个参数规模大一个数量级的模型。

智能体开源/仓库数据/训练论文/研究
01:04
TechCrunch:AI(RSS)
62
SpaceX与开源AI实验室Reflection AI签署算力协议

开源AI初创公司Reflection AI宣布与SpaceX签署价值高达63亿美元的算力协议。自2026年7月1日起至2029年,Reflection每月支付1.5亿美元,获得SpaceX在田纳西州孟菲斯附近Colossus 2数据中心的Nvidia GB300芯片使用权。合同首三个月后任一方可提前90天解约。该交易规模小于SpaceX与Anthropic(每月12.5亿美元)及Google(每月9.2亿美元)的合同。Reflection由两位前Google DeepMind研究员于2024年创立,主打开放权重模型策略,称该交易是迄今最大的公开开放AI基础设施承诺之一。

开源/仓库行业动态
6月22日
15:38
Hacker News 热门(buzzing.cc 中文翻译)
69
Recall:Claude Code 的本地项目记忆工具

Recall 是为 Claude Code 设计的完全本地项目记忆工具。它自动记录每次会话日志(history.md),并通过 TF‑IDF + TextRank 提取式摘要算法在本地生成压缩摘要(context.md,约 1–2K token),无需调用任何外部模型或 API 密钥。摘要完全在本地完成,不消耗 Claude Code 的模型 token,可离线使用,解决会话冷启动问题。用户可通过 /recall:save 和 /recall:show 命令管理记忆,与 Claude 内置的 CLAUDE.md 和 --continue 功能互补。

开源/仓库编码
15:37
MarkTechPost(RSS)
60
MoonMath AI 开源 AMD MI300X 注意力核,全面超越 AITER v3

MoonMath AI 团队开源了一款 bf16 前向注意力核,专为 AMD MI300X(gfx942)设计,使用 HIP 编写,MIT 许可。该核在所有测试形状和三种舍入模式下均超越 AMD 官方 AITER v3:几何平均加速比 1.18×(RTNE)、1.15×(RTNA)、1.08×(RTZ),最高单形状 1.26×。性能提升来自单指令 asm 包装和内存布局优化——K 置于 LDS,V 常驻 L1,Q 和累加器保持在寄存器。该核已通过 SGLang PR 将 Wan2.1 视频扩散模型推理速度提升 1.23 倍,质量无损。当前仅支持 bf16、头维度固定 128,无因果掩码、GQA 或变长批处理。

开源/仓库部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
48
AOHP:面向个性化、高效与安全交互的开源操作系统级智能体框架

AOHP(Android Open Harness Project)基于Android开源项目(AOSP)构建,将AI智能体视为操作系统的一等角色,提供自适应UI和智能体友好运行时环境,同时保留安卓软硬件生态。系统引入三种智能体导向机制:个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中,AOHP的任务完成率提升21.12%,token成本降低51.55%,并满足安全策略合规要求。

智能体开源/仓库论文/研究部署/工程
6月20日
17:25
MarkTechPost(RSS)
68
如何使用TimeCopilot构建预测流水线:基础模型与自动异常检测

本教程使用TimeCopilot构建端到端预测工作流。安装TimeCopilot等库后,加载AirPassengers数据集及合成季节序列(注入三处异常)。配置统计模型(AutoARIMA、AutoETS、SeasonalNaive、Theta)、Prophet和基础模型(Chronos,根据GPU选用amazon/chronos-bolt-small或tiny,可选TimesFM)。通过滚动交叉验证和RMSE等指标评选最优模型,生成概率预测与预测区间,可视化未来趋势并检测异常值。可选LLM智能体自动选择模型并输出分析响应。

开源/仓库教程/实践数据/训练
‹ 上一页
123…12
下一页 ›