AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 470 条
全部一手资讯X论文
标签「开源/仓库」清除
6月2日周二
09:58公众号:数字生命卡兹克71精选基于 Codex 的开源 AI 技能"清理垃圾.skill":自动扫描电脑生成 HTML 报告,一键清理垃圾
08:00HuggingFace Daily Papers(社区热门论文)64免训练多概念LoRA组合:提示词感知加权策略
01:10MarkTechPost(RSS)47了解Memory OS:构建在Hermes Agent之上的六层开源记忆栈
6月1日周一
21:35The Decoder:AI News(RSS)69Nvidia在GTC台北大会押注物理AI:发布新世界模型、驾驶大脑及开源人形机器人
11:39MiniMax:Blog(网页)83精选MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
08:28Hacker News 热门(buzzing.cc 中文翻译)58奥德修斯--自主托管的 AI 工作区
08:00HuggingFace Daily Papers(社区热门论文)57FiRe-OPD:先过滤,再重加权--重新思考在线策略蒸馏的优化粒度
03:46Claude Code:GitHub Releases(RSS)16v2.1.159
02:16Hacker News 热门(buzzing.cc 中文翻译)72精选本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布
5月31日周日
14:38HuggingFace Daily Papers(社区热门论文)55解耦残差去噪扩散模型实现统一高效图像到图像翻译
10:19MarkTechPost(RSS)60Trajectory 发布面向持续学习的并发多 LoRA 训练栈,报告实验吞吐量提升 2.81 倍
01:43Simon Willison 博客67Markdown SVG 渲染器
5月30日周六
11:41Hacker News 热门(buzzing.cc 中文翻译)61Show HN: Tiny-vLLM--基于 C 和 CUDA 的高性能大型语言模型推理引擎
11:18MarkTechPost(RSS)52Hermes Agent 为 MCP 推出工具搜索功能:Anthropic 评测显示 Opus 4 准确率提升 49% 至 74%
5月29日周五
16:48MarkTechPost(RSS)65介绍 mKernel:一个用于 GPU 驱动通信的多 GPU、多节点融合内核库
15:48MarkTechPost(RSS)63Hexo Labs 开源 SIA:一个自我改进的智能体,可同时更新框架与模型权重
11:35公众号:面壁智能(MiniCPM)61精选面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据
11:29HuggingFace Daily Papers(社区热门论文)62AgentDoG 1.5:一个轻量级且可扩展的AI智能体安全与安保对齐框架
09:21IT之家(RSS)64华为鸿蒙开源 SGL 高性能 GPU 加速框架,开发者三行代码即可调用 GPU 滤镜
08:41Simon Willison 博客72精选llm-anthropic 0.25.1
08:00HuggingFace Daily Papers(社区热门论文)62Mellum2 技术报告
5月28日周四
23:29HuggingFace Daily Papers(社区热门论文)56通过可形变物体先验实现相机空间中的类别级3D对应关系
22:07公众号:腾讯混元58Hy-Memory 发布:为 Openclaw 打造的记忆插件
18:47Mistral AI:News(网页)55精选塑造产业的物理AI研究
17:12MarkTechPost(RSS)67Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍
11:28HuggingFace Daily Papers(社区热门论文)65基于双向进化搜索的大语言模型自我改进方法
11:15IT之家(RSS)73精选英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%
10:28HuggingFace Daily Papers(社区热门论文)65从像素到词语--迈向规模化原生One-Vision模型
08:00HuggingFace Daily Papers(社区热门论文)53通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语
08:00HuggingFace Daily Papers(社区热门论文)51通过测试时训练线性化Vision Transformer
5月27日周三
15:37MarkTechPost(RSS)67认识 EAGLE 3.1:修复 LLM 推理中注意力偏移的投机解码算法
12:13IT之家(RSS)75同事件精选AI 制造 AI:面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》
11:35公众号:面壁智能(MiniCPM)64精选AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain
11:13IT之家(RSS)49Hugging Face 推出双足机器人:开源、低成本、3D 打印
04:07Ars Technica:AI(RSS)64开源软件包 Starlette 中的关键漏洞威胁数百万 AI 智能体
5月26日周二
20:13IT之家(RSS)51小米集团2026年第一季度财报发布
16:06MarkTechPost(RSS)68介绍 OmniVoice Studio:本地开源的 ElevenLabs 替代方案
14:11IT之家(RSS)77精选"龙虾之父"Peter 开源 skill-cleaner,为 AI 智能体技能"做体检"
12:11IT之家(RSS)60约 1000 行代码搭起网页 AI 智能体:微软 Webwright 让 GPT-5.4 跑分提升 81%
11:56公众号:通义实验室(千问)57通义实验室发布 AgentScope 2.0,从透明开发转向系统工程
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
09:58
公众号:数字生命卡兹克
精选71
基于 Codex 的开源 AI 技能"清理垃圾.skill":自动扫描电脑生成 HTML 报告,一键清理垃圾

作者基于 Codex 创建并开源了“清理垃圾.skill”,可对 Mac 和 Windows 电脑进行只读扫描,自动生成可交互的 HTML 报告,将文件按优先级分为绿灯(可自动清理)、黄灯(建议手动)、红灯(跳过)。在作者的 MacBook Air 上扫出近 120 GB 垃圾,其中 96.7 GB 为 B 站离线缓存视频,而 CleanMyMac 仅检出 15.8 GB。用户可在网页上逐项或一键清理,全程需二次确认,项目已开源至 GitHub。

智能体GitHub开源/仓库
关联讨论 1 条X:卡兹克 (@Khazix0918)
推荐理由:卡兹克这个开源skill直接用Agent清理电脑垃圾,比CleanMyMac更透明、可定制,而且马上就能用,是AI冲击工具软件的活案例。
08:00
HuggingFace Daily Papers(社区热门论文)
64
免训练多概念LoRA组合:提示词感知加权策略

LoRA可个性化文生图模型,但多概念组合时直接叠加会干扰概念,降低质量与保真度。本文提出免训练方法,通过W-Switch与W-Composite两种策略,根据目标提示词中触发token的语义重要性对每个LoRA模块输出加权组合,实现多概念自定义。同时提出基于真实参考图像与自动分割概念区域的图像相似度评估框架。在ComposLoRA测试集上,该方法在视觉质量、身份保持和组合性上一致超越现有方法。LLM评估与用户研究验证有效性。代码已开源。

图像生成多模态开源/仓库论文/研究
01:10
MarkTechPost(RSS)
47
了解Memory OS:构建在Hermes Agent之上的六层开源记忆栈

Memory OS是一个开源项目,它通过一个六层结构为Hermes Agent添加了本地持久记忆功能。该记忆栈包含门控检索机制和一个wiki系统,旨在增强智能体的记忆能力。

智能体检索增强开源/仓库
6月1日
21:35
The Decoder:AI News(RSS)
69
Nvidia在GTC台北大会押注物理AI:发布新世界模型、驾驶大脑及开源人形机器人

Nvidia在GTC台北大会上发布了一系列面向机器人、自动驾驶和视频系统的模型。核心发布包括升级版世界模型Cosmos 3、显著扩展规模的驾驶模型Alpamayo 2 Super,以及一个开源的人形机器人参考平台。这些产品共同推进了其在物理AI领域的布局。

具身智能开源/仓库模型发布
11:39
MiniMax:Blog(网页)
精选83
MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型,具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口,并采用名为MSA(MiniMax Sparse Attention)的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20,预填充速度提升9倍以上,解码速度提升15倍以上。在SWE-Bench Pro编码基准上,MiniMax M3得分59.0%,超越GPT-5.5和Gemini 3.1 Pro,性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
推荐理由:MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上,还附带 1M 上下文和原生多模态,这是开源社区真正能打的前沿选项,做 Agent 的值得立刻跑一下。
08:28
Hacker News 热门(buzzing.cc 中文翻译)
58
奥德修斯--自主托管的 AI 工作区

奥德修斯是一个自主托管的 AI 工作区项目,其源代码已在 GitHub 上公开。

GitHub开源/仓库开源生态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
57
FiRe-OPD:先过滤,再重加权--重新思考在线策略蒸馏的优化粒度

FiRe-OPD(Filter, then Reweight)重新思考在线策略蒸馏的优化粒度,在轨迹和token两个层面联合调整监督信号。先过滤低质量轨迹,再对保留轨迹内的token进行软加权,避免硬选择带来的信息损失并提升优化稳定性。该方法在强到弱、单教师、多教师三种设置下均优于近期token级OPD方法:在AIME 2024上提升6.25分,在Miner上提升18.81分。代码已开源。

开源/仓库数据/训练论文/研究
03:46
Claude Code:GitHub Releases(RSS)
16
v2.1.159

v2.1.159 版本更新包含内部基础设施改进,未引入任何面向用户的功能变更。此次更新预计不会影响现有功能或用户接口。

Anthropic产品更新开源/仓库编码
02:16
Hacker News 热门(buzzing.cc 中文翻译)
精选72
本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型,其主要特点是面向本地设备进行优化,可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。

图像生成开源/仓库模型发布端侧

推荐理由:端侧图像生成终于进入可用阶段,把 4B 模型压到 iPhone 能跑而且性能保留 95%,做本地 AI 应用的产品人应该认真看一眼。
5月31日
14:38
HuggingFace Daily Papers(社区热门论文)
55
解耦残差去噪扩散模型实现统一高效图像到图像翻译

DRDD 模型将扩散过程解耦为两个独立阶段:先进行随机噪声扩散以实现领域协调和流形提升,再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力,显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练,极大提升了数据效率。理论与实验表明,DRDD 与主流扩散模型兼容,即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。

图像生成开源/仓库数据/训练论文/研究
10:19
MarkTechPost(RSS)
60
Trajectory 发布面向持续学习的并发多 LoRA 训练栈,报告实验吞吐量提升 2.81 倍

Trajectory 联合 UC Berkeley Sky Lab 和 Anyscale 发布了一个面向强化学习实验持续学习的并发多 LoRA 训练栈。该系统将每个 RL 实验映射到一个专属的 LoRA 适配器,并在常热引擎上运行,相比单租户基线,报告实现了 2.81 倍的端到端实验吞吐量提升,且没有奖励回归问题。代码已在 NovaSky-AI/SkyRL 开源。

开源/仓库数据/训练
01:43
Simon Willison 博客
67
Markdown SVG 渲染器

这是一款定制化的 Markdown 渲染工具,可对围栏代码中的 SVG 块进行特殊处理,既能渲染图像,也提供切换到代码视图的标签页。用户可直接粘贴 Markdown 内容,或提供一个 CORS 支持的 Markdown 文件或 Gist 的 URL。示例中加载了一个关于 Claude Opus 4.8 的 LLM 相关日志的 Markdown 文件。

图像生成开源/仓库
5月30日
11:41
Hacker News 热门(buzzing.cc 中文翻译)
61
Show HN: Tiny-vLLM--基于 C 和 CUDA 的高性能大型语言模型推理引擎

Tiny-vLLM 是一个用 C 和 CUDA 编写的高性能大语言模型推理引擎,项目代码已开源至 GitHub。

开源/仓库教程/实践部署/工程
11:18
MarkTechPost(RSS)
52
Hermes Agent 为 MCP 推出工具搜索功能:Anthropic 评测显示 Opus 4 准确率提升 49% 至 74%

Nous Research 的 Hermes Agent 为 MCP 添加了工具搜索功能,以解决上下文膨胀问题。该功能采用 BM25 渐进式模式披露机制。根据 Anthropic 的评测,在 Opus 4 模型上,此功能实现了 49% 到 74% 的准确率提升。

智能体AnthropicMCP/工具开源/仓库
5月29日
16:48
MarkTechPost(RSS)
65
介绍 mKernel:一个用于 GPU 驱动通信的多 GPU、多节点融合内核库

加州大学伯克利分校的 UCCL 团队发布了 mKernel,该工具将节点内 NVLink 通信、节点间 RDMA 通信以及密集计算融合成一个持久化 CUDA 内核。

开源/仓库数据/训练部署/工程
15:48
MarkTechPost(RSS)
63
Hexo Labs 开源 SIA:一个自我改进的智能体,可同时更新框架与模型权重

Hexo Labs 开源了 SIA,这是一个遵循 MIT 许可证的自我改进循环。其中的反馈智能体会读取每次执行的轨迹,然后重写运行框架或触发对 gpt-oss-120b 模型的 LoRA 权重更新。结合这两种调整方式,在 LawBench、TriMul GPU 内核以及 scRNA-seq 去噪任务上,效果均优于仅迭代框架。

智能体开源/仓库数据/训练
11:35
公众号:面壁智能(MiniCPM)
精选61
面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集:Ultra-FineWeb-L3(超600B Tokens,中文200B+,为当前最大中文预训练合成数据集)和UltraData-SFT-2605(国内首个千万级同时含深思考与非思考标注的SFT数据集)。两者基于UltraData数据分级治理体系构建,在MiniCPM5-1B训练流程中得到完全验证,覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace,免费开放。

Hugging Face开源/仓库数据/训练端侧
关联讨论 1 条X:面壁智能 OpenBMB (@OpenBMB)
推荐理由:填补了中文大规模合成数据空白,三年前还在用英文数据做中文模型的日子可以翻篇了,做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。
11:29
HuggingFace Daily Papers(社区热门论文)
62
AgentDoG 1.5:一个轻量级且可扩展的AI智能体安全与安保对齐框架

AgentDoG 1.5是一个针对Codex和OpenClaw等现代开放世界智能体安全风险的轻量级、可扩展对齐框架。它更新了智能体安全分类法,构建了数据引擎,仅用约1k样本训练出0.8B至8B参数的模型变体,性能与GPT-5.4等闭源模型相当。该框架还构建了高效的训练环境,大幅降低部署开销,并可作为在线护栏进行实时安全审核。实验表明其在复杂交互场景中达到先进水平,所有模型和数据集均已开源。

智能体安全/对齐开源/仓库论文/研究
09:21
IT之家(RSS)
64
华为鸿蒙开源 SGL 高性能 GPU 加速框架,开发者三行代码即可调用 GPU 滤镜

华为鸿蒙开源了高性能GPU加速框架 SimpleGPULayer(SGL),以简化图像处理、AI推理、2D/3D渲染等场景的GPU调用。开发者无需处理底层设备初始化、显存管理等复杂细节,仅需几行代码(如示例中的3行C++代码)即可接入GPU加速。该框架提供C API和NAPI接口,方便集成到鸿蒙应用中。其图像处理能力已在悟空图像等应用中落地使用。

开源/仓库端侧部署/工程
08:41
Simon Willison 博客
精选72
llm-anthropic 0.25.1

llm-anthropic 发布 0.25.1 版本。主要更新包括:新增 Claude Opus 4.8 (claude-opus-4.8) 模型;为账户启用了该功能的组织新增了 -o fast 1 选项以使用快速模式;调整了各模型的默认 max_tokens 值,使其直接使用模型的最大输出长度,而非固定的 8,192。

AnthropicGitHub产品更新开源/仓库

推荐理由:Simon 的 llm 插件第一时间支持了 Claude Opus 4.8,如果你用他的 CLI 工具切换模型,这次更新能让你马上用到新模型和 fast mode。
08:00
HuggingFace Daily Papers(社区热门论文)
62
Mellum2 技术报告

Mellum 2 是一个开源的 12B 参数 MoE 大语言模型,每个 token 有 2.5B 活跃参数,专注于软件工程任务,是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE,并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练,并通过 YaRN 扩展至 128K 上下文窗口,之后经过监督微调与 RLVR 后训练,发布了直答式(Instruct)和带推理链(Thinking)两个变体。在多项基准测试中,其性能可与 4B-14B 范围的开源模型竞争,而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。

开源/仓库推理模型发布编码
5月28日
23:29
HuggingFace Daily Papers(社区热门论文)
56
通过可形变物体先验实现相机空间中的类别级3D对应关系

为解决机器人与AR/VR领域中单张图像理解3D物体时语义粒度不足的问题,研究提出了通过学习共享的可形变物体先验,无需显式对应监督即可在相机空间中获得类别级3D对应。为此,团队引入了首个大规模基准测试HouseCorr3D,包含178k图像、50个家居物体类别及280个实例的CAD模型3D关键点标注,并提供了非模态对应标签与对称性标注。同时提出的Morpheus方法,通过解耦标准形状、形变与物体姿态来学习该先验,从而隐式涌现语义对应的3D理解,并在该基准上达到了新的SOTA。数据与代码已开源。

开源/仓库论文/研究
22:07
公众号:腾讯混元
58
Hy-Memory 发布:为 Openclaw 打造的记忆插件

腾讯混元推出 Hy-Memory,一款为 Openclaw 长期协作型 Agent 设计的记忆插件。它采用 6 层记忆框架、System1/System2 双系统及演化链技术,解决 Agent 长期使用中的记忆漂移与碎片化问题。在 LongMemEval 上得分 85.2,在偏好、时序推理、知识更新维度领先;PersonaMem 评测超越所有竞品。相比其他方案,记忆数量降低 70%+,单条信息密度高 45%+,token 消耗降低 35%,写入速度为 Graphiti 的 8 倍,支持本地嵌入式存储,安装仅需一行命令,提供 Lite/Pro/Ultra 三档。

智能体产品更新开源/仓库
18:47
Mistral AI:News(网页)
精选55
塑造产业的物理AI研究

Mistral AI通过收购Emmi AI,强化其在推动AI研究前沿与工业工程解决方案方面的投入。其目标是为航空航天、汽车、半导体和能源等塑造物理世界的核心产业构建基础性物理AI模型,以加速工程开发。此项研究基于一系列已发表的突破性成果,包括:用于模拟超音速湍流的3D机翼CFD数据集、计算流体动力学基础模型的前瞻综述、应用于汽车与航空的AB-UPT模型,以及用于聚变等离子体湍流模拟的GyroSwin模型。此前已开源的UPT(通用物理Transformer)和NeuralDEM等成果也为此研究奠定了基础。

开源/仓库论文/研究

推荐理由:Mistral 把物理 AI 定为下个重点,从流体仿真到核聚变等离子体都有论文支撑。搞工业仿真的团队值得跟进,但这次没有新模型发布,更多是路线宣示而非新突破。
17:12
MarkTechPost(RSS)
67
Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍

Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低,同时能够将生产环境的 CPU 使用率降低 5-6 倍。

Hugging Face开源/仓库部署/工程
11:28
HuggingFace Daily Papers(社区热门论文)
65
基于双向进化搜索的大语言模型自我改进方法

针对现有大语言模型搜索方法(如 best-of-N 采样、树搜索)依赖稀疏验证信号且探索局限于高概率区域的问题,本文提出了双向进化搜索框架。该框架耦合了前向候选进化和后向目标分解。前向搜索利用进化算子重组部分轨迹,以生成难以通过单次模型展开获得的候选方案;后向搜索则递归分解原始任务,产生密集的中间反馈以指导搜索。理论分析表明,仅靠展开的搜索受限于窄熵壳,而进化算子可使其跳出,后向搜索则能指数级减少找到正确答案所需的样本数。实验显示,在主流后训练算法失效的任务上,BES 能带来一致性能提升;在三个开源问题求解基准的推理测试中,BES 在平均与最佳性能上均优于现有开源框架。

智能体开源/仓库推理论文/研究
11:15
IT之家(RSS)
精选73
英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架(如 Codex CLI、Claude Code、Qwen Code、Pi),通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示,基于 Qwen3.5-4B 模型,Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%(增涨 594.74%)。效率上,其 prefix_merging 技术将训练步骤从 1185 次降至 218 次,速度提升约 5.39 倍,GPU 平均利用率从 20.4% 升至 87.7%。

开源/仓库推理编码

推荐理由:Polar 把 Codex 的 SWE-Bench 分数从 3.8% 拉到 26.4%,不是靠新模型而是靠训练框架,做代码 agent 的团队可以直接用,开源即拿即训。
10:28
HuggingFace Daily Papers(社区热门论文)
65
从像素到词语--迈向规模化原生One-Vision模型

提出一种名为NEO-ov的原生视觉语言基础模型,它能够端到端地学习跨帧和像素-词语的对应关系,无需任何外部图像编码器、辅助适配器或后处理融合。该架构完全消除了模块边界,使得精细、统一的时空建模能力在模型内部原生涌现。研究表明,NEO-ov在精细视觉感知任务上表现优异,大幅缩小了与模块化模型的性能差距,验证了原生One-Vision架构在规模化下的可行性。代码与模型已开源。

多模态开源/仓库视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语

本文介绍了embeddingmagibu-200m,一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量,支持8,192 token的上下文窗口。该模型不进行完整预训练,而是采用三阶段适配流水线训练:构建优化的土耳其语分词器、克隆并适配教师模型权重,以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数,在单个GPU上训练约4小时,成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型,并在TR-MTEB的26个任务中排名靠前,实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。

Hugging Face检索增强开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
通过测试时训练线性化Vision Transformer

本研究提出一种将预训练Transformer(如Stable Diffusion 3.5)线性化的方法。通过架构与表示的双重对齐,具体识别了TTT架构与Softmax注意力的结构相似性,并引入关键实例归一化等模块来对齐表示特性。仅在4xH20 GPU上进行1小时微调,所得SD3.5-T^5模型就能达到与微调Softmax模型相当的文本到图像生成质量,同时在1K和2K分辨率下分别实现1.32倍和1.47倍的推理加速。代码已开源。

图像生成开源/仓库推理论文/研究
5月27日
15:37
MarkTechPost(RSS)
67
认识 EAGLE 3.1:修复 LLM 推理中注意力偏移的投机解码算法

EAGLE团队与vLLM、TorchSpec联合发布EAGLE 3.1,旨在修复大语言模型推理过程中的投机解码算法不稳定性问题。

开源/仓库推理部署/工程
12:13
IT之家(RSS)
同事件精选75
AI 制造 AI:面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练,其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。

智能体Hugging Face开源/仓库开源生态
同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》
推荐理由:全球首个AI独立编写的训练框架,零人类代码,并且真的在国产芯片上训出了领先模型。'AI造AI'的闭环第一次被完整打通,做模型训练的团队都该去fork一下,复现过程本身就是一堂课。
11:35
公众号:面壁智能(MiniCPM)
精选64
AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学、OpenBMB发布ForgeTrain,全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。在英伟达H100上训练速度超越Megatron 10%,节省10%算力;在华为昇腾上完整跑通预训练,并训出MiniCPM5-1B模型,综合性能在AA榜单2B规模以下Top1。框架及Agent Harness工具链一并开源。

开源/仓库数据/训练部署/工程

推荐理由:面壁这波把 AI 写代码从玩具推进到了生产车间,ForgeTrain 跑得比英伟达 Megatron 还快 10%,而且直接在昇腾上训出了 MiniCPM5-1B,国产算力跟 AI 自举这两条线在这一刻交汇了,做训练的可以认真看看。
11:13
IT之家(RSS)
49
Hugging Face 推出双足机器人:开源、低成本、3D 打印

Hugging Face 推出开源双足机器人项目 LeRobot Humanoid,起步价 2500 美元。该项目面向开发者和研究人员,使用 3D 打印件与现成硬件以降低成本,并非成品,需自行组装。它提供硬件装配文件与软件控制工具,支持在仿真环境中训练 AI 模型,再部署到实体机器人上进行测试。目前公开的是双腿平台,后续计划集成上半身。

Hugging Face具身智能开源/仓库开源生态
04:07
Ars Technica:AI(RSS)
64
开源软件包 Starlette 中的关键漏洞威胁数百万 AI 智能体

开源 Python Web 框架 Starlette 中发现名为“BadHost”的关键漏洞。该软件包每周下载量高达 325 million 次,其漏洞可能直接威胁大量依赖它构建的 AI 智能体(AI Agent)服务。

MCP/工具安全/对齐开源/仓库部署/工程
5月26日
20:13
IT之家(RSS)
51
小米集团2026年第一季度财报发布

小米集团2026年第一季度总营收991亿元,经调整净利润61亿元。智能电动汽车及创新业务收入199亿元,交付新车80856台。智能手机业务收入443亿元,出货量稳居全球前三,全球平均售价同比提升8.2%。IoT与生活消费产品收入247亿元,互联网服务收入95亿元。研发投入90亿元,同比增长33.4%。在AI领域,Xiaomi MiMo-V2.5-Pro在全球开源模型评测中位列第一,Xiaomi MiMo大模型助力Hermes Agent登顶全球调用量榜首。

开源/仓库行业动态
16:06
MarkTechPost(RSS)
68
介绍 OmniVoice Studio:本地开源的 ElevenLabs 替代方案

OmniVoice Studio 是一个完全在本地硬件上运行的开源项目,无需 API 密钥、云账户或订阅。它提供语音克隆、视频配音、实时听写和说话人分离等功能,支持 646 种语言的语音合成(TTS),并暴露一个 MCP 服务器,可与 Claude、Cursor 等 MCP 客户端集成。

MCP/工具开源/仓库语音
14:11
IT之家(RSS)
精选77
"龙虾之父"Peter 开源 skill-cleaner,为 AI 智能体技能"做体检"

“龙虾之父”Peter 开源了 skill-cleaner 工具,用于诊断和优化 AI 智能体的技能提示词。该工具包含5项核心功能,包括技能提示词预算审计、重复技能检测、未使用技能筛查、技能根目录审计和描述精简优化。其脚本采用标准 token 预算核算逻辑,旨在帮助减少冗长描述对 token 预算和上下文窗口的占用。已有用户实践显示,将技能描述从90多词精简至40词以内,能提升智能体选择技能的准确率。

智能体GitHubMCP/工具开源/仓库

推荐理由:Peter 直接开源了一个给 Skill '减肥' 的工具,把描述精简、重复检测、预算审计全自动化了,装完跑一遍就能直观看到哪些 Skill 在烧你的 token。做 Agent 的可以立刻装上试试。
12:11
IT之家(RSS)
60
约 1000 行代码搭起网页 AI 智能体:微软 Webwright 让 GPT-5.4 跑分提升 81%

微软研究院发布开源网页智能体框架 Webwright,其架构总代码量约 1000 行,让模型直接在终端中编写 Playwright 代码并执行命令,以此完成网页任务。该框架通过“门控自检”和“历史压缩”两个工程设计,解决了智能体易过早完成和上下文膨胀问题。基准测试显示,搭配 GPT-5.4 的 Webwright 在 Online-Mind2Web 上准确率达 86.67%;在长链路任务的 Odysseys 上得分 60.1%,相比此前最佳成绩(Opus 4.6 的 44.5%)提升 35.1%,相对基础 GPT-5.4 提升 81.49%。

智能体Microsoft开源/仓库
11:56
公众号:通义实验室(千问)
57
通义实验室发布 AgentScope 2.0,从透明开发转向系统工程

通义实验室发布 AgentScope 2.0,从关注“如何构建智能体”转向“如何让智能体可靠运行”。2.0 继续支持 Qwen、Anthropic、DeepSeek、Gemini、OpenAI 等模型,并扩展 Grok、Moonshot 支持。核心升级包括:模型层引入统一重试与备用模型机制;消息模块重构为 Content Block 并引入事件系统;引入权限系统控制工具调用、文件读写和命令执行;上下文管理实现结构化压缩与工具结果自动截断;新增 Middleware 机制;Workspace 抽象执行环境,统一本地文件系统、Docker 容器、E2B 云沙箱等;Agent Service 合并至主库。Python 版已升级至 2.0,TypeScript 版已正式发布。

智能体MCP/工具产品更新开源/仓库
‹ 上一页
123456…12
下一页 ›