AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 82 条
全部一手资讯X论文
标签「开源/仓库」清除
7月2日周四
11:28HuggingFace Daily Papers(社区热门论文)47域算术:环境变化下的一次性VLA适配
7月1日周三
23:22Jim Fan71Jim Fan团队推出ASPIRE:机器人自我进化的技能库系统
09:08Hacker News 热门(buzzing.cc 中文翻译)68Meta AI 发布 Brain2Qwerty v2:无需手术的脑电波解码系统
6月30日周二
02:28宝玉79同事件精选Meta 发布 Brain2Qwerty v1 论文与 v2,非侵入式脑机接口解码准确率大幅提升同一事件,精选展示《Meta发布Brain2Qwerty v2:非侵入式实时句子解码》
6月29日周一
08:00HuggingFace Daily Papers(社区热门论文)50MatMMExtract:面向材料科学的大规模多模态数据集MatSciFig
6月27日周六
08:00HuggingFace Daily Papers(社区热门论文)52Agentic Abstention:大语言模型智能体何时应停止行动
6月24日周三
11:55HuggingFace Daily Papers(社区热门论文)49EDV:逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架
6月23日周二
13:13HuggingFace Daily Papers(社区热门论文)50CLI-Universe:面向终端智能体的可验证任务合成引擎
6月22日周一
08:00HuggingFace Daily Papers(社区热门论文)48AOHP:面向个性化、高效与安全交互的开源操作系统级智能体框架
6月15日周一
08:00HuggingFace Daily Papers(社区热门论文)55LOGOS:面向自然科学的通用科学生成语言模型
6月14日周日
08:00HuggingFace Daily Papers(社区热门论文)42SSync:面向视频目标中心学习的选择性协同学习方法
6月12日周五
18:00HuggingFace Daily Papers(社区热门论文)60ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架
14:00HuggingFace Daily Papers(社区热门论文)77同事件精选MiniMax Sparse Attention(MSA)块状稀疏注意力同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
6月11日周四
12:58HuggingFace Daily Papers(社区热门论文)68Claw-SWE-Bench:评估OpenClaw风格智能体框架编程能力的多语言基准
08:00HuggingFace Daily Papers(社区热门论文)40自我进化的视觉提问者(Self-Evolving Visual Questioner)
00:56HuggingFace Daily Papers(社区热门论文)73精选DeLM:去中心化多智能体系统框架
6月10日周三
09:41Hacker News 热门(buzzing.cc 中文翻译)55大型语言模型能否超越经典的超参数优化算法?
6月9日周二
20:21Tencent Hy74腾讯混元发布UniRL及两种新RL算法
08:00HuggingFace Daily Papers(社区热门论文)45WebChallenger:不依赖模型规模、通过架构设计提升自主网页导航的智能体框架
6月8日周一
08:00HuggingFace Daily Papers(社区热门论文)62SearchSwarm:面向长周期深度研究的代理大语言模型委托智能
6月7日周日
08:00HuggingFace Daily Papers(社区热门论文)56PaperMentor:面向AI研究论文的以人为中心的多智能体写作导师(基于Overleaf)
6月6日周六
08:00HuggingFace Daily Papers(社区热门论文)55MuJoCo-Drones-Gym:面向控制与强化学习的GPU加速多无人机仿真环境
08:00HuggingFace Daily Papers(社区热门论文)43基于集合的 Transformer 用于远距离 LWIR 高光谱成像的大气补偿
6月5日周五
21:15IT之家(RSS)69腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍
12:47HuggingFace Daily Papers(社区热门论文)53复杂度平衡扩散分裂(CBS):基于函数逼近理论的时间容量分配框架
10:24公众号:龙猫LongCat(美团)55ACL'26美团技术团队6篇论文入选:聚焦大模型评测与推理优化
6月4日周四
22:43HuggingFace Daily Papers(社区热门论文)62KletterMix:面向高质量德语预训练数据的构建与验证
20:42Hugging Face:Blog(RSS)65精选EVA-Bench Data 2.0 发布:覆盖三大领域、121 个工具、213 个场景
6月3日周三
12:42HuggingFace Daily Papers(社区热门论文)70精选世界模型与语言模型:论具体推理与抽象推理的互补性
6月2日周二
12:40HuggingFace Daily Papers(社区热门论文)68多智能体计算机使用
08:00HuggingFace Daily Papers(社区热门论文)64免训练多概念LoRA组合:提示词感知加权策略
6月1日周一
08:00HuggingFace Daily Papers(社区热门论文)57FiRe-OPD:先过滤,再重加权--重新思考在线策略蒸馏的优化粒度
5月31日周日
14:38HuggingFace Daily Papers(社区热门论文)55解耦残差去噪扩散模型实现统一高效图像到图像翻译
5月29日周五
11:35公众号:面壁智能(MiniCPM)61精选面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据
11:29HuggingFace Daily Papers(社区热门论文)62AgentDoG 1.5:一个轻量级且可扩展的AI智能体安全与安保对齐框架
5月28日周四
23:29HuggingFace Daily Papers(社区热门论文)56通过可形变物体先验实现相机空间中的类别级3D对应关系
18:47Mistral AI:News(网页)55精选塑造产业的物理AI研究
11:28HuggingFace Daily Papers(社区热门论文)65基于双向进化搜索的大语言模型自我改进方法
10:28HuggingFace Daily Papers(社区热门论文)65从像素到词语--迈向规模化原生One-Vision模型
08:00HuggingFace Daily Papers(社区热门论文)53通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月2日
11:28
HuggingFace Daily Papers(社区热门论文)
47
域算术:环境变化下的一次性VLA适配

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换(如从Panda换为UR5e)时通常无法完成已学任务。传统适配需为每个任务收集多次演示,成本高昂。DART(Domain ARiThmetic)提出基于类比推理的方法,通过权重向量算术添加特定领域信息,仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中,DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXivGitHub具身智能开源/仓库
7月1日
23:22
Jim Fan@DrJimFan
71
继EMPIRE后,Jim Fan团队发布ASPIRE,为机器人构建可自我进化、无限累积的技能库。编码智能体观察仿真和真实机器人的多模态感官轨迹,对控制程序进行进化搜索,将最佳策略蒸馏进不断扩展的库中。ASPIRE无需梯度下降或端到端策略,而是通过传递"技能知识"绕过sim2real和跨本体迁移难题,相比从头训练实现约10倍迁移学习token缩减。已在150+任务和90+技能上验证,计划开源全栈。

Jim Fan: Today, we give robots a /skills library that self-evolves and compounds indefinitely! Introducing ASPIRE: a robot solvin...

智能体具身智能开源/仓库论文/研究
09:08
Hacker News 热门(buzzing.cc 中文翻译)
68
Meta AI 发布 Brain2Qwerty v2:无需手术的脑电波解码系统

Meta AI 推出 Brain2Qwerty v2,一种无需手术植入即可实时从脑电波解码句子的非侵入式系统。基于脑磁图(MEG)设备记录 9 名志愿者各 10 小时的打字脑活动,训练约 22,000 个句子,采用端到端深度学习并微调大语言模型。词准确率达 61%,最佳参与者达 78%,远超其他非侵入方法的 8%。解码精度随数据量对数线性提升,有望进一步缩小与手术方法的差距。Meta 已开源 v1 和 v2 训练代码,合作方 BCBL 开放 v1 数据集。

Meta开源/仓库数据/训练论文/研究
6月30日
02:28
宝玉@dotey
同事件精选79
Meta 发布 Brain2Qwerty v1 论文与 v2,非侵入式脑机接口解码准确率大幅提升

Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文,同日发布 v2。v1 从脑电信号逐字母解码,字符错误率 32%。v2 实现句子级实时解码,平均单词准确率 61%,最优 78%,过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据(约 2.2 万句子),结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高,但该成果为脑损伤患者提供了无需开颅的可行路径。

AI at Meta: We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...

Meta多模态开源/仓库论文/研究
同一事件,精选展示《Meta发布Brain2Qwerty v2:非侵入式实时句子解码》
推荐理由:非侵入式脑机接口从近乎不能用进步到能大致沟通,这一步证明了不开颅也可能接近侵入式的效果,剩下的主要是工程问题。做脑机接口或医疗 AI 的都值得关注。
6月29日
08:00
HuggingFace Daily Papers(社区热门论文)
50
MatMMExtract:面向材料科学的大规模多模态数据集MatSciFig

MatMMExtract 是一个端到端开源管道,将复合图表分解为独立子面板,并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章,从 180,571 张图中生成 MatSciFig 数据集,包含 391,606 个面板级图像-文本对,每对配有子标题、两级可视化类别(19 个大类、100+ 子类)和科学摘要。引入 MaterialScope 检测数据集(2,811 张人工标注图),微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中,Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡,82% 输出良好,模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍,所有资源已向社区开放。

多模态开源/仓库数据/训练论文/研究
6月27日
08:00
HuggingFace Daily Papers(社区热门论文)
52
Agentic Abstention:大语言模型智能体何时应停止行动

研究定义Agentic Abstention问题,即智能体在不确定环境下应判断何时停止行动。在网页购物、终端环境、问答等任务上评估13个LLM智能体系统和2个智能体框架对28,000+任务的表现。结果显示关键挑战在于停止时机:部分从不停止,部分在大量冗余交互后才停止。提出CONVOLVE上下文工程方法,将完整交互轨迹蒸馏为可复用停止规则,在WebShop上将Llama-3.3-70B的及时召回率从26.7%提升至57.4%。数据集与代码已开源。

智能体开源/仓库推理论文/研究
6月24日
11:55
HuggingFace Daily Papers(社区热门论文)
49
EDV:逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

大语言模型智能体在开放世界交互中自我进化时,单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功,导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段:多异构智能体并行探索产生多样化轨迹;第三方智能体对比分析减少归纳偏差;执行组通过共识机制验证候选经验,仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上,EDV 持续超越强基线,验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。

智能体Hugging Face开源/仓库论文/研究
6月23日
13:13
HuggingFace Daily Papers(社区热门论文)
50
CLI-Universe:面向终端智能体的可验证任务合成引擎

CLI-Universe是一个原则性合成引擎,通过多维能力分类树采样并基于真实技术材料进行证据引导深度研究,生成候选终端智能体任务。候选任务经Docker实例化后,通过rubric-gated测试构造、hint-conditional过滤和严格fail-to-pass检查等多阶段可执行验证流水线,约三分之二的候选被丢弃,仅保留真实、可验证且有难度的任务。基于此构建的6,000条轨迹数据集CLI-Universe-6K,微调Qwen3-32B后在Terminal-Bench 2.0上达到33.4%准确率,创下开源数据训练的32B及以下参数模型新SOTA,并超越多个参数规模大一个数量级的模型。

智能体开源/仓库数据/训练论文/研究
6月22日
08:00
HuggingFace Daily Papers(社区热门论文)
48
AOHP:面向个性化、高效与安全交互的开源操作系统级智能体框架

AOHP(Android Open Harness Project)基于Android开源项目(AOSP)构建,将AI智能体视为操作系统的一等角色,提供自适应UI和智能体友好运行时环境,同时保留安卓软硬件生态。系统引入三种智能体导向机制:个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中,AOHP的任务完成率提升21.12%,token成本降低51.55%,并满足安全策略合规要求。

智能体开源/仓库论文/研究部署/工程
6月15日
08:00
HuggingFace Daily Papers(社区热门论文)
55
LOGOS:面向自然科学的通用科学生成语言模型

LOGOS 是一个科学生成语言模型,将自然科学的异构任务统一到同一自回归框架和共享科学语法中。它把科学对象及其空间交互编码成 token 序列,无需依赖坐标或几何神经网络,即可用纯序列方式捕获复杂结构相互作用。该统一表示使得多领域持续预训练与下游任务高度对齐。在多个任务上,LOGOS 匹配或超越领域专用基线,且 1B、3B、8B 三种参数规模与性能呈正相关。模型权重已开源以促进后续研究。

arXiv开源/仓库数据/训练论文/研究
6月14日
08:00
HuggingFace Daily Papers(社区热门论文)
42
SSync:面向视频目标中心学习的选择性协同学习方法

针对视频目标中心学习中密集对齐策略传播各模块弱点且计算代价二次增长的缺陷,提出 Selectice Synergistic Learning (SSync)。该方法避免穷举对齐,而是选择性蒸馏最可靠线索:编码器用于边界细化,解码器用于内部去噪。通过线性复杂度的伪标记实现,并引入传递式伪标记合并以消除重叠 slot 冗余。实验表明 SSync 显著提升分解质量,作为即插即用模块对 slot 配置具有强鲁棒性。代码已开源。

arXivGitHub开源/仓库数据/训练
6月12日
18:00
HuggingFace Daily Papers(社区热门论文)
60
ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架

为应对印度农村患者用本土语言和医学影像表达复杂病情,研究团队构建了ArogyaBodha数据集,包含8个异构来源、31个身体系统、6种成像模态、21个临床领域,覆盖英语和7种主要印度语言。同时提出ArogyaSutra,一个基于Actor-Critic的多智能体框架,集成工具接地与双记忆机制,实现逐步推理感知决策,并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明,该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。

智能体多模态开源/仓库论文/研究
14:00
HuggingFace Daily Papers(社区热门论文)
同事件精选77
MiniMax Sparse Attention(MSA)块状稀疏注意力

MiniMax 提出块状稀疏注意力 MSA,基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块,Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上,MSA 与 GQA 性能持平,1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核,H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。

GitHubHugging Face开源/仓库推理
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax这个稀疏注意力把长上下文推理计算砍掉28倍,而且直接开源了高效CUDA kernel和模型,做agent和代码仓库级推理的团队可以赶紧试试。
6月11日
12:58
HuggingFace Daily Papers(社区热门论文)
68
Claw-SWE-Bench:评估OpenClaw风格智能体框架编程能力的多语言基准

Claw-SWE-Bench是一个多语言SWE-bench风格基准和适配器协议,用于在公平设置下比较通用智能体框架(claws)的编程能力。完整基准包含350个GitHub issue解决实例,覆盖8种语言和43个仓库,来源于SWE-bench-Multilingual和SWE-bench-Verified-Mini。同时发布80实例的Lite子集用于快速验证。在完整基准上,OpenClaw搭配最小适配器仅得19.1% Pass@1,而完整适配器使用相同GLM 5.1骨干达到73.4%,表明适配器设计至关重要。模型选择改变Pass@1达29.4个百分点,框架选择改变27.4个百分点;相似精度的系统总API成本差异巨大。Claw-SWE-Bench将框架和成本核算作为SWE风格编码智能体评估的第一类维度。

智能体开源/仓库编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
40
自我进化的视觉提问者(Self-Evolving Visual Questioner)

视觉语言模型通常训练为被动回答者,主动提出多样化、视觉中心问题的能力未被充分探索。本文提出无需外部监督的自我进化框架:VLM自身作为提议者和过滤器,生成更难、信息更丰富、更视觉中心的问题,同时维持探索多样性防止训练崩溃。自产问题用于同时训练VLM的提问者与回答者模式。引入智能体评估协议,从感知、推理与多样性三维度衡量提问质量。实验表明该方法显著提升自主问题生成的质量与难度边界,且自我进化的提问者仍保持甚至增强回答性能。

多模态开源/仓库论文/研究
00:56
HuggingFace Daily Papers(社区热门论文)
精选73
DeLM:去中心化多智能体系统框架

DeLM是一种去中心化多智能体系统框架,通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能,相比最强基线提升最多10.5个百分点,每任务成本降低约50%。在LongBench-v2多文档问答上,DeLM在四个前沿模型家族中取得最高平均准确率,提升最多5.7个百分点。代码已开源。

智能体开源/仓库推理论文/研究

推荐理由:去中心化MAS把中心调度换成共享黑板,SWE-bench一口气提10.5个点还省一半成本,这个思路值得所有搞agent的团队认真看。
6月10日
09:41
Hacker News 热门(buzzing.cc 中文翻译)
55
大型语言模型能否超越经典的超参数优化算法?

一项研究将大型语言模型(LLM)应用于超参数优化任务,并与经典算法进行对比实验,检验 LLM 在该场景下是否具备超越传统方法的表现。

开源/仓库数据/训练论文/研究
6月9日
20:21
Tencent Hy@TencentHunyuan
74
🚀推出UniRL,一个用于统一多模态模型的RL基础设施。附带两种新RL算法:DRPO和Flow-DPPO。 一个覆盖扩散/流匹配模型、LLM/VLM以及统一多模态模型的RL循环👇 代码:http://github.com/Tencent-Hunyuan/UniRL (是的--U(you)-ni-(need) RL 😉)
GitHub多模态开源/仓库推理
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
08:00
HuggingFace Daily Papers(社区热门论文)
45
WebChallenger:不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。

智能体GitHub开源/仓库论文/研究
6月8日
08:00
HuggingFace Daily Papers(社区热门论文)
62
SearchSwarm:面向长周期深度研究的代理大语言模型委托智能

研究团队提出SearchSwarm,通过设计引导框架将长周期任务分解与委托决策编码为高质量轨迹,并用作监督微调数据,将委托智能内化到模型权重中。由此训练的SearchSwarm-30B-A3B模型在BrowseComp上达到68.1分,在BrowseComp-ZH上达到73.3分,均为同规模最佳。团队将开源引导框架、模型权重和训练数据。

智能体开源/仓库论文/研究
6月7日
08:00
HuggingFace Daily Papers(社区热门论文)
56
PaperMentor:面向AI研究论文的以人为中心的多智能体写作导师(基于Overleaf)

PaperMentor是一个开源的写作辅导系统,在Overleaf中以内联评论形式提供可操作的建议,而不替代作者写作。系统集成了专家技能库和12个专门智能体,覆盖格式规范、措辞准确性、术语一致性等论文写作方面。用户研究(n=14)中,90.6%的评论被评为可操作,67.5%的评论有效,显著优于不使用技能库的GPT-5.2基线。代码以AGPL-3.0许可证公开。

智能体arXiv开源/仓库论文/研究
6月6日
08:00
HuggingFace Daily Papers(社区热门论文)
55
MuJoCo-Drones-Gym:面向控制与强化学习的GPU加速多无人机仿真环境

MuJoCo-Drones-Gym是一个开源多无人机仿真环境,兼容Gymnasium接口,基于MuJoCo物理引擎,支持任意数量Bitcraze Crazyflie 2.x四旋翼。模块化API可选刚体/Python动力学/地面效应、桨叶阻力与下洗流等物理模型,动作接口包括电机转速、归一化推力、速度设定点和PID航点。观测空间含运动学状态、RGB/深度/分割相机图像和邻域信息。内置PettingZoo ParallelEnv支持多智能体强化学习,并提供悬停、速度跟踪、多无人机悬停、航点导航、编队飞行、绕杆竞速、通用多智能体模板七个任务环境。利用MuJoCo改进的接触处理、渲染与并行能力,适用于无人机控制算法开发与强化学习训练。

开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
基于集合的 Transformer 用于远距离 LWIR 高光谱成像的大气补偿

论文提出一个轻量级基于集合的深度学习框架(Set-Based Transformer),以多个不同远距离辐射测量值为输入,联合估计透射率、大气路径辐射和下行谱。使用稀疏自编码器分析学习到的表示,发现若干潜在特征在测试数据的地理一致子集上激活,尽管训练时未使用位置监督。在 MODTRAN 生成的远距离 LWIR 数据集上,所有估计产品均实现低光谱失真。代码和数据集已公开。

开源/仓库论文/研究
6月5日
21:15
IT之家(RSS)
69
腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏,引入 Token 位置衰减(TPD)和输出感知度量(OAM),仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速,在 128K 上下文下首字延迟降低 3.6 倍。

开源/仓库推理论文/研究
12:47
HuggingFace Daily Papers(社区热门论文)
53
复杂度平衡扩散分裂(CBS):基于函数逼近理论的时间容量分配框架

标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态,统一架构效率低下。本文提出复杂度平衡分裂(CBS)框架,基于函数逼近理论和de Boor均衡分布原理,将扩散时间线划分为等近似负担的片段,为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度,无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上,CBS不增加每步推理成本,持续提升合成质量:在SiT-XL上使用CFG时,相比朴素时间划分,FID改善约35%。

图像生成开源/仓库数据/训练论文/研究
10:24
公众号:龙猫LongCat(美团)
55
ACL'26美团技术团队6篇论文入选:聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文,涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务,有效性达78.55%;SOP-Maze基于真实业务构建397个流程实例,测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板;AMO-Bench含50道高难度数学题,最强模型准确率仅52.4%;The Evolution of Thought提出推理完成点(RCP)检测器减少冗余生成;MASPO通过软高斯门控等优化推理后训练,提升Avg@32和Pass@32;FLR将隐式推理分解为多维偏好因子,平均提升3.2%。

开源/仓库推理论文/研究评测/基准
6月4日
22:43
HuggingFace Daily Papers(社区热门论文)
62
KletterMix:面向高质量德语预训练数据的构建与验证

针对德语预训练数据资源匮乏且缺乏系统验证的问题,研究团队构建了KletterMix——一个高质量德语语料库,用于大语言模型预训练与退火阶段。KletterMix通过翻译一份最优英语预训练语料生成,保留了原文档边界、元数据、来源结构和主题多样性。COMETKiwi评估表明翻译文档在多个领域保持语义与风格丰富性。在受控预训练和退火实验中,基于KletterMix训练的模型在德语下游评测中取得可衡量性能提升,证实精心策划的翻译数据能有效增强德语预训练数据生态。

开源/仓库数据/训练论文/研究
20:42
Hugging Face:Blog(RSS)
精选65
EVA-Bench Data 2.0 发布:覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,共涵盖 121 个工具、213 个场景,场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则,包含单意图、多意图(最多 4 个意图)和对抗性呼叫类型。所有三个数据集已开源,可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由:语音代理评测缺的就是这种真实场景的数据集,EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了,生成流水线也开源,做评测的可以直接拿来用。
6月3日
12:42
HuggingFace Daily Papers(社区热门论文)
精选70
世界模型与语言模型:论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由:世界模型靠视觉预测,语言模型靠抽象推理,这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%,还给全开源,做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。
6月2日
12:40
HuggingFace Daily Papers(社区热门论文)
68
多智能体计算机使用

当前单智能体计算机使用智能体在复杂长时程任务中存在不足。为此,本研究提出了多智能体计算机使用系统。该系统由一个管理器模型将任务分解为有向无环图,并行派遣子智能体执行,并根据新信息动态调整该图。实验表明,该系统在桌面和网页导航基准测试上的性能持续优于强单智能体基线3.4-25.5%,并在长时程网页导航任务上将平均任务完成时间缩短约1.5倍。研究结论是,多智能体协调是扩展计算机使用智能体能力的一个有前景方向。

智能体开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
免训练多概念LoRA组合:提示词感知加权策略

LoRA可个性化文生图模型,但多概念组合时直接叠加会干扰概念,降低质量与保真度。本文提出免训练方法,通过W-Switch与W-Composite两种策略,根据目标提示词中触发token的语义重要性对每个LoRA模块输出加权组合,实现多概念自定义。同时提出基于真实参考图像与自动分割概念区域的图像相似度评估框架。在ComposLoRA测试集上,该方法在视觉质量、身份保持和组合性上一致超越现有方法。LLM评估与用户研究验证有效性。代码已开源。

图像生成多模态开源/仓库论文/研究
6月1日
08:00
HuggingFace Daily Papers(社区热门论文)
57
FiRe-OPD:先过滤,再重加权--重新思考在线策略蒸馏的优化粒度

FiRe-OPD(Filter, then Reweight)重新思考在线策略蒸馏的优化粒度,在轨迹和token两个层面联合调整监督信号。先过滤低质量轨迹,再对保留轨迹内的token进行软加权,避免硬选择带来的信息损失并提升优化稳定性。该方法在强到弱、单教师、多教师三种设置下均优于近期token级OPD方法:在AIME 2024上提升6.25分,在Miner上提升18.81分。代码已开源。

开源/仓库数据/训练论文/研究
5月31日
14:38
HuggingFace Daily Papers(社区热门论文)
55
解耦残差去噪扩散模型实现统一高效图像到图像翻译

DRDD 模型将扩散过程解耦为两个独立阶段:先进行随机噪声扩散以实现领域协调和流形提升,再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力,显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练,极大提升了数据效率。理论与实验表明,DRDD 与主流扩散模型兼容,即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。

图像生成开源/仓库数据/训练论文/研究
5月29日
11:35
公众号:面壁智能(MiniCPM)
精选61
面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集:Ultra-FineWeb-L3(超600B Tokens,中文200B+,为当前最大中文预训练合成数据集)和UltraData-SFT-2605(国内首个千万级同时含深思考与非思考标注的SFT数据集)。两者基于UltraData数据分级治理体系构建,在MiniCPM5-1B训练流程中得到完全验证,覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace,免费开放。

Hugging Face开源/仓库数据/训练端侧
关联讨论 1 条X:面壁智能 OpenBMB (@OpenBMB)
推荐理由:填补了中文大规模合成数据空白,三年前还在用英文数据做中文模型的日子可以翻篇了,做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。
11:29
HuggingFace Daily Papers(社区热门论文)
62
AgentDoG 1.5:一个轻量级且可扩展的AI智能体安全与安保对齐框架

AgentDoG 1.5是一个针对Codex和OpenClaw等现代开放世界智能体安全风险的轻量级、可扩展对齐框架。它更新了智能体安全分类法,构建了数据引擎,仅用约1k样本训练出0.8B至8B参数的模型变体,性能与GPT-5.4等闭源模型相当。该框架还构建了高效的训练环境,大幅降低部署开销,并可作为在线护栏进行实时安全审核。实验表明其在复杂交互场景中达到先进水平,所有模型和数据集均已开源。

智能体安全/对齐开源/仓库论文/研究
5月28日
23:29
HuggingFace Daily Papers(社区热门论文)
56
通过可形变物体先验实现相机空间中的类别级3D对应关系

为解决机器人与AR/VR领域中单张图像理解3D物体时语义粒度不足的问题,研究提出了通过学习共享的可形变物体先验,无需显式对应监督即可在相机空间中获得类别级3D对应。为此,团队引入了首个大规模基准测试HouseCorr3D,包含178k图像、50个家居物体类别及280个实例的CAD模型3D关键点标注,并提供了非模态对应标签与对称性标注。同时提出的Morpheus方法,通过解耦标准形状、形变与物体姿态来学习该先验,从而隐式涌现语义对应的3D理解,并在该基准上达到了新的SOTA。数据与代码已开源。

开源/仓库论文/研究
18:47
Mistral AI:News(网页)
精选55
塑造产业的物理AI研究

Mistral AI通过收购Emmi AI,强化其在推动AI研究前沿与工业工程解决方案方面的投入。其目标是为航空航天、汽车、半导体和能源等塑造物理世界的核心产业构建基础性物理AI模型,以加速工程开发。此项研究基于一系列已发表的突破性成果,包括:用于模拟超音速湍流的3D机翼CFD数据集、计算流体动力学基础模型的前瞻综述、应用于汽车与航空的AB-UPT模型,以及用于聚变等离子体湍流模拟的GyroSwin模型。此前已开源的UPT(通用物理Transformer)和NeuralDEM等成果也为此研究奠定了基础。

开源/仓库论文/研究

推荐理由:Mistral 把物理 AI 定为下个重点,从流体仿真到核聚变等离子体都有论文支撑。搞工业仿真的团队值得跟进,但这次没有新模型发布,更多是路线宣示而非新突破。
11:28
HuggingFace Daily Papers(社区热门论文)
65
基于双向进化搜索的大语言模型自我改进方法

针对现有大语言模型搜索方法(如 best-of-N 采样、树搜索)依赖稀疏验证信号且探索局限于高概率区域的问题,本文提出了双向进化搜索框架。该框架耦合了前向候选进化和后向目标分解。前向搜索利用进化算子重组部分轨迹,以生成难以通过单次模型展开获得的候选方案;后向搜索则递归分解原始任务,产生密集的中间反馈以指导搜索。理论分析表明,仅靠展开的搜索受限于窄熵壳,而进化算子可使其跳出,后向搜索则能指数级减少找到正确答案所需的样本数。实验显示,在主流后训练算法失效的任务上,BES 能带来一致性能提升;在三个开源问题求解基准的推理测试中,BES 在平均与最佳性能上均优于现有开源框架。

智能体开源/仓库推理论文/研究
10:28
HuggingFace Daily Papers(社区热门论文)
65
从像素到词语--迈向规模化原生One-Vision模型

提出一种名为NEO-ov的原生视觉语言基础模型,它能够端到端地学习跨帧和像素-词语的对应关系,无需任何外部图像编码器、辅助适配器或后处理融合。该架构完全消除了模块边界,使得精细、统一的时空建模能力在模型内部原生涌现。研究表明,NEO-ov在精细视觉感知任务上表现优异,大幅缩小了与模块化模型的性能差距,验证了原生One-Vision架构在规模化下的可行性。代码与模型已开源。

多模态开源/仓库视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语

本文介绍了embeddingmagibu-200m,一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量,支持8,192 token的上下文窗口。该模型不进行完整预训练,而是采用三阶段适配流水线训练:构建优化的土耳其语分词器、克隆并适配教师模型权重,以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数,在单个GPU上训练约4小时,成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型,并在TR-MTEB的26个任务中排名靠前,实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。

Hugging Face检索增强开源/仓库论文/研究
‹ 上一页
123
下一页 ›