AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「论文/研究」清除
6月30日周二
11:26HuggingFace Daily Papers(社区热门论文)48Nemotron-Labs-Diffusion-Image:掩蔽离散扩散模型的文本到图像合成
11:26HuggingFace Daily Papers(社区热门论文)52Orca:一个通用世界基础模型
10:26HuggingFace Daily Papers(社区热门论文)48GUICrafter:利用海量未标注截图的弱监督GUI智能体
09:35elvis73Qwen 新研究:编码智能体奖励设计的"地平线"问题
08:06小互75Meta发布无创脑机接口Brain2Qwerty v2,字词准确率达61%
08:00HuggingFace Daily Papers(社区热门论文)52GRPO、Dr. GRPO 与 DAPO:组标准差上的三种操作
08:00HuggingFace Daily Papers(社区热门论文)45HealthAgentBench:面向挑战性前沿AI智能体的统一医疗专家基准套件
08:00HuggingFace Daily Papers(社区热门论文)45PixelEyes:解耦感知与推理实现精准视觉证据定位
08:00HuggingFace Daily Papers(社区热门论文)49ASPIRE:通过迭代机器人探索的自主技能编程系统
08:00HuggingFace Daily Papers(社区热门论文)48当大语言模型粗心读取表格:衡量与减少数据引用错误
08:00HuggingFace Daily Papers(社区热门论文)45AutoTrainess:自主训练语言模型的LM智能体
08:00HuggingFace Daily Papers(社区热门论文)39AtomiMed:层次化原子事实检查实现通用临床感知的医学报告评估
07:28Rohan Paul65Google 发布 Paper Assistant Tool:以智能体验证应对科学审稿瓶颈
05:30Microsoft Research46Memora可扩展记忆系统解决AI记忆问题
02:28宝玉79同事件精选Meta 发布 Brain2Qwerty v1 论文与 v2,非侵入式脑机接口解码准确率大幅提升同一事件,精选展示《Meta发布Brain2Qwerty v2:非侵入式实时句子解码》
02:26Hugging Face:Blog(RSS)52DiScoFormer:一个跨分布同时估计密度与分数的单一Transformer模型
02:19AYi71Meta 发布 Brain2Qwerty v2:非侵入式脑机解码达单词级实时输出
00:34AK36PhysisForcing 机器人物理强化世界模拟器
6月29日周一
23:04elvis77Meta Brain2Qwerty v2:非侵入式实时脑解码新突破
20:27AI at Meta79精选Meta发布Brain2Qwerty v2:非侵入式实时句子解码
18:36OpenAI:官网动态(RSS · 排除企业/客户案例)62精选OpenAI 报告:绘制欧洲 AI 劳动力机遇版图
18:34Hacker News 热门(buzzing.cc 中文翻译)39黑盒大语言模型的知识蒸馏
13:27Rohan Paul56《The Red Queen Gödel Machine》:剑桥大学与NVIDIA等机构提出智能体与评估者协同进化
08:03AK28DiffusionBench全面评估扩散Transformer
08:00HuggingFace Daily Papers(社区热门论文)35CogSENet:受鹰视觉启发的盲图像去模糊框架
08:00HuggingFace Daily Papers(社区热门论文)52SciIR:面向科学图像推理生成的大规模训练数据集与基准
08:00HuggingFace Daily Papers(社区热门论文)60SWE-Interact:重新构想面向用户驱动的多轮编码会话的SWE基准测试
08:00HuggingFace Daily Papers(社区热门论文)55评估策略还是措辞?LLM数学推理中表面多样性与策略多样性之间的鸿沟
08:00HuggingFace Daily Papers(社区热门论文)50MOPD:多教师在线蒸馏实现大语言模型后训练能力整合
08:00HuggingFace Daily Papers(社区热门论文)50MatMMExtract:面向材料科学的大规模多模态数据集MatSciFig
08:00HuggingFace Daily Papers(社区热门论文)51紧凑型语言模型在RAG系统中实现设备端推理,无需GPU
08:00HuggingFace Daily Papers(社区热门论文)51PhotoQuilt:通过自举式分块去噪实现无需训练的任意分辨率光马赛克生成
08:00HuggingFace Daily Papers(社区热门论文)51BrainJanus:融合脑、视觉与语言的统一模型
08:00HuggingFace Daily Papers(社区热门论文)50LUMOS:面向可访问性基底的AI智能体的语义操作系统层
08:00HuggingFace Daily Papers(社区热门论文)42DOPD:优势感知的双在线蒸馏
08:00HuggingFace Daily Papers(社区热门论文)44AVTok:面向整体音频-视频生成的一维统一分词器
06:57Rohan Paul44研究:AI智能体缺乏真正记忆系统,现有评测忽略记忆自身性能
04:57Rohan Paul65PlanBench-XL:评估LLM智能体在大规模工具生态中的长程规划能力
04:27Rohan Paul44新论文提出Web需为AI智能体制定新规则
02:01elvis44剑桥Red Queen Gödel Machine:智能体与评估器共同进化
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月30日
11:26
HuggingFace Daily Papers(社区热门论文)
48
Nemotron-Labs-Diffusion-Image:掩蔽离散扩散模型的文本到图像合成

Nemotron-Labs-Diffusion-Image是一种用于高分辨率文本到图像合成的掩蔽离散扩散模型(MDM)。它引入token编辑机制,使推理时能动态修改已揭开的离散token,弥补标准MDM缺乏自纠正能力的缺陷;提出分组交叉熵(GCE)目标函数,为嵌入空间中邻近真实token的相邻token分配正学习信号,缓解大词汇量离散图像tokenizer带来的训练信号稀疏问题。同时实现针对GCE的自定义融合操作符,显著降低大词汇量场景下的显存占用。实验结果显示,该模型在GenEval上得分为0.90,DPG 86.9,HPSv3 10.76。

图像生成数据/训练论文/研究
11:26
HuggingFace Daily Papers(社区热门论文)
52
Orca:一个通用世界基础模型

Orca通过下一状态预测(Next-State-Prediction)统一建模多模态世界信号,学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注,包含无意识学习(连续视频中的密集自然状态转换)和有意识学习(语言描述事件和VQA监督下的稀疏状态转换)。冻结主干后,仅训练轻量级模态特定解码器,即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。

arXiv具身智能多模态论文/研究
10:26
HuggingFace Daily Papers(社区热门论文)
48
GUICrafter:利用海量未标注截图的弱监督GUI智能体

GUICrafter是一个弱监督GUI智能体,通过两阶段课程学习框架降低对人工标注的依赖:阶段1利用大规模未标注截图和网页学习视觉定位,阶段2使用少量高质量数据通过强化学习校准。实验显示,GUICrafter仅使用UI-TARS 0.1%的数据即达到与之竞争甚至更优的性能;在相同标注数据量下,其表现超越所有先前方法(如GUI-R1)。代码、数据和模型已开源。

智能体数据/训练论文/研究
09:35
elvis@omarsar0
73
Qwen 新研究:编码智能体奖励设计的"地平线"问题

Qwen 发布关于强化学习编码智能体的新工作,指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹,发现每种信号都存在一个“地平线”:超出该界限后,信号不再跟踪真实正确性,而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题,指标的选择不如它能持续跟踪正确性的时长重要。

智能体arXiv推理论文/研究
08:06
小互@xiaohu
75
Meta发布无创脑机接口Brain2Qwerty v2,字词准确率达61%

Meta 发布 Brain2Qwerty v2,无需手术植入,仅佩戴 MEG(脑磁图)头盔即可将大脑磁信号实时解码为连贯句子。字词准确率达 61%,约为其他无创脑机接口方法(8%)的 7.6 倍;最佳参与者达 78%,超半数句子只差一个词。Meta 称这是目前性能最高的非侵入式脑机接口系统。

Meta多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
GRPO、Dr. GRPO 与 DAPO:组标准差上的三种操作

GRPO、Dr. GRPO 和 DAPO 三种推理训练方法看似不同,实则都调节同一个数值——组标准差。对于二值奖励(正确/错误),组标准差衡量同一提示下多个答案的不一致程度:答案对半开时最大,全一致时为零。GRPO 除以该标准差,Dr. GRPO 去掉除法,DAPO 丢弃标准差为零的组。论文证明三者是同一参数的不同设置,并给出组标准差同一性:不一致的组产生最大更新,一致的组更新为零。该结论在 Big-Math 难度数据集和受控训练中得到验证。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
HealthAgentBench:面向挑战性前沿AI智能体的统一医疗专家基准套件

HealthAgentBench发布,包含54项医疗任务(7个类别),每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后,整体任务成功率低,最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难,而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。

智能体Microsoft论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
PixelEyes:解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体,通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标,专用感知工具采用掩码引导视觉搜索(Mask-guided Visual Search)和语义区域广度优先搜索(Semantic-region BFS)提供精确定位,消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练,并引入Pinpoint-Bench零提示视觉搜索基准,用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
ASPIRE:通过迭代机器人探索的自主技能编程系统

ASPIRE是一个持续学习系统,在代码即策略范式下自主编写和优化机器人控制程序,并累积经验为可复用的技能库。其三个组件为:闭环执行引擎(提供细粒度多模态轨迹,支持故障诊断、修复验证)、持续扩展的技能库(将修复蒸馏为可迁移知识)、进化搜索(生成多样化任务序列与控制程序)。在LIBERO-Pro扰动测试中比先前方法提升77%,Robosuite双臂交接提升72%,BEHAVIOR-1K长周期家务提升32%。其技能库实现零样本泛化:在LIBERO-Pro Long上ASPIRE成功率31%,对比方法仅4%。模拟发现的技能初步验证了仿真到真实迁移,减少了不同机器人与API上的编程工作量。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
当大语言模型粗心读取表格:衡量与减少数据引用错误

大语言模型在表格任务中仍会出现数据引用错误(DRE),即错误引用或遗漏表格数值。研究首次系统评估了不同模型(1.7B至20B参数)的DRE发生率,发现所有测试模型均存在该问题。将数据引用作为critic进行过滤和拒绝采样后,答案准确率提升最高达12.0%。团队训练了一个轻量级4B参数critic模型,在分布内和分布外DRE检测上取得平均F1分数78.2%,并能有效辅助更大模型进行推理。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
AutoTrainess:自主训练语言模型的LM智能体

AutoTrainess是一个LM智能体,将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口,通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上,AutoTrainess使用GPT-5.4(Codex)取得26.94平均得分,而纯CLI基线为23.21;该智能体还跨模型泛化,将DeepSeek-V4-Flash(OpenCode)的得分从12.13提升至19.58。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
39
AtomiMed:层次化原子事实检查实现通用临床感知的医学报告评估

现有医学报告生成评估指标依赖表层n-gram重叠,无法捕捉临床事实准确性且易忽略灾难性诊断错误。AtomiMed是一种通用、跨模态框架,将医学叙述分解为标准化多层次原子临床事实(疾病级实体与位置、形态、严重程度等属性级描述),并通过在地面真实与预测报告间执行智能体交叉验证循环模拟多放射科医生同行评审,实现诊断检测与描述准确性的解耦评估。配套开源工具包MRGEvalKit与多模态基准OmniMRG-Bench(覆盖X光、CT、MRI、超声)。实验表明,AtomiMed与人类判断相关性显著高于传统及基于模型的指标。代码已开源。

arXivGitHub论文/研究
07:28
Rohan Paul@rohanpaul_ai
65
Google 发布 Paper Assistant Tool:以智能体验证应对科学审稿瓶颈

Google 新论文提出“验证债务”概念:AI 加快论文产出,但人工核查成为瓶颈。为此推出智能体验证(agentic verification)方案,并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分,深入检查难点并汇总审稿意见,聚焦证明错误、实验漏洞、缺失对比等客观错误,而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中,该工具比单次模型调用发现更多证明错误;在 STOC 和 ICML 的面向作者试点中,许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。

智能体arXivGoogle论文/研究
05:30
Microsoft Research@MSFTResearch
46
AI智能体无法记住过去的对话。它们必须不断加载或检索上下文,随着任务变得更长更复杂,效率越来越低。 Memora通过一个可扩展的记忆系统解决了这个问题,该系统将存储的内容与检索方式分离开来:https://msft.it/6018vs3gC
智能体Microsoft论文/研究
02:28
宝玉@dotey
同事件精选79
Meta 发布 Brain2Qwerty v1 论文与 v2,非侵入式脑机接口解码准确率大幅提升

Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文,同日发布 v2。v1 从脑电信号逐字母解码,字符错误率 32%。v2 实现句子级实时解码,平均单词准确率 61%,最优 78%,过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据(约 2.2 万句子),结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高,但该成果为脑损伤患者提供了无需开颅的可行路径。

AI at Meta: We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...

Meta多模态开源/仓库论文/研究
同一事件,精选展示《Meta发布Brain2Qwerty v2:非侵入式实时句子解码》
推荐理由:非侵入式脑机接口从近乎不能用进步到能大致沟通,这一步证明了不开颅也可能接近侵入式的效果,剩下的主要是工程问题。做脑机接口或医疗 AI 的都值得关注。
02:26
Hugging Face:Blog(RSS)
52
DiScoFormer:一个跨分布同时估计密度与分数的单一Transformer模型

DiScoFormer(Density and Score Transformer)是一个无需重新训练即可从数据点估计分布密度和分数的单一模型。它利用Transformer的交叉注意力机制,在单次前向传播中输出密度和分数,并通过一致性损失实现分布外自适应。在100维空间中,DiScoFormer比最优调参的核密度估计(KDE)降低分数误差约6.5倍、密度误差超过37倍,且随样本量增加持续提升,而KDE内存耗尽。模型基于高斯混合模型训练,可泛化至非高斯分布(如Laplace、Student-t)及未见过的多模态混合。

数据/训练论文/研究
02:19
AYi@AYi_AInotes
71
Meta(扎克伯格团队)在非侵入式脑机接口研究上取得重大突破,推出 Brain2Qwerty v2。该模型基于同日发表在 Nature 上的 v1,是目前最高性能的端到端管道,能从原始脑信号实时解码句子,将解码能力从字符级提升至单词和语义级,显著提升整体通信准确性。这一进展比预期更快,有望帮助数百万因脑损伤或疾病无法交流的患者。

AI at Meta: We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...

Meta论文/研究
00:34
AK@_akhaliq
36
PhysisForcing 用于机器人操作的物理强化世界模拟器
具身智能论文/研究
6月29日
23:04
elvis@omarsar0
77
Meta AI 发布 Brain2Qwerty v2,非侵入性脑信号编码器最新里程碑,论文同日发表于《Nature》。该模型能从原始脑信号实时解码完整句子,准确度逼近需开颅手术的侵入式技术;从 v1 的字符级解码升级为词语及语义级解码,显著提升通信精度,有望帮助因脑损伤或障碍无法交流的数百万患者。

AI at Meta: We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...

Meta多模态论文/研究
20:27
AI at Meta@AIatMeta
精选79
Meta发布Brain2Qwerty v2:非侵入式实时句子解码

Meta公布Brain2Qwerty v2,这是非侵入式脑电信号解码研究的最新里程碑。基于当天发表在《Nature》的v1,v2是性能最高的端到端管道,能从原始脑信号实时解码句子。其从字符级性能提升至解码单词和语义,提高整体沟通准确性。该研究有望帮助数百万因脑损伤或疾病无法沟通的人群。

多模态论文/研究

推荐理由:Meta把非侵入脑解码从字符级推到语义级,Nature论文背书,我认真觉得这比任何benchmark刷分都有意义,给失语人群的希望比聊天机器人更值得关注。
18:36
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选62
OpenAI 报告:绘制欧洲 AI 劳动力机遇版图

OpenAI 发布新报告,分析 AI 对欧盟就业的影响,划定哪些职业面临自动化、增长或工作流程变化。

OpenAI现象/趋势论文/研究

推荐理由:与常见的「AI会取代工作」观点不同,OpenAI 用具体数据画出了欧洲就业的迁移路线,政策制定者应该打开看看,虽然报告全文的方法论尚待检验。
18:34
Hacker News 热门(buzzing.cc 中文翻译)
39
黑盒大语言模型的知识蒸馏

GPT-4 等闭源大语言模型性能优异,但因其作为黑盒教师无法提供内部状态,限制了知识蒸馏的效果。Proxy-KD 方法引入一个代理模型,实现从黑盒 LLM 到小模型的高效知识迁移。实验结果显示,Proxy-KD 不仅提升了黑盒教师蒸馏的性能,还超越了传统白盒蒸馏技术。

数据/训练论文/研究
13:27
Rohan Paul@rohanpaul_ai
56
《The Red Queen Gödel Machine》:剑桥大学与NVIDIA等机构提出智能体与评估者协同进化

剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》,提出让AI智能体与评估者协同进化,避免固定基准导致的分数停滞或易被利用。每轮训练中,评估者冻结,同时用留出的人类/客观答案单独训练更强评估者,在安全交接点更新。在编程任务上,系统以1.35×-1.72×更少token超越此前最佳自改进编程智能体;论文写作中,协同进化的写作者获得审稿小组约1.86倍的平均接收率提升。论文强调更强AI需要更强的评估者与之共同成长。

arXiv推理数据/训练论文/研究
08:03
AK@_akhaliq
28
DiffusionBench 关于扩散Transformer的全面评估
图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
35
CogSENet:受鹰视觉启发的盲图像去模糊框架

CogSENet是一种受鹰视觉启发的动态语义对齐重建框架,用于盲图像去模糊。核心模块包括:语义驱动状态空间模块(SDSSM),通过可微分路由实现语义感知的token重组与提示条件长程依赖建模;双频融合块(BFFB),用小波变换分解高低频特征,模拟鹰视网膜功能分化;连续模糊场(CBF),从模糊图像估计算法融合CLIP语义先验,调制深层潜特征以适应空间非均匀模糊。实验表明,CogSENet以更少参数在视觉质量和结构保真度上超越现有去模糊方法,并在去雾、去雨、去噪任务上表现良好。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
SciIR:面向科学图像推理生成的大规模训练数据集与基准

针对文本到图像模型在科学图像中语义对齐与逻辑推理的不足,本文提出SciIR框架,基于皮尔斯符号学三元组,涵盖实体结构、科学过程、科学定律三个维度。创建了SciIR-82k数据集,含超8万高质量科学图像-文本对,来自前沿论文,并引入科学推理思维链Sci-RCoT建模视觉逻辑。评估基准SciIR-Bench使用原子检查表将科学准确性转为可验证细粒度问题。实验表明当前模型推理能力不足;在SciIR-82k上微调的Qwen-Image-SciIR模型将Bench分数从35%提升至43%。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
SWE-Interact:重新构想面向用户驱动的多轮编码会话的SWE基准测试

SWE-Interact是一个面向编码智能体的新测试平台,评估其在多轮、交互式、用户驱动的软件工程任务中的表现。与一次性给出完整需求的传统SWE基准不同,它通过精心设计的用户模拟器,从模糊指令开始逐步揭示需求并提供反馈。在系列前沿和开源模型测试中,单轮任务表现优异的模型在多轮交互任务上的成功率从约50%降至约25%。最强模型虽能应对初始模糊指令,但仍存在过度编码、遗忘需求等技术错误;较弱模型则早早放弃或忽略要求。该测试衡量了模型交互式目标发现和迭代精炼的真实能力。

智能体编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
评估策略还是措辞?LLM数学推理中表面多样性与策略多样性之间的鸿沟

本文提出策略多样性(approach-level diversity),即同一问题正确解法在策略上的差异。通过人类校准的LLM法官框架,发现现有表面多样性指标无法可靠反映策略多样性,且该不匹配在多样性感知RLVR训练中延续——目标指标不变而策略多样性下降。策略多样的候选集可提升测试时扩展效果,但直接优化LLM法官多样性奖励会导致策略迎合法官偏好而非拓宽方法。策略多样性的直接优化仍是开放问题。工作揭示了表面信号与策略信号间的系统性偏离。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
MOPD:多教师在线蒸馏实现大语言模型后训练能力整合

大语言模型后训练中常用强化学习提升特定能力,但多能力整合困难。现有Off-Policy Finetune和Mix-RL等方法效率低或性能下降。MOPD提出新范式:先对每个领域进行专用RL训练获得领域教师,再在学生模型自身rollout上蒸馏这些教师,消除暴露偏差并提供密集优化信号。在Qwen3-30B-A3B上,MOPD优于Mix-RL、Cascade RL、Off-Policy Finetune和Param-Merge基线,几乎继承每位教师全部能力。MOPD支持领域教师并行独立开发,去除跨领域耦合,已部署于工业级模型MiMo-V2-Flash的后训练。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
MatMMExtract:面向材料科学的大规模多模态数据集MatSciFig

MatMMExtract 是一个端到端开源管道,将复合图表分解为独立子面板,并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章,从 180,571 张图中生成 MatSciFig 数据集,包含 391,606 个面板级图像-文本对,每对配有子标题、两级可视化类别(19 个大类、100+ 子类)和科学摘要。引入 MaterialScope 检测数据集(2,811 张人工标注图),微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中,Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡,82% 输出良好,模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍,所有资源已向社区开放。

多模态开源/仓库数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
紧凑型语言模型在RAG系统中实现设备端推理,无需GPU

一项研究评估了小型语言模型在检索增强生成(RAG)系统中的生成性能。实验采用开源与专有数据集,覆盖多种学科与问题类型。结果表明,配备小语言模型的RAG系统可在设备端直接运行,且无需任何GPU硬件,在合理时间内完成推理。实验代码及补充材料已通过GitHub仓库公开。

检索增强端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
PhotoQuilt:通过自举式分块去噪实现无需训练的任意分辨率光马赛克生成

PhotoQuilt提出无需训练的任意分辨率光马赛克生成框架,通过自举式分块去噪解决高分辨率生成中局部细节与全局结构难以兼顾的问题。先低分辨率生成全局构图,再升维加噪恢复生成能力,然后在固定分块内独立去噪,使每个分块形成独立图像的同时保持整体布局一致。该方法避免了二次注意力开销,可扩展到大型画布。实验表明,PhotoQuilt在全局结构和局部真实感上均优于现有基线。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
BrainJanus:融合脑、视觉与语言的统一模型

BrainJanus是首个统一脑模型,在单一框架内融合脑、视觉与语言。它通过Unified Brain Tokenizer将连续神经动态量化为离散token,与视觉和语言表征在共享Omni空间中对齐。基于All-in-One自回归架构,利用下一token预测实现任意方向生成,包括图像/文本到脑的编码以及脑到图像/文本的解码。实验在多个基准上表现优越,具备零样本泛化能力,并保持可解释的脑拓扑结构。代码已公开。

arXivGitHub多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
LUMOS:面向可访问性基底的AI智能体的语义操作系统层

现有操作系统接口针对人类用户设计,AI智能体依赖截图、OCR和视觉裁剪带来高token成本、视觉歧义和延迟。LUMOS在AI智能体与操作系统间构建语义交互层,将原生可访问性元数据和浏览器UI结构转换为带稳定标识符、角色、名称、值、边界和动作能力的机器可读语义蓝图,并通过操作系统自动化API查询光标附近UI元素实现实时语义指针定位。LLM通过基于可访问性的观察-行动循环使用受限可见UI原语操作。LUMOS不取代视觉智能体,而是减少对截图的依赖。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
DOPD:优势感知的双在线蒸馏

在线策略蒸馏(OPD)通过密集的token级信号监督学生采样轨迹,实现能力迁移,但引入特权信息会引发“特权幻觉”——学生将信息不对称差距误认为可迁移的能力差距。该问题因token级监督的非均匀性而加剧,仅有少量token携带关键能力信号。DOPD提出优势感知的双蒸馏范式,根据优势差距和相对概率动态在特权教师与特权学生策略之间路由token级监督,缓解特权幻觉。在LLM和VLM上的实验表明,DOPD优于标准OPD及其他方法。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
AVTok:面向整体音频-视频生成的一维统一分词器

AVTok 是一种新颖的统一分词器,专为整体音频-视频生成设计。它采用双流 Transformer 架构,包含共享编码器-解码器和模态特定的可学习查询,将音频-视频对高效编码为紧凑的一维潜在表示并共享同一码本。为应对异质信息不平衡,研究者设计了分层训练策略,逐步重建各模态。实验表明,AVTok 在音频-视频重建及下游任务(音频到视频、视频到音频、类别条件联合生成)中均表现优异,为构建统一音视频大语言模型提供了潜在方向。

多模态视频论文/研究
06:57
Rohan Paul@rohanpaul_ai
44
研究:AI智能体缺乏真正记忆系统,现有评测忽略记忆自身性能

一篇新论文指出AI智能体目前缺乏真正的记忆系统。现有测试只检查最终答案,忽略了记忆系统本身的性能。论文将智能体记忆拆分为存储、事实提取、有用记忆检索、旧/冲突记忆维护四部分,在12个记忆系统、5个工作负载、11个数据集上评测。核心发现:没有一种记忆设计能在所有场景胜出——图记忆擅长关联事实,混合系统善于过滤搜索,原始痕迹则在精确动作历史记录中表现最佳。

智能体论文/研究评测/基准
04:57
Rohan Paul@rohanpaul_ai
65
PlanBench-XL:评估LLM智能体在大规模工具生态中的长程规划能力

论文提出PlanBench-XL基准,包含327个任务和1,665个工具,测试LLM智能体在工具难以发现时完成长程工具使用任务的能力。GPT-5.4常规准确率为51.90%,最困难的blocked设置降至11.36%。核心思路是让智能体同时从已知向前推理和从需求向后推理,而非依赖显式工具路径。论文还加入破损或误导性工具,考验智能体在路径失败时自主切换策略。

智能体论文/研究评测/基准
04:27
Rohan Paul@rohanpaul_ai
44
新论文提出Web需为AI智能体制定新规则

一篇新论文指出,当前Web假设人类浏览页面、观看广告、点击链接,但AI智能体可收集并总结内容而不回访原站,损害出版商利益并导致网站封锁。作者提议将AI智能体视为人类代理,在Web请求中添加“agent metadata”,标明身份、所代表的人类、目的、限制和支付规则。网站通过新策略文件agents.txt决定允许、限速、收费、继承用户订阅、提供代理友好内容或屏蔽。内容还需附带provenance标签,让智能体识别来源是人类、AI还是两者。缺乏新机制将导致Web更难访问、出版商更难盈利、AI内容循环降低可靠性。

智能体arXiv搜索论文/研究
02:01
elvis@omarsar0
44
剑桥Red Queen Gödel Machine:智能体与评估器共同进化

一篇关于自我改进智能体的论文指出,自改进循环往往在评估器固定后停滞——智能体学会迎合固定评估器而非真正进步。剑桥大学提出的“Red Queen Gödel Machine”让智能体与其评估器共同进化,使标准随着智能体提升而持续提高,从结构上避免奖励欺骗(reward hacking)。名称借用了进化军备竞赛的隐喻:双方都必须不断奔跑才能保持原地。论文链接在arxiv。

智能体arXiv论文/研究
‹ 上一页
12345…50
下一页 ›