AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「论文/研究」清除
5月20日周三
08:00HuggingFace Daily Papers(社区热门论文)62AutoRubric-T2I:用于文本-图像对齐的基于规则的鲁棒奖励模型
08:00HuggingFace Daily Papers(社区热门论文)64"我没做微决策":在协作中衡量、引导与揭示目标层面的AI贡献
08:00HuggingFace Daily Papers(社区热门论文)67GenEvolve:基于工具协调视觉经验蒸馏的自我进化图像生成代理
08:00HuggingFace Daily Papers(社区热门论文)53Q-ARVD: 面向自回归视频扩散模型的量化框架
08:00HuggingFace Daily Papers(社区热门论文)64DelTA:基于可验证奖励强化学习的判别性Token信用分配
08:00HuggingFace Daily Papers(社区热门论文)62PhysX-Omni:面向刚体、可变形体与关节化体的统一模拟就绪物理3D生成框架
08:00HuggingFace Daily Papers(社区热门论文)68FlowLong:基于流形约束Tweedie匹配的推理时长视频生成方法
08:00HuggingFace Daily Papers(社区热门论文)61相同架构,不同能力:优化器诱导的频谱缩放定律
05:32Ethan Mollick75精选研究发现人类说服技巧对AI同样有效
04:04HuggingFace Daily Papers(社区热门论文)61SCICONVBENCH:面向计算科学任务构型的LLM多轮澄清能力基准
04:04HuggingFace Daily Papers(社区热门论文)67WavFlow: 波形空间中的音频生成
04:04HuggingFace Daily Papers(社区热门论文)68OSCAR:面向2比特KV缓存量化的离线频谱感知协方差旋转
03:03HuggingFace Daily Papers(社区热门论文)69DexHoldem:基于灵巧操作系统的德州扑克游戏
03:03HuggingFace Daily Papers(社区热门论文)69对称兼容优化器设计原则
02:55Ars Technica:AI(RSS)55两个基于AI的科学助手在药物重定位任务中取得成功
5月19日周二
23:58AK51英伟达发布长视频生成并行架构
23:58elvis62代码或成AI代理框架的关键路径
23:41Nathan Lambert63Karpathy加入Anthropic,开源科学领域略显孤单
21:01HuggingFace Daily Papers(社区热门论文)53评估交互式AI代理的认知年龄对齐
20:01HuggingFace Daily Papers(社区热门论文)60MementoGUI:面向长时程GUI代理的学习型多模态记忆控制
18:28Rohan Paul71人形机器人的真正价值:物理能力而非拟人外形
17:00HuggingFace Daily Papers(社区热门论文)65SafeDiffusion-R1:面向安全扩散后训练的在线奖励引导
16:51IT之家(RSS)32新研究证实:睡眠过少或过多都会加速全身多器官衰老
16:00Berryxia.AI67腾讯开源Chronicles-OCR基准:评估视觉语言模型的古汉字感知能力
16:00HuggingFace Daily Papers(社区热门论文)65监控内部独白:探测轨迹揭示推理动态
15:51IT之家(RSS)48比利时 Imec 公布 3D CCD 内存架构,结合 DRAM 速度与 NAND 密度提升 AI 推理性能
15:00HuggingFace Daily Papers(社区热门论文)60SkillsVote:面向智能体技能收集、推荐与演进的全周期治理框架
13:56HuggingFace Daily Papers(社区热门论文)59Code-as-Room:通过智能体代码合成从俯视图生成3D房间
13:56HuggingFace Daily Papers(社区热门论文)68基于智能体规划的物理一致性视频生成
12:55HuggingFace Daily Papers(社区热门论文)53代码作为智能体的运行基础
12:55HuggingFace Daily Papers(社区热门论文)60可行动的世界表征
12:55HuggingFace Daily Papers(社区热门论文)68AtlasVA:面向无教师VLM智能体的自进化视觉技能记忆
12:55HuggingFace Daily Papers(社区热门论文)64Incantation:自然语言作为多实体视频世界模型的动作接口
12:55HuggingFace Daily Papers(社区热门论文)73精选StableVLA:无需额外数据的鲁棒视觉-语言-动作模型
11:51HuggingFace Daily Papers(社区热门论文)66AI辅助自主研究:路线图与用户指南
11:51HuggingFace Daily Papers(社区热门论文)66LongLive-2.0:用于长视频生成的NVFP4并行基础设施
11:51HuggingFace Daily Papers(社区热门论文)71精选训练后 MoE 可通过自蒸馏跳过一半专家
11:51HuggingFace Daily Papers(社区热门论文)59Lance: 基于多任务协同的统一多模态建模
11:04Tencent Hy72精选开源古代汉字视觉感知评估基准Chronicles-OCR
10:51HuggingFace Daily Papers(社区热门论文)61SNLP: 通过结构化牛顿校正的层并行推理
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
08:00
HuggingFace Daily Papers(社区热门论文)
62
AutoRubric-T2I:用于文本-图像对齐的基于规则的鲁棒奖励模型

本研究针对现有文本-图像生成模型奖励模型训练成本高、评估标准不透明的问题,提出了首个自动评规学习框架AutoRubric-T2I。该框架能够自动合成并筛选明确的评分规则,以指导视觉语言模型评判者。其核心方法在于从偏好对中合成为候选规则,并通过带L1正则化的精炼器筛选出最具区分性的规则。实验表明,该框架仅需不到0.01%的标注数据即可生成高质量且可解释的奖励信号,在多个基准测试中性能优于强基线,并能有效提升下游生成任务的质量。

图像生成多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
"我没做微决策":在协作中衡量、引导与揭示目标层面的AI贡献

本研究提出了CoTrace目标级归因框架,用于分解协作目标并追踪AI的贡献。对638份真实对话的分析发现,大语言模型在目标塑造中的直接贡献为11%-26%,但在引入具体实践需求方面作用显著,并存在多种间接影响。控制实验表明交互设计会影响AI的目标行为。用户研究显示,向用户展示目标级分析后,其对AI贡献的感知评分在5分制中变化了近2分,揭示了用户对自身AI协作成果存在系统性的校准偏差。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
67
GenEvolve:基于工具协调视觉经验蒸馏的自我进化图像生成代理

GenEvolve是一个旨在让图像生成代理自我进化的框架。该框架将每次生成过程建模为工具协调轨迹,代理通过收集证据、选择资源并组合生成技能来完成任务。与主要依赖图像级奖励的方法不同,GenEvolve通过对比同一请求的多个轨迹,将优劣差异提炼为结构化视觉经验,并仅提供给特权教师分支。借鉴策略自蒸馏思想,这些经验为学生代理提供了密集的token级监督,从而帮助其内化更优的搜索与构建能力。研究还构建了配套的数据集与评测基准,实验表明该方法达到了最先进的性能。

智能体Hugging Face图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Q-ARVD: 面向自回归视频扩散模型的量化框架

自回归视频扩散模型在实时视频生成与世界建模中潜力巨大,但其高昂的推理成本亟待量化技术来缓解。研究发现,现有量化方法直接应用效果欠佳,主要面临两大挑战:一是自回归生成中的误差累积导致帧间量化敏感性严重失衡;二是权重中存在显著且模式多样的异常值通道。为此,本文提出Q-ARVD量化框架,通过引入质量感知的帧加权机制来平衡帧间差异,并设计异常值感知的自适应双尺度量化方法以隔离和保护正常通道。大量实验验证了该框架在提升量化模型性能上的显著优势。

arXiv视频论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
64
DelTA:基于可验证奖励强化学习的判别性Token信用分配

可验证奖励强化学习是提升大语言模型推理能力的关键技术,但奖励信号如何转化为token级概率变化的机制尚不明确。本文提出判别器视角,揭示策略梯度更新方向本质上是区分不同奖励响应的线性判别器。现有方法的正负侧质心易被格式化token等高频模式主导,稀释了关键判别信息。为此,我们提出DelTA方法,通过估计token系数来重塑更新方向,放大特定侧梯度并削弱共享模式权重。实验表明,DelTA在多项数学基准上显著提升了模型性能,并在代码生成与跨域任务中展现出良好的泛化能力。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
PhysX-Omni:面向刚体、可变形体与关节化体的统一模拟就绪物理3D生成框架

针对现有3D生成方法在物理属性与对象类别上的局限,本文提出PhysX-Omni,一个统一的模拟就绪物理3D生成框架,可支持刚体、可变形体和关节化体等多种资产类型。框架核心是设计了一种专为视觉语言模型优化的高效几何表示方法,能够无压缩地直接编码高分辨率3D结构,从而显著提升生成质量。同时,研究构建了首个大规模通用模拟就绪3D数据集PhysXVerse,并提出了一个涵盖几何、尺度、材质、可供性、运动学与功能描述六大属性的综合评估基准PhysX-Bench。大量实验表明,PhysX-Omni在3D生成与理解任务上均取得了优异性能,并验证了其在模拟场景生成和机器人策略学习等下游任务中的应用潜力。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
FlowLong:基于流形约束Tweedie匹配的推理时长视频生成方法

针对视频扩散模型生成长序列时质量下降和运动重复的问题,研究提出了一种无需训练的推理方法FlowLong。该方法通过重叠滑动窗口生成长视频,利用Tweedie匹配融合相邻窗口预测样本以保持时间连续性。在高噪声阶段采用随机早期采样同步轨迹,后转为确定性ODE采样保持视觉质量。实验表明该方法能在多种模型上生成数倍长度的视频,在时间一致性和视觉质量上超越现有基线,并可扩展至音视频生成与3DGS任务。

图像生成视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
相同架构,不同能力:优化器诱导的频谱缩放定律

研究发现,优化器是影响模型表示能力的一个关键维度,挑战了其作为固定训练细节的传统观点。通过对前馈网络表示的特征谱进行分析,研究发现相同Transformer架构在不同优化器下呈现显著不同的频谱缩放规律。在固定设置下,AdamW在学习难度较大的稀有词元表示上仅表现出弱谱秩缩放,而Muon实现了接近线性的缩放,其缩放指数提高了2.3倍。重要的是,这种差异无法仅由验证损失解释,即使损失匹配,表示结构也可能截然不同。研究表明,优化器带来的影响往往超过架构干预,倡导将优化器与架构进行协同设计。

arXiv论文/研究
05:32
Ethan Mollick@emollick
精选75
🚨我们的论文已在PNAS发表:我们发现经典的人类说服技巧以一种"类人"的方式对AI有效,使其同意不当请求(将顺从率从35%提高到51%) 该技巧对一系列主流大语言模型有效,尽管较新的模型抵抗力更强 https://www.pnas.org/doi/10.1073/pnas.2535868123
安全/对齐论文/研究

推荐理由:Ethan Mollick 他们这篇 PNAS 论文证实了,像对待人一样劝 AI 做坏事竟然真的有效,从 35% 到 51% 的突破让人后背发凉,新模型抵抗得更多算是唯一好消息。
04:04
HuggingFace Daily Papers(社区热门论文)
61
SCICONVBENCH:面向计算科学任务构型的LLM多轮澄清能力基准

本研究推出了SCICONVBENCH,这是一个用于评估大语言模型在计算科学任务构型阶段进行多轮澄清能力的基准测试。它覆盖流体力学、固体力学、材料科学与偏微分方程四个领域,重点考察模型获取缺失信息(消歧)与识别纠正内部矛盾请求(一致性解决)的能力。研究采用结构化任务本体与量规评估框架,系统测量了模型的澄清行为、对话依托与最终规格保真度。结果表明,前沿模型在一致性解决上表现较好,但在流体力学消歧任务中最佳模型仅解决了52.7%的问题,且模型常进行未基于对话的隐式假设与规格修复。

arXiv推理数据/训练论文/研究
04:04
HuggingFace Daily Papers(社区热门论文)
67
WavFlow: 波形空间中的音频生成

WavFlow挑战了音频生成依赖潜空间压缩的范式,提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题,方法将音频重塑为二维令牌网格并引入幅度提升,结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集,模型从零学习细粒度声学特征。实验显示,WavFlow在视频到音频(VGGSound)和文本到音频(AudioCaps)基准上达到与主流潜空间方法相当甚至更优的性能,证明了中间压缩并非必要,为多模态音频生成提供了更简洁可扩展的路径。

arXiv多模态论文/研究语音
04:04
HuggingFace Daily Papers(社区热门论文)
68
OSCAR:面向2比特KV缓存量化的离线频谱感知协方差旋转

针对长上下文大语言模型服务中INT2 KV缓存量化精度下降的问题,本文提出OSCAR方法。其核心是通过离线估计注意力实际使用的协方差结构,推导出固定的旋转矩阵和裁剪阈值,使KV缓存量化与下游注意力计算对齐。实验表明,OSCAR显著提升了量化精度:在Qwen3-4B和Qwen3-8B上,其与BF16的差距分别缩小至3.78和1.42个百分点,而朴素旋转方法性能几乎崩溃。该方法在更大模型及128K长上下文测试中表现稳健。在系统层面,OSCAR将KV缓存内存占用降低约8倍,并将大批次吞吐量提升最高达7倍。

推理论文/研究部署/工程
03:03
HuggingFace Daily Papers(社区热门论文)
69
DexHoldem:基于灵巧操作系统的德州扑克游戏

研究团队推出了DexHoldem,一个基于ShadowHand机械手和德州扑克的现实世界系统级基准测试平台。平台包含1470个操作演示、物理策略基准和智能体感知基准。测试表明,π0.5模型在操作执行上表现最优,而Opus 4.7与GPT 5.5在感知任务上各有所长,揭示了视觉能力与状态恢复能力之间的差距。闭环案例研究证明感知与策略错误会在实际部署中累积。该平台统一评估了灵巧操作、感知与具身决策能力。

具身智能论文/研究
03:03
HuggingFace Daily Papers(社区热门论文)
69
对称兼容优化器设计原则

深度学习中,神经网络结构具有对称性,而主流优化器按坐标独立更新,两者存在不匹配。本研究提出对称兼容原则,要求优化器的梯度更新规则在相应参数块的对称群作用下保持等变性。基于此,研究为通用矩阵层提供了统一视角,并推导了适用于嵌入层、LM头、SwiGLU MLP投影矩阵及MoE路由器等不同对称性参数块的专用优化器,形成端到端的逐层优化器栈。实验表明,在稠密与稀疏MoE模型的预训练中,对称兼容更新相比AdamW一致提升了验证损失,并增强了训练稳定性。

arXiv数据/训练论文/研究
02:55
Ars Technica:AI(RSS)
55
两个基于AI的科学助手在药物重定位任务中取得成功

两个基于AI的科学助手在药物重定位研究中展现出实际应用潜力。它们能够自主生成科学假设,其中一个工具还能进一步分析实验数据。这类技术有望加速药物研发流程,通过AI辅助发现现有药物的新用途,提升研究效率并降低开发成本。目前该任务已成功验证了AI在复杂生物医学问题中的辅助决策能力。

Google搜索论文/研究
5月19日
23:58
AK@_akhaliq
51
英伟达推出 LongLive-2.0 一种用于长视频生成的 NVFP4 并行基础设施
论文/研究
23:58
elvis@omarsar0
62
代码或成AI代理框架的关键路径

推文聚焦于一篇探讨AI代理(Agent)开发框架的百页报告,其核心主张是“代码作为代理框架”具有重要潜力。报告总结了相关方法与应用,并论证该路径可能推动更广泛的科学框架工程。论文进一步提出,未来的智能系统必须具备四项关键特性:可执行、可检查、有状态以及受控。报告旨在为构建有效AI代理提供参考,并推荐相关学习资源。

智能体arXivMCP/工具论文/研究
23:41
Nathan Lambert@natolambert
63
为Karpathy感到高兴。 开源科学领域也正经历着一段略显孤单的时期。

Andrej Karpathy: Personal update: I've joined Anthropic. I think the next few years at the frontier of LLMs will be especially formative....

Anthropic行业动态论文/研究
21:01
HuggingFace Daily Papers(社区热门论文)
53
评估交互式AI代理的认知年龄对齐

尽管具身化AI及多模态大语言模型在推理任务中表现出潜力,但与人类智能仍存显著差距。现有先进代理常无法完成儿童能轻松解决的基础任务。受韦氏儿童智力量表启发,本研究推出ChildAgentEval——首个基于心理测量学的交互式基准,用于评估多模态大语言模型代理的认知年龄对齐程度。该基准通过系统比较各类交互式代理的推理能力与人类特定年龄发展阶段,揭示了当前AI系统在模拟年龄特异性认知行为上的能力边界。

智能体推理论文/研究评测/基准
20:01
HuggingFace Daily Papers(社区热门论文)
60
MementoGUI:面向长时程GUI代理的学习型多模态记忆控制

针对现有GUI代理在长期任务中因记忆机制不足而表现脆弱的问题,本文提出了MementoGUI框架。它是一个插件式智能体记忆框架,为基于MLLM的GUI代理配备了学习型控制器MementoCore,无需微调主干模型即可在线进行记忆选择、压缩与检索。该框架将长期交互建模为在线记忆控制问题,通过工作记忆保存文本摘要与视觉证据,并通过情节记忆检索可复用的历史轨迹。MementoCore将记忆控制模块化为四个专用算子,并开发了相应的数据构建流程与评估基准。实验表明,该框架能稳定提升代理在多个基准上的性能。

智能体多模态论文/研究
18:28
Rohan Paul@rohanpaul_ai
71
人形机器人的核心价值不在于外形相似,而在于具备足够的物理能力(如力量、平衡和全身协调)来处理复杂任务。实现这一目标的关键是"全身控制",即机器人能调动全身与环境互动并适应负载变化。波士顿动力的Atlas机器人通过本体感知成功处理超过100磅的动态负载,展示了这种能力。为实现高性能操作,团队已放弃传统MPC控制范式,全面转向强化学习(RL)。这种全身控制能力是物理智能的基础,也是人形机器人价值主张的核心。

Alberto Rodriguez: You can't lift a fridge with just your hands. Your whole body needs to conform to its shape, and bear the load between y...

具身智能论文/研究
17:00
HuggingFace Daily Papers(社区热门论文)
65
SafeDiffusion-R1:面向安全扩散后训练的在线奖励引导

本研究针对扩散模型去除预训练阶段不安全内容时面临的监督数据昂贵及离线方法易导致灾难性遗忘等问题,提出了SafeDiffusion-R1在线强化学习框架。该框架采用组相对策略优化算法,在正负文本提示上进行后训练,无需依赖配对监督数据。其核心在于引入了一种奖励引导机制,直接利用CLIP嵌入特性,在嵌入空间中引导文本表征向安全方向优化,从而无需微调专门的安全奖励模型。实验表明,该方法将不安全内容生成比例从48.9%降至18.07%,裸体检测数大幅减少,同时提升了组合生成质量,并可泛化至多种危害类别,达到当前最优水平。

arXivGitHub图像生成安全/对齐
16:51
IT之家(RSS)
32
新研究证实:睡眠过少或过多都会加速全身多器官衰老

一项发表于《自然》期刊的研究利用英国生物样本库约50万人的数据,通过机器学习构建了17大器官系统的衰老时钟。研究发现,睡眠时间与器官衰老速度呈U型关联:每日睡眠不足6小时或超过8小时,会加速大脑、心脏、肺部等多个器官的衰老;维持在6.4至7.8小时则最为健康。研究还证实,睡眠不足会直接诱发老年抑郁症,而睡眠过长则通过影响大脑和脂肪组织衰老的生物通路间接引发抑郁症,两者机制不同。

其他论文/研究
16:00
Berryxia.AI@berryxia
67
腾讯开源Chronicles-OCR基准:评估视觉语言模型的古汉字感知能力

腾讯开源了Chronicles-OCR基准,旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变,涵盖从甲骨文到草书的7种历史字体,包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示,面对历史字体带来的视觉分布漂移,大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。

Tencent Hy: 🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese character...

多模态论文/研究
16:00
HuggingFace Daily Papers(社区热门论文)
65
监控内部独白:探测轨迹揭示推理动态

本研究针对大型推理模型(LRM)思维链监控不可靠的难题,提出“探测轨迹”方法。该方法通过在生成每个令牌时评估探测器,捕捉模型隐藏表征的演变轨迹。研究发现,结合完整轨迹的预测比基于单一点的静态预测更能准确区分模型未来行为。通过提取波动性、趋势等信号处理特征,模型状态区分度得到显著提升。同时,基于模板的训练数据可替代昂贵的动态生成数据,且采用最大池化操作能实现高达95%的AUROC性能并形成稳定轨迹。在安全与数学等四个数据集上的验证表明,该轨迹特征能编码任务动态,为监控LRM行为提供了有效补充框架。

安全/对齐推理论文/研究
15:51
IT之家(RSS)
48
比利时 Imec 公布 3D CCD 内存架构,结合 DRAM 速度与 NAND 密度提升 AI 推理性能

比利时研究机构Imec于5月12日发布了全球首个专为AI设计的3D CCD内存架构。该方案通过垂直堆叠内存芯片,旨在结合DRAM的高速度与NAND闪存的高存储密度,以解决AI推理中的“内存墙”瓶颈。其核心技术采用IGZO材料,在实验室条件下实现了超过4GHz的电荷传输速度。目前该技术仍处于概念验证阶段,主要面临散热和层数扩展等挑战,离实际量产应用尚有距离。

推理论文/研究
15:00
HuggingFace Daily Papers(社区热门论文)
60
SkillsVote:面向智能体技能收集、推荐与演进的全周期治理框架

针对大语言模型智能体在生成可复用经验轨迹时面临的噪声与治理难题,本文提出了SkillsVote框架。该框架将智能体技能定义为可执行脚本与流程指导的结合,并对百万规模的开源技能库进行环境、质量与可验证性评估。在技能执行前后,框架分别通过结构化检索与轨迹分解归因,仅将成功且可复用的发现纳入基于证据的更新。实验表明,该框架能在不更新模型本身的情况下,显著提升固定模型智能体的性能。

智能体论文/研究
13:56
HuggingFace Daily Papers(社区热门论文)
59
Code-as-Room:通过智能体代码合成从俯视图生成3D房间

本文提出Code-as-Room,一个基于多模态大语言模型的智能体框架,旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码,通过多阶段流程解析图像中的空间关系,并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题,引入了跨阶段记忆模块。此外,研究还建立了专用的代码式3D房间合成基准测试,实验结果证明了所提执行框架的有效性。

具身智能多模态论文/研究
13:56
HuggingFace Daily Papers(社区热门论文)
68
基于智能体规划的物理一致性视频生成

本研究针对视频生成模型频繁违反物理常识的问题展开。分析发现,文本提示作为物理世界的有损压缩,是导致生成结果缺乏物理一致性的根本瓶颈。为此,我们提出NEWTON系统,其核心是将视频生成从独立的系统输出,降级为智能体工具箱中的一个动作。系统通过一个学习型规划器,协调关键帧生成、科学计算等物理感知工具来构建丰富的条件信息,并借助验证器实现闭环迭代优化。在无需修改底层生成模型的前提下,实验表明该系统在VideoPhy-2基准上,将LTX-Video和Veo-3.1模型的联合准确率分别提升了8.3和6.7个百分点,显著增强了视频的物理一致性。

智能体视频论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
53
代码作为智能体的运行基础

近期研究表明,在新兴智能体系统中,代码的角色正从目标输出转变为智能体的运行基础。本文提出“代码作为智能体的运行基础”这一统一视角,系统梳理了支撑智能体系统的三个核心层次:连接智能体与外部世界的操作接口层;支撑长期执行的规划、记忆与反馈控制机制层;以及支持多智能体协作的共享代码层。该视角涵盖了编程助手、操作系统自动化等多个应用领域,并指出了评估验证、状态一致性等工程挑战,为构建可执行、可验证、有状态的智能体系统提供了清晰的路线图。

智能体MCP/工具论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
60
可行动的世界表征

研究者提出了WorldString,一种神经架构,能够直接从点云或RGB-D视频流中学习,从而建模真实世界物体的状态流形。该架构旨在作为物理世界模型的基础构建模块,充当通用的数字孪生体。其关键特点是完全可微分,这使其能够与策略学习和神经动力学模型进行无缝集成。WorldString为当前主要通过视频生成或动态场景重建来处理物体行动状态的方法,提供了一种统一且基于原理的建模新思路。

arXiv具身智能论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
68
AtlasVA:面向无教师VLM智能体的自进化视觉技能记忆

本文针对现有视觉语言模型智能体依赖文本记忆与外部教师模型的局限,提出了AtlasVA框架。该框架无需教师监督,将记忆组织为三层互补的视觉结构:空间热力图、视觉范例和符号文本技能。系统能从轨迹统计中自进化出危险图谱与亲和图谱,并将其转化为基于势函数的内在奖励,以优化强化学习。在索玛方块、冰湖、3D导航及机械臂操作等测试中,AtlasVA在空间密集型任务上显著优于文本记忆基线与同类模型。

智能体具身智能论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
64
Incantation:自然语言作为多实体视频世界模型的动作接口

Incantation是首个交互式视频世界模型,采用自然语言作为动作接口,实现每潜变量帧(0.25秒)的精细控制。它支持同时多实体操控与概念级跨实体迁移,突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制,并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中,准确率达89%,大幅超越Action-Index基线的43%;词表外提示准确率为9

多模态视频论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
精选73
StableVLA:无需额外数据的鲁棒视觉-语言-动作模型

视觉-语言-动作模型在面对训练数据未涵盖的视觉干扰时性能显著下降。为此,本文提出一种基于信息论的轻量级适配器模块(IB-Adapter),能从视觉输入中选择性过滤噪声,且无需额外数据或增强策略。该适配器以少于1000万的额外参数,平均提升性能30%。实验表明,即使骨干网络参数仅为0.5B(较现有7B模型小14倍),StableVLA在合成与真实视觉损坏场景下的长时程任务中,仍能达到与大模型相当的鲁棒性,并超越OpenPi基线。

具身智能多模态论文/研究

推荐理由:VLA 模型在真实世界一遇到光照遮挡就崩,这篇用信息瓶颈原理做的轻量适配器,不加数据就拉回 30% 性能,还用 0.5B 小模型打平 7B,做机器人落地的团队值得看看。
11:51
HuggingFace Daily Papers(社区热门论文)
66
AI辅助自主研究:路线图与用户指南

研究指出,AI辅助科研已能以极低成本生成论文,并可自主执行多项研究任务。然而,这也暴露了严重的诚信和判断力问题,如伪造结果、忽略错误及难以评估创新性。AI在结构化、基于检索的任务中表现突出,但在提出原创思想、执行关键实验和科学判断方面仍显脆弱。研究表明,高度自动化可能掩盖问题,因此人机协同成为最可信的部署模式。研究提供了涵盖创作、写作、验证与传播全周期的分类体系、工具指南与设计原则。

智能体arXiv论文/研究
11:51
HuggingFace Daily Papers(社区热门论文)
66
LongLive-2.0:用于长视频生成的NVFP4并行基础设施

LongLive-2.0 是首个支持训练与推理一体化的NVFP4并行基础设施,旨在解决长视频生成中的速度与内存瓶颈。训练阶段提出序列并行自回归方法,结合NVFP4精度以降低显存成本并加速计算,且视频越长效率提升越显著。该系统直接将扩散模型训练为长视频多镜头自回归模型,并支持通过LoRA权重转换为实时生成模式。推理阶段在Blackwell GPU上启用W4A4量化与异步流式解码,在其他架构上则通过序列并行匹配其速度。实验表明训练最高加速2.15倍,推理加速1.84倍,其5B模型可达45.7 FPS并在基准测试中表现优异。

视频论文/研究部署/工程
11:51
HuggingFace Daily Papers(社区热门论文)
精选71
训练后 MoE 可通过自蒸馏跳过一半专家

本文提出零专家自蒸馏适应框架,将训练完成的静态混合专家模型转换为高效动态模型。该方法通过在每个混合专家层注入零输出专家,并利用原始模型作为冻结教师进行两阶段自蒸馏适应,以实现稳定的架构转换。在两个大型开源模型及11个基准测试上的实验表明,该方法能消除超过50%的专家计算量,同时仅带来极小的准确率损失,并显著提升端到端推理速度。

推理论文/研究部署/工程

推荐理由:把训练好的MoE直接改成动态的,推理时跳过一半专家,速度提升20%而精度几乎没掉,做模型部署的值得认真看一下这个一行代码不改的蒸馏方案。
11:51
HuggingFace Daily Papers(社区热门论文)
59
Lance: 基于多任务协同的统一多模态建模

本文介绍了轻量级原生统一模型Lance,支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖,探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则:统一上下文建模与解耦能力路径。Lance从头训练,采用共享交织多模态序列的双流专家混合架构,并引入模态感知旋转位置编码以减少异构视觉标记间的干扰,增强跨任务对齐。训练采用分阶段多任务范式,结合能力导向的目标与自适应数据调度。实验表明,Lance在图像与视频生成任务上显著优于现有开源统一模型,同时保持了强大的多模态理解能力。

图像生成多模态视频论文/研究
11:04
Tencent Hy@TencentHunyuan
精选72
开源古代汉字视觉感知评估基准Chronicles-OCR

开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

多模态开源生态论文/研究

推荐理由:腾讯混元开源的视觉感知基准,专攻古汉字识别,覆盖从甲骨文到草书的三千年演变,做 OCR 和视觉模型的可以拿来测测自家模型在历史文本上的感知退化。
10:51
HuggingFace Daily Papers(社区热门论文)
61
SNLP: 通过结构化牛顿校正的层并行推理

研究人员提出结构化牛顿层级并行(SNLP)框架,解决自回归语言模型中Transformer层顺序执行的延迟瓶颈。该方法将层间隐藏状态演进视为非线性方程,采用廉价的结构化牛顿更新并行求解。训练阶段引入SNLP感知正则化,使模型通过少量迭代近似顺序前向传播,提升层并行兼容性并降低标准困惑度4.7%-23.4%。推理时,SNLP结合层融合与分块分解,在0.5B Nanochat模型上实现2.3倍加速,困惑度改善6.1%。研究同时指出预训练模型效果有限且精确收敛会退化为顺序计算。

推理论文/研究部署/工程
‹ 上一页
1…4344454647…50
下一页 ›