AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 2862 条
全部一手资讯X论文
6月26日周五
08:00HuggingFace Daily Papers(社区热门论文)48像素空间自回归图像生成的并行 rollout 近似(PRA)
08:00HuggingFace Daily Papers(社区热门论文)47MultiHashFormer:基于哈希的生成式语言模型
08:00HuggingFace Daily Papers(社区热门论文)44GBC:基于梯度的连接用于优化多智能体系统
08:00HuggingFace Daily Papers(社区热门论文)34平移作为桥接动作:从人类到机器人的操作技能迁移
08:00HuggingFace Daily Papers(社区热门论文)43NormGuard:流匹配强化学习中保持奖励的规范约束
08:00HuggingFace Daily Papers(社区热门论文)47ProMSA:渐进式多模态搜索智能体用于知识型视觉问答
08:00HuggingFace Daily Papers(社区热门论文)47PhysisForcing:面向机器人操作的物理增强世界模拟器
08:00HuggingFace Daily Papers(社区热门论文)52SimFoundry:面向策略学习与评估的模块化自动化场景生成系统
08:00HuggingFace Daily Papers(社区热门论文)55迈向自动化科学评审:Google 的 Paper Assistant Tool(PAT)
05:53Rohan Paul67BabelTele:LLM间通信压缩文本至27.9%保语义99.5%
04:55Lilian Weng:Lil'Log(RSS)44扩展定律综述:参数、数据与计算的最优分配
04:35Chubby♨️60IBM 0.7nm芯片突破:晶体管密度翻倍,能效提升70%
04:25elvis41Meta Autodata:智能体自动构建合成训练数据
03:25Hao AI Lab52JetSpec:通过因果并行树草稿推测解码将LLM生成延迟推向极致
03:23Rohan Paul80同事件精选OpenAI 内部论文:Codex 已占 99.8% 内部输出 tokens,智能体正向全部门扩散同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》
03:01Hacker News 热门(buzzing.cc 中文翻译)78精选IBM 首度推出亚纳米级芯片技术
02:31Hacker News 热门(buzzing.cc 中文翻译)79精选赫库兰尼姆古卷首次被完整虚拟解读
01:37Google Research:Blog(网页)48用线性弹性缓存优化云经济
01:23Rohan Paul47Meta论文Autodata:智能体数据科学家生成高质量合成数据
01:23Rohan Paul62172B token研究:LLM文档问答幻觉率实测
01:12jason47OpenAI 论文:从聊天到智能体委托
01:12Epoch AI31招聘信息揭示中国AI公司策略
00:54AK27DomainShuttle:开放域主体驱动视频生成
00:53Microsoft Research30微软生成式因果测试揭示语言脑区
00:24AK24智能体原生记忆系统,准备好了吗?
00:00Google Research:Blog(网页)55精选冻结多token预测加速Pixel上的Gemini Nano模型
6月25日周四
18:58IT之家(RSS)43富士通介绍PHOTON架构:多查询性能最高达Transformer的475倍
18:23Rohan Paul49为何更大的模型学得更多:容量、干扰与罕见任务保留的影响
18:13HuggingFace Daily Papers(社区热门论文)67开放权重LLM中的约束代价:结构化输出约束下工具调用抑制的实证研究
17:09OpenAI:官网动态(RSS · 排除企业/客户案例)65精选OpenAI内部报告:智能体Codex如何改变工作
16:12HuggingFace Daily Papers(社区热门论文)43MVTrack4Gen:多视角点跟踪作为4D视频生成的几何监督
15:12HuggingFace Daily Papers(社区热门论文)34ShutterMuse:利用MLLM进行拍摄时摄影指导
13:12HuggingFace Daily Papers(社区热门论文)44V-Zero:无需答案标签的对比证据门控用于细粒度视觉推理
12:12HuggingFace Daily Papers(社区热门论文)41TryOnCrafter:通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿
11:12HuggingFace Daily Papers(社区热门论文)70精选Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案
11:12HuggingFace Daily Papers(社区热门论文)52DomainShuttle:面向开放域主题驱动的文本到视频生成
11:12HuggingFace Daily Papers(社区热门论文)43Autodata:让AI智能体成为数据科学家,自动构建高质量合成数据
09:00公众号:蚂蚁百灵(Ling)51Ling Team 提出 UFP4:FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1
08:00HuggingFace Daily Papers(社区热门论文)56RedVox:语音模型在跨语言场景中的安全性与公平性差距
08:00HuggingFace Daily Papers(社区热门论文)49PolyFlow:面向艺术家风格网格生成的连续拓扑嵌入流匹配框架
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月26日
08:00
HuggingFace Daily Papers(社区热门论文)
48
像素空间自回归图像生成的并行 rollout 近似(PRA)

像素空间连续 token 自回归图像生成面临高维 patch 单步误差大与训练-推理 gap 累积问题。现有方法只能部分缓解。本文提出并行 rollout 近似(PRA),通过生成低维中间状态再经像素解码器映射回像素 token,并在训练时利用相同路径构造类推理像素输入,保持并行教师强制训练。在 ImageNet-1K 256×256 类条件生成上,135M 参数的 PRA-S 取得 FID 2.58,511M 参数的 PRA-L 降至 1.94,创像素空间 AR 模型新 SOTA,且分类探查准确率优于其他基线。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
MultiHashFormer:基于哈希的生成式语言模型

MultiHashFormer 使用多个独立哈希函数将每个 token 编码为短哈希 ID 序列,由 Hash Encoder 压缩为隐向量后经 Transformer 解码器处理,再由 Hash Decoder 生成下一 token 的哈希签名并映射回文本,实现基于哈希的自回归生成。在 100M、1B 和 3B 参数规模下,它在多项基准上持续优于标准 Transformer 语言模型,并支持多语言词汇表扩展而不增加参数量。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
GBC:基于梯度的连接用于优化多智能体系统

针对大语言模型多智能体系统协作不佳与缺乏细粒度信用分配的问题,提出GBC方法。GBC将多智能体系统建模为计算图,引入基于梯度的连接权重,在token级别量化每个智能体输出对下游的影响。通过构建归因图并反向传播任务损失,实现错误源精确定位与定向提示词优化。配套开发基于前缀梯度计算的AgentChord实现。在MultiWOZ和τ-bench上实验表明,GBC提升多智能体性能,超越强单智能体与多智能体基线,且归因质量越高优化效果越好。代码已开源。

智能体GitHub数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
34
平移作为桥接动作:从人类到机器人的操作技能迁移

研究从人类动作数据向双臂平行夹爪机器人转移操作技能的方法。针对6DoF人体姿态估计噪声大、接触模式差异大的问题,提出桥接动作表示——初始头部相机帧内的相对手腕平移,作为人类与机器人共有的动作空间。构建π_0-like视觉-语言-动作模型,通过交错动作token和注意力掩码处理不同形态间动作分量的缺失。在双臂操作任务上,该方法比噪声6DoF动作更有效地转移人类操作知识,且效果随人类数据量增加而提升。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
NormGuard:流匹配强化学习中保持奖励的规范约束

流匹配生成模型在强化学习后训练中,速度范数膨胀5%-15%导致感知质量下降,而推理时重缩放无法修复。NormGuard引入铰链惩罚,仅在速度范数超过参考值时激活,可加性组合到任何速度局部损失之上。在两种基础模型、三种后训练方法(NFT、AWM、DPO)和两种奖励代理上,NormGuard一致提升MLLM评判的图像质量和逼真度,同时保持奖励,且收益在少步推理下进一步放大,并非由早停解释。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
ProMSA:渐进式多模态搜索智能体用于知识型视觉问答

ProMSA是一种渐进式多模态搜索智能体,用于知识型视觉问答(KB-VQA)。给定图像-问题对,智能体在明确的工具调用预算和去重机制下,迭代选择图像搜索、文本搜索或停止。训练先通过拒绝采样SFT学习有效工具使用格式,再使用TN-GSPO序列级RL目标优化,该目标按生成长度和工具交互深度归一化更新。在E-VQA和InfoSeek基准上,ProMSA持续优于强RAG和智能体基线,提升了检索和端到端准确率。代码已开源。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
PhysisForcing:面向机器人操作的物理增强世界模拟器

视频生成模型常生成物理不合理的操作。PhysisForcing 通过联合优化像素级和语义级特征,重点监督物理信息区域来强化物理一致性,包括像素级轨迹对齐损失和语义级关系对齐损失。在 R-Bench、PAI-Bench 和 EZS-Bench 上,PhysisForcing 一致提升基线模型:Wan2.2-I2V-A14B 和 Cosmos3-Nano 在 R-Bench 分别提升 22.3% 和 9.2%(优于普通微调的 7.1% 和 3.7%),Cosmos3-Nano 变体取得最佳总分。作为 WorldArena 世界模型,闭环成功率从 16.0% 提升至 24.0%,并改善下游策略。

具身智能视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
SimFoundry:面向策略学习与评估的模块化自动化场景生成系统

SimFoundry是一个模块化自动化系统,能从视频零样本构建真实到仿真的场景,生成可用的数字孪生,并支持对象、场景和任务的编辑,自动生成保持原始功能但经过变化的数字表亲。基于SimFoundry数据训练的策略可零样本迁移到真实世界的多步操作、铰接物体交互和双手交互任务;数字表亲有助于泛化到新真实条件。在7个操作任务和5种策略架构上,SimFoundry仿真评估与真实性能高度相关(平均Pearson相关系数0.911,最大排序违反0.018)。使用对象、场景和任务表亲训练的仿真策略在零样本真实评测中,任务成功率分别提升17%、21%和40%。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
迈向自动化科学评审:Google 的 Paper Assistant Tool(PAT)

Google 发布 Paper Assistant Tool(PAT),一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文,生成综合评估,包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术,PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点,可发现关键错误并提出实质性改进,在保留评审员对结果控制权的同时减轻其认知负担。

智能体Google推理论文/研究
05:53
Rohan Paul@rohanpaul_ai
67
BabelTele:LLM间通信压缩文本至27.9%保语义99.5%

新论文"LLMs Do Not Always Need Readable Language"提出BabelTele压缩写作风格,让LLM间通信混合缩写、符号、多语言片段及非传统结构,替代人类自然语言的长文本。即使失去人类可读性,模型仍能回答、记忆并在智能体间传递信息。最强结果:BabelTele保持约99.5%语义保真度,同时将文本压缩至原始长度的27.9%。

智能体arXiv推理论文/研究
04:55
Lilian Weng:Lil'Log(RSS)
44
扩展定律综述:参数、数据与计算的最优分配

扩展定律揭示训练损失随模型参数量N、数据集大小D和计算量C按幂律递减。文章回顾了Kaplan等人(2020)及Chinchilla扩展定律的三种拟合方法(固定模型大小改变token预算、等FLOP曲线、参数拟合),以及Amari等人(1992)和Hestness等人(2017)的早期学习曲线研究。还探讨了数据有限区域的扩展定律、实际拟合陷阱与玩具模拟,核心在于最优分配计算资源于N和D。

数据/训练论文/研究
04:35
Chubby♨️@kimmonismus
60
IBM 0.7nm芯片突破:晶体管密度翻倍,能效提升70%

IBM 发布世界首个次纳米节点芯片技术突破——0.7nm(7埃)工艺,采用 3D "纳米堆栈" 晶体管架构实现垂直堆叠交错。该技术可在指甲盖大小的芯片上集成近 1000 亿个晶体管,密度约为 2021 年 2nm 芯片的两倍。相比前代,性能可提升 50% 或能效提升 70%,SRAM 缩放达 40% 以适配 AI 工作负载。IBM 强调目前仍为研究阶段,量产最早可能在未来 5 年内实现。

IBM News: The world's first sub-1 nanometer node chip is here. Delivering 70% greater energy efficiency, this breakthrough powers ...

论文/研究
04:25
elvis@omarsar0
41
Meta Autodata:智能体自动构建合成训练数据

Meta 发布新研究 Autodata,提出 Agentic Self-Instruct 方法。该方法将 AI 智能体视为数据科学家,通过智能体规划与工具使用,替代传统手工调优后固定的合成数据流水线。该智能体自身可通过元优化持续改进,从而生成更强训练数据。实验在计算机科学、法律推理、数学对象推理三个领域均超越经典合成数据方法,且元优化带来更大提升。论文见 arxiv。

智能体Meta数据/训练论文/研究
03:25
Hao AI Lab@haoailab
52
JetSpec:通过因果并行树草稿推测解码将LLM生成延迟推向极致

Sky Computing Lab推出JetSpec,一种通过因果并行树草稿(causal parallel tree drafting)联合优化草稿成本与质量的推测解码方法,可将LLM生成延迟推向极致。在MATH-500上达到最高9.64x端到端加速,开放式聊天达4.58x,且保持无损。结合CUDA graph和kernel优化,在单B200上实现约1000 TPS。

推理论文/研究部署/工程
03:23
Rohan Paul@rohanpaul_ai
同事件精选80
OpenAI 内部论文:Codex 已占 99.8% 内部输出 tokens,智能体正向全部门扩散

OpenAI 发布内部论文,显示 Codex 已成为公司主力 AI,产出 99.8% 内部输出 tokens,而一年前这一比例低于 10%。除工程部门外,法务、财务、招聘、支持及业务团队使用量快速增长。自 Aug-25 以来,非开发者个人使用增长 137 倍,组织使用增长 189 倍。重度用户日均运行约 71 小时代理任务,28.6% 的用户管理 5 个以上并发 agent,25.6% 的个体提交过超过 8 小时人工等价的任务。OpenAI 称,Agent 正使工作更复杂、更长期、更跨职能。

OpenAI: Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...

智能体OpenAI论文/研究
同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》
推荐理由:OpenAI 内部 agents 采用数据首次公开,非开发者使用暴增 137 倍,工作单元从“提问”变成了“分配任务”,这是 AI 融入日常运作的最强信号。
03:01
Hacker News 热门(buzzing.cc 中文翻译)
精选78
IBM 首度推出亚纳米级芯片技术

IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。

推理数据/训练论文/研究

推荐理由:IBM 把芯片制程推进到亚纳米,0.7nm 意味着 AI 芯片能塞进两倍晶体管,这对生成式 AI 的算力瓶颈是个好消息。虽然量产还要五年,但技术路线图清晰,值得关注。
02:31
Hacker News 热门(buzzing.cc 中文翻译)
精选79
赫库兰尼姆古卷首次被完整虚拟解读

研究人员利用高分辨率X射线显微断层扫描和机器学习,在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667(Scroll4)。这是首卷被从头到尾连续读取的纸莎草卷,内容为斯多葛哲学论著,提及克里西普斯的侄子Aristocreon。第二卷PHerc.Paris4通过更高分辨率成像使墨水在三维数据中直接可见,独立确认了2023年大奖赛的解读。第三卷PHerc.139确定标题和作者为菲洛德穆《论诸神》第八卷。所有数据与代码已公开。

GitHub开源生态论文/研究
关联讨论 1 条X:Ethan Mollick (@emollick)
推荐理由:两千年来首次完整读取密封的古卷,用 X 射线和机器学习做到了,还把数据和代码全开放了,我觉得这是 AI 应用在人文领域最优雅的示范之一。
01:37
Google Research:Blog(网页)
48
用线性弹性缓存优化云经济

Google Research 与 Google Cloud 提出线性弹性缓存,将缓存管理转为线性成本优化问题,动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架,在租用内存(持续付费)与购买缺失(缓存未命中惩罚)间选择,并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下(每 GiB 内存每天 $3),该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。

Google论文/研究部署/工程
01:23
Rohan Paul@rohanpaul_ai
47
Meta论文Autodata:智能体数据科学家生成高质量合成数据

Meta提出Autodata,将合成数据生成视为智能体数据科学家的任务。核心方法“Agentic Self-Instruct”让AI智能体生成并元优化合成训练与评估数据。循环流程:生成示例→弱模型与强模型分别尝试→判断结果→修订配方直至示例处于有用区间。论文强调难度不是美德,示例应针对弱模型的学习点。关键结果:在法律任务上,4B模型训练后超越了更大的397B基线。

Meta数据/训练论文/研究
01:23
Rohan Paul@rohanpaul_ai
62
172B token研究:LLM文档问答幻觉率实测

一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现:最佳模型在32K上下文下虚构率1.19%;强模型通常为5%-7%;中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时,所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明,幻觉不仅是检索失败,模型即便能正确找到事实,也易在事实缺失时过度作答。

arXiv检索增强安全/对齐论文/研究
01:12
jason@jxnlco
47
Codex 在 OpenAI 的使用为我们预览了未来智能体工作的可能面貌。 在一篇新论文中,OpenAI 经济研究团队着眼于从聊天到委托的更广泛转变:人们使用 AI 智能体不仅为了获取答案,还要委托更长时间、更复杂的工作。 https://openai.com/index/how-agents-are-transforming-work

OpenAI Newsroom: Codex usage at OpenAI gives us a preview of what agentic work may look like in the future. In a new paper, the OpenAI Ec...

智能体OpenAI论文/研究
01:12
Epoch AI@EpochAIResearch
31
中国 AI 公司有哪些策略? 为了更好地了解这一点,@cherylwoooo、@datagenproc 和 @ansonwhho 从六家主要中国公司抓取了超过 1600 条招聘信息。以下是他们的发现。🧵
现象/趋势论文/研究
00:54
AK@_akhaliq
27
DomainShuttle 自由形式开放域主体驱动文本生成视频
论文/研究
00:53
Microsoft Research@MSFTResearch
30
研究人员引入了生成式因果测试,它将黑箱模型转化为清晰的假设,并在扫描仪中进行验证,揭示了大脑特定区域对语言的反应。
Microsoft论文/研究
00:24
AK@_akhaliq
24
我们准备好迎接智能体原生记忆系统了吗?
智能体论文/研究
00:00
Google Research:Blog(网页)
精选55
冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。

Google推理端侧论文/研究

推荐理由:谷歌这篇技术博客值得端侧开发者细读,他们把多令牌预测硬是装进了已部署的 Nano 模型,Pixel 上生成加速五成,还省了 130MB 内存,零拷贝架构的想法挺巧,但没法直接复现,主要是开脑洞用的。
6月25日
18:58
IT之家(RSS)
43
富士通介绍PHOTON架构:多查询性能最高达Transformer的475倍

富士通昨日介绍PHOTON(自上而下网络并行分层计算)架构,宣称多查询场景下性能至高可达Transformer的475倍。PHOTON采用语义分层处理替代词元级分割,降低计算复杂度并提升并行性,减少长上下文或多线程同步时的访存开销。测试显示,600M、900M、1.2B参数模型上实现更高迭代吞吐量和更低内存占用,其中1.2B模型达475倍性能但质量略低。此外,每次迭代所需KV Cache更少,可提升最大迭代次数,有助降低GPU成本。

推理论文/研究
18:23
Rohan Paul@rohanpaul_ai
49
为何更大的模型学得更多:容量、干扰与罕见任务保留的影响

Stanford、MIT、Harvard与Anthropic联合论文从训练层面解释大模型能力更强的原因:大模型遗忘更少,额外容量保护了弱学习信号。常见任务优先占据神经元,罕见任务在出现足够次数前被覆盖。小模型可能短暂捕捉罕见信号,但随后被常见任务更新覆盖。实验使用OLMo模型(4M到4B参数),结果显示大模型更好掌握低频任务,保留更多任务特征,梯度干扰更小。

Anthropic数据/训练论文/研究
18:13
HuggingFace Daily Papers(社区热门论文)
67
开放权重LLM中的约束代价:结构化输出约束下工具调用抑制的实证研究

当同时启用Tool Calling与JSON Schema约束时,多个开放权重LLM出现工具调用抑制(Tool Suppression)。控制实验在多模型与部署设置下复现了该现象。分析表明,JSON Schema约束被编译成基于语法的token掩码,导致工具调用token在解码中不可达。研究提出约束优先级反转(CPI)假设,并设计透明两遍执行(Transparent Two-Pass Execution)推理策略,将工具执行与模式约束响应生成解耦,无需重训练即可恢复工具调用并维持结构化输出。结果表明,单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。

智能体论文/研究部署/工程
17:09
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选65
OpenAI内部报告:智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到,智能体产品 Codex 取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求,70.2%超1小时,25.6%超8小时;99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛:个体用户增长137倍,组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点,平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体OpenAI现象/趋势论文/研究
关联讨论 2 条X:Jason Liu (@jxnlco)X:Rohan Paul (@rohanpaul_ai)
推荐理由:OpenAI 第一次用内部数据量化智能体如何改变工作,非开发者增速 137 倍比工程师还猛,Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新,但比大多数发布会都更值得做策略的人看一眼。
16:12
HuggingFace Daily Papers(社区热门论文)
43
MVTrack4Gen:多视角点跟踪作为4D视频生成的几何监督

MVTrack4Gen提出运动感知训练框架,将多视角点跟踪作为额外几何与运动监督信号,用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系,对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标,MVTrack4Gen增强运动感知对应,使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上,该方法达到最优几何一致性和有竞争力的相机精度。

多模态视频论文/研究
15:12
HuggingFace Daily Papers(社区热门论文)
34
ShutterMuse:利用MLLM进行拍摄时摄影指导

现有美学裁剪基准仅评估事后裁剪,忽略拍摄时对构图和姿态的实时指导。为此提出CaptureGuide-Bench,包含摄影师侧构图决策与细调、主体侧场景条件姿态推荐两任务。评估发现通用MLLM和专用裁剪模型均无法提供可操作姿态指导。进一步构建CaptureGuide-Dataset(13万样本),并开发ShutterMuse——经监督和强化微调的统一MLLM。在基准上,ShutterMuse摄影师侧整体性能最佳,主体侧姿态推荐具有竞争力且推理成本更低。

多模态论文/研究
13:12
HuggingFace Daily Papers(社区热门论文)
44
V-Zero:无需答案标签的对比证据门控用于细粒度视觉推理

多模态大语言模型(MLLM)进行细粒度视觉推理时,传统方法依赖强化学习或大规模标注推理轨迹,成本高昂。V-Zero提出无需标注文本答案标签的框架,通过将问题相关区域裁剪与负视觉视图配对,评估学生模型采样轨迹,并门控细粒度token级知识蒸馏,引入轨迹级判别能力。在多个视觉推理基准上,V-Zero持续提升细粒度视觉推理性能并保持强泛化能力,训练速度比监督微调方法快5倍以上,比强化学习基线快10倍以上。代码和数据集将开源。

多模态推理论文/研究
12:12
HuggingFace Daily Papers(社区热门论文)
41
TryOnCrafter:通过可渲染4D试穿代理释放相机轨迹实现真实视频虚拟试穿

TryOnCrafter是首个面向相机可控视频虚拟试穿(CaM-VVT)的统一DiT框架。它引入可渲染4D试穿代理,将高保真2D试穿先验蒸馏为基于3DGS的服装化身,再由SMPL-X序列驱动动画并度量对齐至重建背景点云,实现人体与环境的显式解耦。基于该代理作为几何锚点,Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。

图像生成视频论文/研究
11:12
HuggingFace Daily Papers(社区热门论文)
精选70
Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。

arXiv推理视频论文/研究

推荐理由:把自回归视频扩散蒸馏到1-2步采样,VBench冲到84.63,这个配方让实时视频生成和交互世界模型从论文走进了工程落地,做视频产品的该看。
11:12
HuggingFace Daily Papers(社区热门论文)
52
DomainShuttle:面向开放域主题驱动的文本到视频生成

DomainShuttle 提出一种面向开放域主题驱动文本到视频生成(S2V)的方法,支持域内(高保真保留参考主体特征)和跨域(允许主体无关属性随文本提示灵活变化)两种场景。该方法引入 Domain-MoT 模块,通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模;提出 Video-Reference DualRoPE 方案,将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模;设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明,DomainShuttle 在多种开放域场景中相比现有方法实现显著提升,兼具高主体保真度与生成灵活性。

arXiv多模态视频论文/研究
11:12
HuggingFace Daily Papers(社区热门论文)
43
Autodata:让AI智能体成为数据科学家,自动构建高质量合成数据

Autodata是一种通用方法,使AI智能体扮演数据科学家角色,自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化,使其学会生成更优数据,具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明,Autodata生成的合成数据集质量优于经典方法,且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据,有望改变AI数据的构建方式。

智能体数据/训练论文/研究
09:00
公众号:蚂蚁百灵(Ling)
51
Ling Team 提出 UFP4:FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文,重新思考 FP4 预训练中的格式选择。研究发现,主流 E2M1 格式存在先天 Shrinkage Bias,导致数值量化时左右 rounding bin 不对称,该 bias 在训练中累积拖慢收敛。相比之下,E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform(RHT)后,更高的 bucket 利用率能转化为实际量化质量收益,收敛表现优于 E2M1。团队提出 UFP4 方案:在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT,并将 SR 用于 dy 量化。研究认为,细粒度量化与 RHT 引入后,FP4 训练已转向“局部分辨率主导”,uniform 4-bit 格式的价值应被重新评估。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
RedVox:语音模型在跨语言场景中的安全性与公平性差距

语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准,覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示,即使在非对抗性条件下,漏洞依然存在;在非英语语言中问题更严重,且当请求来自语音输入时风险被放大。通过调查数据贡献者,研究还揭示了语音数据收集中的个人隐私挑战,指出自然语音安全研究面临更广泛的社会技术难题。

多模态安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
PolyFlow:面向艺术家风格网格生成的连续拓扑嵌入流匹配框架

自回归Transformer可生成高质量网格拓扑,但串行解码计算量比并行模型慢数个数量级;连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器,将离散顶点位置和法线投影为连续逐顶点嵌入,通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后,任意网格可转换为统一连续顶点状态空间。基于此表示,PolyFlow采用Transformer流匹配框架,对提取的点云特征条件化,实现完全并行顶点状态去噪;推理时通过ODE求解器快速生成,并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上,PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。

arXiv图像生成论文/研究
‹ 上一页
1…45678…50
下一页 ›