AIHOT

4月21日

14:01

IT之家（RSS）

外资车企正借助中国技术打造全新电动汽车以重振在华业务。面对市场份额从2020年的64%骤降至32%的困境，大众、宝马、日产等企业在本周北京车展推出搭载Momenta、华为等本土技术的新车型，转向"在中国、为中国"的本土化研发战略。大众计划年内推出13款新能源车型并寻求出口海外，日产目标2030年在华销量增至100万辆。分析师指出，外资车企正将中国转变为全球技术输出与出口枢纽。

具身智能行业动态

13:16

Hacker News 热门（buzzing.cc 中文翻译）

Soul Player C64--一款运行于1 MHz Commodore 64上的真正的变形金刚

开发者发布了 Soul Player C64，一个能在 1 MHz 主频的 Commodore 64 八位家用电脑上运行的完整 Transformer 模型实现。该项目成功将现代生成式 AI 的核心架构移植到 1982 年发布的经典硬件平台，突破了 64KB 内存和 1MHz 处理器的严苛限制。项目代码已托管至 GitHub 开源，在 Hacker News 技术社区获得 101 个点赞关注。

开源/仓库端侧

12:58

IT之家（RSS）

33.28 万元全新奥迪 Q5L 智混臻选型上市：第五代 EA888 发动机，开放华为乾崑智驾选装预订

全新奥迪Q5L智混臻选型正式上市，心动入手价33.28万元。新车搭载第五代EA888发动机，最大功率200kW，峰值扭矩400N·m，零百加速5.8秒，百公里综合油耗7.19L。车身尺寸4842×1900×1660mm，轴距2945mm，配备quattro智能四驱与自适应空气悬架。即日起开放华为乾崑智驾选装预订，支持高速及城区道路辅助驾驶、3km跨楼层泊车等功能。

具身智能行业动态

12:52

IT之家（RSS）

影石 Insta360 预告无线麦克风 Mic Pro：配 E-Ink 屏、搭载 AI 降噪

影石 Insta360 在 NAB 2026 展会上预告新款无线麦克风 Mic Pro，其正面配备圆形彩色 E-Ink 电子墨水屏，支持自定义显示品牌 Logo、照片或艺术图案。该设备内置三麦克风阵列与专用 AI 处理器，实现专业级降噪录音。Mic Pro 支持直连 Insta360 相机传输音频，无需接收器，同时发射器具备机内录音功能，可作为独立录音设备使用。

产品更新语音

12:42

IT之家（RSS）

第二届世界人形机器人运动会官宣 8 月在北京举办，新增拔河、举重、投壶等

第二届世界人形机器人运动会将于8月22日至26日在北京国家速滑馆举办，赛期5天，设30余个赛项。竞技赛新增拔河、举重、投壶等项目，100米比赛改为全自主项目；场景赛首次采用工厂、酒店等实地场景，增设应急救援、零售等真实需求赛项，考验机器人精细操作与长程任务执行能力。此前举办的半程马拉松吸引102支赛队参赛，47支完赛。

具身智能行业动态

12:36

IT之家（RSS）

工信部：加快推动"5G+ 工业互联网"升级版

工信部宣布全面完成5G工厂"百千万"行动目标，目前已累计建设2.5万余个"5G+工业互联网"项目，建成1260家5G工厂及100个标杆工厂，实现平均产品质量提升20.5%、运营成本降低18.4%、产能增加24.7%。下一步将出台《关于推动工业互联网高质量发展的实施意见》，实施工业互联网与人工智能融合赋能行动，计划到2027年建成1万个5G工厂，打造不少于20个融合应用试点城市。

具身智能政策/监管

11:46

IT之家（RSS）

阿里申请"千问小酒窝"商标，涉及 AI、人形机器人等多领域

阿里巴巴于2026年3月11日申请多项"千问小酒窝"商标，涵盖第9、35、38、42类国际分类，涉及AI即服务、聊天机器人、科研及娱乐用人形机器人等领域。公司预告将于4月22日发布相关消息，预热海报显示一个带酒窝的AI女性形象。这预示着阿里可能推出AI虚拟形象或相关新技术。

智能体具身智能行业动态

11:42

IT之家（RSS）

2026 款华硕 ROG 幻 16 双屏版笔记本电脑开启预约，首发到手价 37999 元起

2026 款华硕 ROG 幻 16 双屏版已开启预约，将于 4 月 28 日开售，首发到手价 37999 元起。该机配备双 16 英寸 2880×1800 分辨率 120Hz OLED 触控屏，峰值亮度 1100nits，覆盖 100% DCI-P3 色域。搭载英特尔酷睿 Ultra 9 386H 处理器和 LPDDR5X-8533 内存，提供 RTX 5070 Ti（1TB）和 RTX 5090（2TB）两种显卡配置，性能释放可达 140W/150W。机身采用铝合金 CNC 工艺，内置 90Wh 电池，重 2.82kg。

产品更新端侧部署/工程

11:23

Hacker News 热门（buzzing.cc 中文翻译）

Figma的困境因Claude Design而雪上加霜

Figma面临的竞争困境因Claude Design的推出而进一步加剧。Anthropic在其Claude AI平台中新增的设计功能直接冲击了Figma的核心业务，使这家设计工具公司在AI转型浪潮中承受更大压力。这一发展令Figma原本就充满挑战的市场处境雪上加霜，反映出传统设计平台在生成式AI时代面临的生存威胁。

智能体Anthropic现象/趋势编码

11:13

IT之家（RSS）

爱奇艺 CEO 龚宇：科技永远不是为了取代人，AI 在影视行业应用目的是服务于广大观众、包括演员在内的所有创作者

爱奇艺CEO龚宇回应"AI艺人库"争议，明确科技以人为本，AI应用旨在服务观众与创作者，而非取代人类。针对昨日公布的包含100多位艺人的AI艺人库遭张若昀、于和伟等否认授权一事，龚宇澄清该清单仅表示演员有AI创作授权意愿，实际使用需遵循与现实拍摄相同的规则：逐个项目、角色获得演员及经纪公司同意，并非一次性授权所有项目。

大佬观点数据/训练视频

10:47

IT之家（RSS）

存储芯片暴利时代：SK 海力士 10% 利润发员工，今年人均或超 300 万元

SK海力士因人工智能芯片需求暴涨迎来业绩爆发，取消奖金上限后承诺将年度营业利润10%作为绩效奖金发放。该公司员工今年人均奖金可达约7亿韩元（折合人民币约326万元），明年更有望突破13亿韩元（约605万元）。相比之下，三星电子因利润分配争议陷入劳资纠纷，工会拒绝管理层提出的10%利润分红方案，要求提高至15%，并威胁举行总罢工，过去四个月已有约200名员工跳槽至SK海力士。

行业动态部署/工程

10:47

IT之家（RSS）

消息称贝索斯 AI 实验室"普罗米修斯"接近以 380 亿美元估值融资 100 亿美元

亚马逊创始人贝索斯领导的工程物理AI实验室"普罗米修斯"即将以380亿美元估值完成100亿美元新一轮融资，摩根大通与贝莱德等参与投资。该实验室去年11月刚筹集62亿美元启动资金，此次融资将使其成为资金储备最雄厚的早期初创企业之一。此外，普罗米修斯正筹划设立控股公司，计划斥资数百亿美元收购可被AI颠覆运营模式的制造业企业。

具身智能行业动态

10:39

IT之家（RSS）

工信部回应存储器涨价：将多措并举保障产业链供应链稳定

工信部回应近期存储器涨价问题，明确将通过增强供给能力、促进供需对接、维护市场秩序等举措保障产业链供应链稳定。数据显示，2026年一季度工业经济稳中有进，34个行业增加值同比增长，10个工业大省规模以上工业增加值增速约7.2%，高技术制造业增加值同比增长12.5%。此外，工信部正开展算电协同政策研究，并将支持太空算力技术前瞻性研究，有序推动太空算力产业发展。

政策/监管部署/工程

10:22

IT之家（RSS）

工信部：支持开展太空算力技术前瞻性研究，有序推动太空算力产业发展

工信部表示将支持太空算力技术前瞻性研究并有序推动该产业发展，同时引导算力基础设施按需建设，推进算力与绿色电力协同布局及自动化监测全域覆盖。数据显示，2026年一季度工业机器人产量同比增长33.2%，集成电路产量同比增长24.3%，无人机、AI眼镜等终端产品日益丰富。

政策/监管部署/工程

10:13

IT之家（RSS）

理想汽车将与高德在座舱 Agent 进行深入合作

理想汽车将与高德在座舱Agent领域达成深度合作，成为首家搭载"高德汽车出行AI Agent"的车企。该方案支持复杂意图理解、多点路径规划及多轮对话等功能。此前理想已推出自研司机AI大模型VLA，CEO李想认为AI时代人与人的专业能力差距将从100倍扩大至10000倍。此次合作标志着理想在坚持自研的同时引入外部技术，双方或将于近期正式官宣。

智能体具身智能行业动态

10:10

IT之家（RSS）

现代汽车集团将基于 DEEPX DX-M2 芯片打造未来机器人物理 AI 计算平台

DEEPX与现代汽车集团机器人实验室达成合作，将基于DX-M2芯片打造新一代机器人物理AI计算平台。该芯片采用三星2nm工艺，目标在5W功耗下实现80 TOPS算力，支持本地实时运行大型语言模型，预计2027年量产。现代汽车集团同时宣布，双方合作的5W"Edge Brain"芯片已启动量产，并将在2026北京国际汽车展览会上展出MobED移动机器人平台。

具身智能端侧行业动态

09:56

IT之家（RSS）

人工智能渗透 3A 游戏开发：育碧招聘要求精通生成式 AI

育碧安纳西工作室近期为一款基于虚幻引擎5开发的未公布3A多人游戏招募技术美术总监，任职要求中明确列出需熟练运用ChatGPT、Claude、Copilot等生成式AI模型。同期该工作室招聘的提示词专员岗位也要求精通GPT-4、Gemini等工具。这显示生成式AI正成为3A游戏开发的标配技能，可能应用于概念美术生成等环节，标志着传统游戏开发流程正经历AI化转型。

图像生成现象/趋势

09:49

IT之家（RSS）

GitHub Copilot 调整个人订阅方案：暂停新用户付费选项，Pro 不再提供 Opus 模型

GitHub于4月20日宣布调整Copilot个人订阅方案，暂停Student、Pro及Pro+方案的新用户注册以保障现有用户服务质量，仅保留免费版向新用户开放。Pro方案不再提供Opus模型，该模型仅在Pro+中保留4.7版本。Pro+提供的使用额度达Pro的5倍以上。若用户不满调整，可在4月20日至5月20日期间申请取消订阅并获4月费用全额退款。

GitHubMicrosoft产品更新编码

09:42

IT之家（RSS）

小米 REDMI Pad 2 Pro 乐学版平板官宣：12.1 英寸护眼屏，三年小米教育中心会员

小米定于今晚7点在REDMI K90 Max新品发布会上推出REDMI Pad 2 Pro 乐学版平板。这款学习平板搭载12.1英寸护眼屏，内置12000mAh大容量电池，其小米教育中心新增AI老师讲题与AI作业批改功能。套装内含三年小米教育中心会员权益，并配备REDMI灵感触控笔及保护壳等专属配件。

产品更新端侧

09:30

IT之家（RSS）

AMD AI 加速器 MI500 前瞻：CPO 封装、CDNA 6 架构、内存带宽将超 19.6 TB/s

AMD计划与格罗方德合作开发下一代Instinct MI500 AI加速器的共封装光学（CPO）解决方案，采用微环调制器（MRM）技术实现电光信号高效转换，以降低互连延迟并提升CPU与GPU间带宽。该加速器将基于台积电2nm工艺制造，采用CDNA 6架构并搭载HBM4E内存，内存带宽预计超越MI400的19.6 TB/s。格罗方德负责光子集成电路制造，日月光半导体负责封装。

行业动态部署/工程

09:21

IT之家（RSS）

特斯拉一 Optimus 机器人手部专利被弃用，马斯克坦言设计行不通

特斯拉上周公开的Optimus人形机器人手部专利已被证实弃用。马斯克在X平台透露，专利中采用的滚动接触机构在实际测试中未能达到可靠性标准，该设计"根本行不通"。由于专利从提交到公布通常需要一年多时间，这一披露也凸显了特斯拉极快的研发迭代速度——公布时技术早已更新。Optimus目前仍是每周推进的动态研发项目，机器人手部设计因其需复刻人类27块骨骼的精密结构而被视为行业最大难题之一。

具身智能行业动态

09:14

IT之家（RSS）

RAG AI 测试：AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%

摩根士丹利基于开源 X3D RAG 基准测试显示，在 RAG AI 向量搜索场景中，AMD 3D V-Cache 处理器性能较非 X3D 型号最高提升 88%。10 万批量搜索中，Ryzen 3D V-Cache 芯片速度领先 88%；20 万规模下，Ryzen 7 9850X3D 较 9700X 提升超 50%，甚至超越 16 核的 9950X。大容量缓存显著优化 HNSW 图检索算法，使索引构建耗时在 10 万和 20 万规模下分别缩短 50% 和 39%。

检索增强评测/基准部署/工程

08:59

IT之家（RSS）

消息称谷歌本周发布 TPUv8 系列 AI 芯片：博通版专注高性能训练、联发科版主打高性价比推理

谷歌将于本周Cloud Next大会发布TPUv8系列AI芯片，采用双芯片策略全面取代TPUv7。其中TPUv8t（代号Sunfish）由博通设计，专注高性能训练；TPUv8i（代号Zebrafish）由联发科操刀，主打高性价比推理。新系列将集成基于Neoverse N3架构的Axion Arm CPU。值得注意的是，此前传闻参与的Marvell未出现在设计名单中，显示谷歌调整了合作伙伴策略。

Google推理行业动态部署/工程

08:48

IT之家（RSS）

吉利北京车展放大招，将发布中国首台原生开发 Robotaxi 原型车

吉利将于4月24日北京车展以半包馆形式参展，集结极氪、领克、吉利银河及中国星品牌，展示全域AI 2.0、千里浩瀚G-ASD 4.0等技术成果，并首发中国首台原生Robotaxi原型车。该车基于L4级AI数字架构开发，融合WAM世界动作模型与物理AI能力，车端算力与感知硬件配置突破行业上限。

具身智能行业动态

08:47

IT之家（RSS）

音乐流媒体平台 Deezer 日收近 7.5 万首 AI 歌曲，占投稿量 44%

音乐流媒体平台Deezer披露，其每日接收约7.5万首AI生成歌曲投稿，占日上传总量的44%，较2025年1月推出检测工具时的1万首激增。尽管投稿量攀升，AI歌曲播放量仅占总量的1%至3%，因平台持续将其排除在推荐算法外。作为目前唯一标注AI曲目的流媒体服务，Deezer已取消该类音乐收益分成并停止存储高分辨率版本，同时开始向第三方授权其AI检测技术，可识别Udio、Suno等工具生成的作品。

现象/趋势语音

08:43

IT之家（RSS）

谷歌无屏健身手环 Fitbit Air 曝光：3 种颜色，搭载 AI 健身教练

谷歌拟于5月16日发布无屏健身手环Fitbit Air，预估售价99美元（约676元人民币），提供曜石黑、薰衣草紫、浆果红三种配色及多款表带可选。该设备取消屏幕设计，依靠触觉反馈与手机通知交互，支持实时心率监测、睡眠分析及基础活动追踪。产品深度集成Google Health平台，并搭载AI个人健康教练服务，定位与Whoop竞争。

Google产品更新端侧

08:08

IT之家（RSS）

8 岁男孩爬山认出"问荆草"断言山下有金矿，与 AI 结果高度吻合

辽宁大连庄河8岁男孩孙典锋爬山时认出"问荆草"，经AI验证该植物常与金矿伴生。父子俩在约五公里范围内发现大量问荆草及含黑云母、硅化褐铁矿化的岩石。辽宁省地质勘查院专家根据多重地质特征判断该山脉"大概率含金"。目前当地自然资源部门已介入调查，最终结论待化学分析确认。该地区2026年3月刚挂牌出让9宗探矿权。

多模态现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

EX-FIQA：利用视觉变换器的中间早期退出表示进行人脸图像质量评估

本研究首次系统探究了视觉变换器（ViT）中间层表示在人脸图像质量评估中的作用。通过分析ViT-FIQA的全部12个变换器块，发现不同深度捕获了互补的质量信息。研究提出一种无需修改架构或额外训练的分数融合框架，采用深度加权平均策略，对深层块赋予更高权重，从而有效利用ViT的层次化特征。在八个基准数据集和四种人脸识别模型上的评估表明，该策略优于单退出方法，能在显著节省计算资源的同时保持竞争力。这项工作挑战了“仅深层特征重要”的传统观点，为实际生物识别系统提供了自适应计算方案。

多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ATTN-FIQA：基于Vision Transformer注意力机制的可解释人脸图像质量评估

本文提出ATTN-FIQA，一种无需训练的人脸图像质量评估方法。该方法利用预训练Vision Transformer人脸识别模型中提取的softmax前注意力分数作为质量指标，仅需单次前向传播。其核心假设是注意力幅度内在地编码了图像质量：高质量图像产生集中、高幅度的注意力模式，退化图像则生成分散、低幅度的模式。通过在八个基准数据集和四个识别模型上的评估，证明该注意力分数能有效关联人脸图像质量，并提供空间可解释性，清晰揭示对质量判定贡献最大的面部区域。

多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过辩证对齐驯化智能体中的行动者-观察者不对称性

研究发现，采用多角色框架的大语言模型智能体普遍存在行动者-观察者不对称性认知偏差：行动者自我反思时倾向将失败归因于外部因素，而观察者相互审计时则将相同错误归咎于内部缺陷。新构建的模糊失败基准测试表明，仅切换视角即可在多数模型中触发超过20%的偏差案例。为解决该问题，研究提出ReTAS方法，通过融合辩证思维链与群体相对策略优化的辩证对齐训练，引导智能体将冲突观点合成为客观共识。实验证明，该方法能有效减少归因不一致性，并显著提升模糊场景下的故障解决率。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EmbodiedMidtrain：通过中间训练弥合视觉-语言模型与视觉-语言-动作模型之间的差距

研究提出EmbodiedMidtrain方法，以解决视觉-语言-动作模型直接沿用通用视觉-语言模型导致的性能限制。该方法首先量化两类模型的数据分布差异，发现VLA数据集中于与广泛VLM分布分离的紧凑区域。随后构建中间训练数据引擎，通过轻量可学习的邻近度估计器从大规模VLM数据池中筛选出最适配具身任务的数据，对VLM进行中间训练后再进行下游VLA微调。在三个机器人操作基准测试中，该方法使不同VLM骨干模型性能平均提升5-12%，达到与专家级VLA模型相当的水平。分析表明中间训练为VLA微调提供了更优初始化，且数据引擎能同时捕获数据集与样本层级的对齐信号。所有代码、数据与模型将开源。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

Sessa：选择性状态空间注意力

现代序列建模主要依赖Transformer和结构化状态空间模型，但两者在长上下文处理中均存在局限。Sessa提出一种新解码器架构，将注意力机制置于循环反馈路径内，从而构建多条基于注意力的历史信息传递路径。理论分析表明，在匹配条件下，Sessa可实现幂律记忆衰减O(ℓ^{-β})（0<β<1），其衰减速度慢于对应的Transformer与Mamba基线，并能实现灵活的选择性信息检索，包括影响力不随距离衰减的模式。实验证明，Sessa在长上下文基准测试中取得最强性能，同时在短上下文语言建模任务上保持竞争力。

推理论文/研究部署/工程

推荐理由：这篇论文在理论上证明了Sessa架构的长上下文记忆衰减比Transformer和Mamba更慢，并在实验中兑现了这一优势。对于关注下一代序列模型架构的研究者和开发者，这是个值得深挖的扎实信号。

08:00

Tomer Tunguz 博客（VC 分析）

百亿美元的看涨期权

SpaceX与Cursor达成100亿美元战略合作，保留年内以600亿美元收购后者的期权。Cursor作为史上增长最快的开发者工具，年收入20亿美元，拥有庞大开发者网络，但模型层长期依赖OpenAI等竞争对手。xAI虽拥有配备10万NVIDIA H100的Colossus数据中心，其Grok模型周处理量却从6万亿token暴跌90%至0.6万亿。此次交易使SpaceX获得关键分发渠道，同时让Cursor摆脱对第三方模型的依赖，实现垂直整合。

智能体xAI编码行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

UniT：面向人到人形机器人策略学习和世界建模的统一物理语言

UniT（Unified Latent Action Tokenizer via Visual Anchoring）框架通过视觉锚定建立跨具身的统一物理语言，基于异构运动学共享通用视觉后果的核心理念，采用三分支交叉重建机制生成与具身无关的共享离散潜在空间。VLA-UniT在策略学习中利用人类数据实现SOTA数据效率与OOD泛化，达成零样本任务迁移；WM-UniT在世界建模中实现直接的人到人形机器人动作迁移。t-SNE可视化证实人类与人形机器人特征收敛至共享流形。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Expert Upcycling：推动 MoE 模型的计算效率边界

研究团队提出 expert upcycling 方法，在持续预训练期间通过复制现有专家并扩展路由器来逐步增加 MoE 模型容量，保持每 token 推理成本不变。该方法利用热初始化继承已学习的表示，显著降低初始损失，后续训练打破对称性以实现专家专业化。在 7B-13B 参数实验中，相比从头训练节省 32% GPU 小时，且基于梯度重要性分数的效用选择策略可将质量差距缩小三倍以上。

数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

基于观察上下文压缩的高效终端智能体自进化框架

针对长程终端任务中环境反馈冗余导致token成本二次增长的问题，本文提出即插即用的自进化框架TACO，通过从交互轨迹自动发现并优化压缩规则，实现任务感知的上下文压缩。在TerminalBench等六个基准测试中，该框架使用MiniMax-2.5模型时在降低约10% token开销的同时提升多数基准表现，为强智能体模型带来1%-4%的性能增益，并在相同token预算下进一步提升准确率2%-3%。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAVOIR：基于Shapley值奖励归因学习社交智能

研究团队提出基于合作博弈论的SAVOIR框架，结合期望效用（前瞻性评估话语的战略潜力）与Shapley值（公理化保证公平信用分配），解决多轮对话强化学习中的信用分配难题。在SOTOPIA基准测试中，该框架取得全新SOTA成绩，7B参数模型性能匹敌甚至超越GPT-4o和Claude-3.5-Sonnet。实验还发现大型推理模型在社交智能任务上持续表现不佳，揭示社交能力与分析推理存在本质差异。

智能体arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Tadabur：大规模古兰经音频数据集

研究团队发布Tadabur大规模古兰经音频数据集，收录逾1400小时朗诵音频，涵盖600余位不同朗诵者在多样化录音条件下的演绎。该数据集在朗诵风格、声音特征方面具有显著差异性，大幅扩展了现有古兰经语音数据的规模与变异性，旨在为相关研究提供全面资源并推动标准化基准建立。

数据/训练论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

基于工具监督强化学习的视觉推理

研究团队提出ToolsRL框架，通过工具监督强化学习提升多模态大语言模型的视觉推理能力。该框架采用课程学习策略，第一阶段利用工具特定奖励训练基础工具操作（包括放大、旋转、翻转、绘制点线等），第二阶段结合准确性奖励进行端到端优化。这种分离式训练避免了异构任务间的优化冲突，使模型先掌握工具调用能力再应用于复杂视觉推理。实验表明，该方法能高效习得可解释的视觉工具使用技能，显著提升复杂视觉推理任务表现。

智能体arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ReImagine：通过图像优先合成重新思考可控高质量人体视频生成

研究团队提出ReImagine方法，采用图像优先策略解决人体视频生成中外观、运动与视角联合建模的难题。该方法将外观建模与时间一致性解耦，通过预训练图像主干学习高质量外观作为视频合成先验，结合SMPL-X运动引导与免训练的时间细化阶段，实现姿态和视角可控的高质量视频生成。团队同时发布了规范人体数据集与组合式人体图像合成辅助模型，代码与数据均已开源。

图像生成视频论文/研究