研究团队推出3DTV前馈网络,实现实时稀疏视角插值与视图合成。该方法结合轻量级几何与深度学习,通过Delaunay三元组选择确保角度覆盖,并引入姿态感知深度模块估计多尺度深度金字塔,支持高效特征重投影与遮挡感知混合。与需要场景特定优化的方法不同,3DTV无需再训练即可前馈运行,在挑战性多视角视频数据集上质量与效率均衡,性能优于现有实时基线,适用于AR/VR、远程呈现等低延迟交互场景。
研究团队推出3DTV前馈网络,实现实时稀疏视角插值与视图合成。该方法结合轻量级几何与深度学习,通过Delaunay三元组选择确保角度覆盖,并引入姿态感知深度模块估计多尺度深度金字塔,支持高效特征重投影与遮挡感知混合。与需要场景特定优化的方法不同,3DTV无需再训练即可前馈运行,在挑战性多视角视频数据集上质量与效率均衡,性能优于现有实时基线,适用于AR/VR、远程呈现等低延迟交互场景。
OmniShow 是一个面向人与物体交互视频生成(HOIVG)的端到端框架,支持文本、图像、音频和姿态等多模态条件输入。该方法提出统一通道级条件注入(Unified Channel-wise Conditioning)和门控局部上下文注意力(Gated Local-Context Attention)机制,在可控性与生成质量之间取得平衡,并采用解耦后联合训练策略(Decoupled-Then-Joint Training)解决数据稀缺问题。研究团队还建立了 HOIVG-Bench 基准测试。实验表明,OmniShow 在多种多模态条件下均达到行业领先的生成效果。
视频扩散模型在生成多事件视频时存在时序控制不足和语义纠缠问题。Prompt Relay 是一种推理时即插即用的解决方法,无需修改模型架构或增加计算开销。该技术通过在交叉注意力机制中引入惩罚项,强制各时间段仅关注对应提示,使模型逐次呈现单一语义概念。该方法显著改善时间提示对齐,减少概念干扰,提升生成视频的视觉质量和叙事连贯性。
My most popular Sora video was "an Elaborate regency romance where everyone is wearing a live duck for a hat (each duck ...
生数科技完成近20亿元B轮融资,声称将以通用世界模型定义下一代数字与物理世界的生产力底座。
Runway 扩大与 NYU Tisch 艺术学院合作,向 ITP、IMA 及 Hyper Cinema Lab 学生开放全套 AI 工具,支持课程作业与个人创作。Runway 创始团队曾就读于 ITP,此次合作旨在让新一代创作者掌握 AI 时代的电影与艺术工作流。
ReconPhys 是首个可从单目视频联合重建几何、外观与物理属性的前馈框架。该方法采用双分支架构与自监督训练策略,无需真实物理标签即可实现端到端推理。在合成数据集测试中,其未来预测 PSNR 达到 21.64,显著优于现有优化基线的 13.27;Chamfer Distance 从 0.349 降至 0.004。关键突破在于推理速度:仅需不到 1 秒即可完成重建,而传统方法需耗时数小时,为机器人与图形学领域快速生成仿真就绪资产提供了新方案。
Uni-ViGU框架通过扩展扩散式视频生成器统一视频生成与理解,反转了传统以理解为中心的多模态模型范式。该框架采用统一流方法,在单一过程中对视频进行连续流匹配、对文本进行离散流匹配;引入模态驱动的MoE架构,以轻量级层增强Transformer实现文本生成;并通过双向训练机制(知识召回与能力细化两阶段)将生成知识迁移至理解任务。实验表明,该模型在视频生成与理解任务上均达到竞争性性能,验证了以生成为中心的架构路径可行性。
可灵AI与清华大学联合宣布“高校原力计划”正式启动。该计划旨在推动AI视频生成技术在高校的产学研合作,具体细节未在本次公告中披露。
Google Vids 接入 Lyria 3 与 Veo 3.1 模型能力,新增免费 AI 视频生成功能,用户可无成本创建、编辑和分享高质量视频。
可灵AI生成清明主题视频,被评价为“最有人味的片子”。视频引发评论区大量用户分享自创的“纸手机”故事,展现AI与人文情感的碰撞。该作品由快手旗下可灵AI制作,突出AI在情感表达领域的突破。
Gaussian splats是新兴的实时3D渲染技术,可在iPhone上实现自由视角的沉浸式场景浏览。该技术用高斯分布编码场景结构与外观,相比NeRFs极大提升渲染速度。当前突破包括单图生成(Apple ML SHARP)、动态场景捕捉(4DV ai)及生成模型填补未拍摄区域。未来将成为Vision Pro等VR设备的核心娱乐格式,并与世界模型结合实现城市级漫游或游戏化交互,但仍需解决创建效率、存储传输及视觉真实感等挑战。
Veo 3.1 Lite 现已开放付费预览,作为 Google 成本效益最高的视频生成模型,支持通过 Gemini API 调用及 Google AI Studio 测试。
Runway 推出 Runway Builders 计划,为 Seed 至 Series C 初创企业提供最高50万免费 API 积分及 Characters 实时视频代理接口。该接口基于 GWM-1 模型,支持从单张图片零微调生成可控数字角色,适用于客服、销售助手等实时交互场景。
Runway 正式成立 Runway Fund,专注投资 AI、媒体与世界模拟领域的早期初创公司。基金初始规模 1000 万美元,单笔投资最高 50 万美元,重点布局 AI 研究、新应用及新媒体内容三大方向,已投项目包括 Cartesia、LanceDB 等。
昆仑万维在2026中关村论坛上展示两大全球顶尖模型 SkyReels V4 和 Mureka V9,获得多方高度赞誉。
这是一则简短预告,作者为仓促通知致歉,宣布将围绕战争与人工智能、Sora 的终结等话题发布几项公告,同时提供今日现场观看的三种途径,但正文未透露具体发布内容、技术细节或数据指标。
生数科技在公众号推文中指出,通用世界模型是连接数字世界与物理世界的桥梁。文章标题与正文均为此单一观点,未提供更多细节。
A breakthrough in real-time video generation. As a research preview developed with @NVIDIA and shared at @NVIDIAGTC this...
FastVideo团队发布Dreamverse原型界面,引入创新的“氛围导演”工作流。该模式允许用户通过自然语言实时、迭代地引导视频生成,如更换背景或调整运镜,无需编写复杂的长提示词。其核心是全新的实时推理栈,能在单GPU上以约4.55秒生成5秒1080p视频,速度快于观看时间,从而将生成过程从被动等待转变为实时导演体验。团队认为,视频生成的未来在于让创作速度跟上想象速度,快速的反馈循环比单纯追求模型性能更能催生优质作品。
万兴科技携手生数科技,深度集成Vidu Q3模型,以“大模型+工具+场景”模式,开启“人人都是漫剧创作者”的智能新时代。
Runway 发布 Characters 实时视频 API,支持从单张图片生成可对话虚拟角色。文章在介绍客服、教育等应用场景的同时,重点讨论了该技术在肖像权同意、实时深度伪造欺诈、情感操纵及社交依附等方面的潜在风险。Runway 已采取内容过滤(禁止儿童与公众人物形象)、限制专业领域建议及透明度标识等安全措施,但承认随着技术进步,相关治理挑战仍需持续应对。
Runway 推出内部孵化器 Runway Labs,探索生成式视频与通用世界模型的新应用。由联合创始人 Alejandro Matamala Ortiz 领导,团队将快速原型化前沿实验产品。目前正在招聘设计工程师、ML工程师、全栈工程师及前创业者。
3月13日,Vidu 联合浦光星奕举办「AI新视界 漫剧新潮流——首届AIGC内容产业大会」,邀请AI技术、影视制作、短剧平台和内容机构等领域嘉宾,共同探讨下一代内容产业机会。议题覆盖AIGC内容生产、AI短剧/AI漫剧、视频大模型应用及内容产业新商业模式。
Runway 推出 Characters API,基于 GWM-1 世界模型,支持用单张图片零微调生成实时可对话虚拟角色。支持自定义外观风格、声音、性格及知识库,具备自然表情、眼神、口型同步和手势。面向客户支持、培训教育和品牌营销等企业场景,已获 BBC 等采用。开发者可通过 API 集成,消费者也可在网页端体验预设角色。