Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...
Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...
AI/ML API 携手 MiniMax 推出为期七天的模型促销活动。MiniMax Music 及最新 music-2.6 版本免费开放,Text-to-Speech 五折,视频生成七折,LLMs 享九折优惠。平台同步上线 MiniMax 2.7 等最新模型,并在 Playground 中优先展示全部模型便于测试。此次限时优惠是开发者体验 MiniMax 最新 AI 能力的最佳窗口。
Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...
CityRAG 是一种新型视频生成模型,通过利用大规模地理注册数据作为上下文,将生成内容锚定到真实物理场景。该模型采用时间未对齐的训练数据,学会从瞬态属性中语义解耦底层场景,从而在保持复杂运动和外观变化先验的同时,实现真实世界重建。实验表明,该系统可生成数分钟长的连贯视频序列,在数千帧内保持天气和光照条件的一致性,支持闭环导航和复杂轨迹重建真实地理环境。
小米技术宣布开源视频消除技术SVOR,可精准移除视频中的路人。该技术针对真实世界视频中掩码边缘不准、阴影残留、快速移动目标闪烁等痛点,采用MUSE窗口化联合策略、DA-Seg去噪感知分割及课程式两阶段训练方案。SVOR在CVPR 2026物理感知视频实例消除挑战赛中从18支队伍中夺冠,并在多个标准数据集上达到SOTA水平。目前相关论文与代码已开源,并提供可直接调用的skill。
AnyRecon框架通过视频扩散模型实现任意无序稀疏输入的3D重建。该方法构建持久全局场景记忆以支持长距离条件,移除时间压缩保持大视角变化下的帧级对应,并引入几何感知条件策略耦合生成与重建过程。结合4步扩散蒸馏和上下文窗口稀疏注意力降低计算复杂度,解决了传统方法仅依赖1-2帧导致的局限性,在非规则输入、大视角间隙和长轨迹场景下实现稳健可扩展的重建。
CoInteract框架基于Diffusion Transformer架构,支持以人物参考图像、产品图像、文本及语音为条件生成视频。其引入Human-Aware Mixture-of-Experts模块,通过空间监督路由将token分配至区域专家,以极小参数开销提升手部与面部的结构稳定性;并采用Spatially-Structured Co-Generation双流训练范式,联合建模RGB外观与HOI结构流以注入交互几何先验,避免手物穿透。训练时结构流正则化共享权重,推理时移除该分支实现零额外开销。实验表明,该方法在结构保真度、逻辑一致性与物理合理性上显著优于现有方案。
爱奇艺在2026世界大会上发布2026-2027片单,宣布推出《灵魂摆渡》首部全AI生成电影,由原编剧小吉祥天执笔,定档2026年上映;同时公布《凡人修仙传之瀚海迷踪》动画电影将于2027年上映,由原动画团队打造。此外,杨子将继续执导并编剧《捕风追影2》。
YouTube向娱乐行业开放人脸声纹检测工具,用于识别并下架未经授权的AI深度伪造内容。该技术类似Content ID系统,专门检测复制他人外貌或声音特征的AI生成视频及音频,标记后当事人可直接审核并要求移除,无需通过常规举报渠道。该工具于2024年启动测试,今年早些时候已覆盖政府官员及新闻记者,现进一步向演艺明星和娱乐从业者开放,无论其是否拥有YouTube频道。YouTube与CAA、UTA等经纪公司合作优化了该系统。
🆕Building Generative Image & Video models at Scale https://www.youtube.com/watch?v=xOP1PM8fwnk A lot of interest in ima...
死互联网理论正在成为现实。数据显示,AI内容已全面渗透:Deezer上44%歌曲为AI上传,Twitch订阅第一主播也是AI;多数网络文章、四成Facebook帖子及Top 10 YouTube频道内容均由AI生成。连广告领域也充斥AI生成的虚假代言。AI正系统性替代人类创作,从音乐到视频全面入侵。
Dead Internet Theory update: The #1 most-subscribed Twitch streamer is an AI RECAP: 1) The majority of articles on the i...
爱奇艺CEO龚宇回应"AI艺人库"争议,明确科技以人为本,AI应用旨在服务观众与创作者,而非取代人类。针对昨日公布的包含100多位艺人的AI艺人库遭张若昀、于和伟等否认授权一事,龚宇澄清该清单仅表示演员有AI创作授权意愿,实际使用需遵循与现实拍摄相同的规则:逐个项目、角色获得演员及经纪公司同意,并非一次性授权所有项目。
MultiWorld 是一个统一的多智能体多视角视频世界模型框架,突破了现有单智能体方法的局限。该框架引入多智能体条件模块实现精确控制,并通过全局状态编码器确保多视角一致性。系统支持智能体与视角数量的灵活扩展,可并行合成不同视角以提升效率。在多玩家游戏环境和多机器人操作任务中的实验表明,该模型在视频保真度、动作跟随能力和多视角一致性方面均优于基线方法。
研究团队提出ReImagine方法,采用图像优先策略解决人体视频生成中外观、运动与视角联合建模的难题。该方法将外观建模与时间一致性解耦,通过预训练图像主干学习高质量外观作为视频合成先验,结合SMPL-X运动引导与免训练的时间细化阶段,实现姿态和视角可控的高质量视频生成。团队同时发布了规范人体数据集与组合式人体图像合成辅助模型,代码与数据均已开源。
爱奇艺在世界大会公布"AI艺人库"计划,宣布于和伟、张若昀等100多名艺人入驻纳逗Pro艺人库,旨在为AIGC创作者提供规范合作平台。随后张若昀、王楚然等多位艺人否认签署AI授权协议。爱奇艺紧急澄清,入驻仅代表艺人有接洽AI影视项目意愿,但参与具体项目或出演角色仍需单独商谈授权,流程与传统真人影视合作一致。
数百个AI虚拟形象正在TikTok、Instagram和YouTube等平台密集发布支持特朗普的内容。部分账号已积累超过3.5万粉丝和数百万次观看,特朗普本人也曾分享相关AI生成内容。目前尚不清楚这些活动是个人行为还是协调竞选操作,这一现象正值美国中期选举前夕。
本文提出SDVG框架,首次将推测解码应用于自回归视频生成。通过图像质量路由器替代token验证:1.3B draft模型生成候选块,经VAE解码后采用ImageReward worst-frame评分,高于阈值tau的块被接受至14B目标模型。关键设计包括强制拒绝首块以稳定场景构成,以及通过单一阈值平衡质量与速度。在832x480分辨率下,实现1.59倍加速(保留98.1%质量)至2.09倍加速(保留95.7%),无需训练即可集成到现有流程。
EasyVideoR1 是一款专为视频理解任务设计的强化学习框架,通过离线预处理与张量缓存技术消除冗余视频解码,将训练吞吐量提升1.47倍。该框架支持11种视频及图像任务类型的统一奖励路由,采用离线-在线混合数据训练范式,并实现双模态联合训练与独立像素预算配置。其异步评估系统覆盖22个主流视频理解基准,复现精度与官方报告高度一致,为视觉语言模型的视频推理训练提供了完整高效的基础设施。
可灵AI与艾菲奖联合发起AIGC广告创作大赛,设置潮宏基珠宝、云南白药、华帝、999澳诺四大品牌赛道。奖项包括艾菲奖杯/证书、万元品牌实物奖励及50万灵感值,每个赛道独立评奖。投稿周期即日起至5月25日。早鸟福利:可灵AI联合艾菲评选50件优秀作品,入选作品报名费用全额支持。
研究团队发布VEFX-Dataset、VEFX-Reward和VEFX-Bench三项成果,构建视频编辑标准化评估体系。数据集包含5,049个人工标注示例,覆盖9类32子类,从指令遵循、渲染质量、编辑排他性三维度标注。奖励模型通过序数回归预测各维度质量分数,比通用视觉语言模型更符合人类判断。基准测试含300个样本,评估显示当前编辑系统在视觉合理性与指令遵循方面仍存在明显差距。
Hyperframes推出全新开源视频渲染框架,支持AI智能体通过编写HTML直接生成MP4视频。该框架无需学习新语言,仅在标准网页代码中添加data-*属性,即可让Claude Code、Cursor、Gemini CLI、Codex等编程智能体创建、预览并本地渲染视频合成内容。智能体负责编写HTML构图,Hyperframes提供浏览器预览和MP4渲染能力,实现从代码到视频的无缝转换。
http://x.com/i/article/2044724546637619200
HeyGen开源AI视频渲染框架HyperFrames,支持AI代理将HTML/CSS/JS代码转为MP4等格式。该工具摒弃传统时间线,利用数据属性控制动画时序与图层,兼容GSAP、Lottie、Three.js等Web动画库。HeyGen团队已使用Claude Code配合该框架完成官方视频制作。开发者可通过npx命令安装,实现代码到视频的自动化生成。
We built our launch video in Claude Code using HyperFrames. Now it's yours. Open source, agent-native framework. HTML to...
字节跳动将其 AI 视频生成模型 Seedance 2.0 推向全球 100 多个国家,但美国不在此次发布范围内。这一排除可能源于该公司与好莱坞制片厂之间持续的版权纠纷。此次国际扩张标志着字节跳动在 AI 视频生成领域的全球布局取得进展,尽管其在美国市场仍面临法律障碍。
Vidu与酱油动漫合作,助力仙侠真人剧《教书五年,我教出满门妖神》热映。该剧是红果平台爆款,背后整合了AI视频生成与动漫制作资源,试图以AI赋能真人剧内容生产。
Lyra 2.0 是一个用于生成大规模可探索 3D 世界的框架,通过生成相机控制视频并结合前馈重建技术实现。针对长轨迹生成中的空间遗忘和时间漂移问题,该框架维护每帧 3D 几何用于信息路由以检索历史帧并建立对应关系,同时采用自增强历史训练策略使模型学会纠正误差而非累积漂移。这些方法显著延长了 3D 一致的视频轨迹,进而可微调重建模型以可靠地恢复高质量 3D 场景。
VideoFlexTok提出可变长度粗到细视频token化方法,早期token捕获语义与运动等抽象信息,后期逐步添加细节。相比传统3D网格表示,该方法在保持相当生成质量(gFVD/ViCLIP)的同时,将模型规模从5.2B压缩至1.1B,实现5倍效率提升。其生成流解码器支持任意长度token重建,仅需672个token即可处理10秒81帧长视频,较同类方法减少8倍token用量,显著降低长视频生成成本。
OpenRouter平台现已上线视频生成服务。用户可通过单一API接口,直接调用顶级的视频生成模型。这一集成简化了开发流程,使开发者无需分别对接不同厂商,即可便捷地访问和使用当前领先的视频AI模型能力。
研究团队提出了一种基于长期运动嵌入的高效运动生成方法,通过从大规模轨迹数据中学习高度压缩的运动表示,实现64倍时间压缩。该方法直接在运动潜空间上操作,而非合成完整视频,效率提升数个数量级。团队训练了条件流匹配模型,支持通过文本提示或空间戳记指定生成目标。实验表明,生成的运动分布在性能上超越了最先进的视频模型和专用任务方法,可生成长时间、真实的运动序列。
HeyGen正式上线CLI工具,将AI视频生成转化为命令行工作流。用户通过单一命令即可实现从脚本撰写、虚拟形象生成到视频渲染与交付的全流程自动化,无需离开终端。这一功能使视频生成可被任何研究agent、报告机器人或自动化栈作为标准输出格式调用,轻松集成至cron任务、流水线及内部工具中。CLI的推出意味着AI视频生产可完全嵌入自主agent的工作流,实现从脚本到成品的无人干预端到端自动化。
Your AI agent can now generate and ship videos. HeyGen CLI is now live. Run one command and your agent handles it all: s...
Google 面向 Ultra 订阅用户推出 Veo 3.1 Lite 视频生成选项,允许用户在现有订阅权益内免费使用该功能,无需额外扣减积分。Veo 3.1 Lite 作为轻量化视频生成模型,为订阅者提供了更具成本效益的内容创作方案。此次更新降低了高级 AI 视频工具的使用门槛,Ultra 用户可直接调用该功能而无需担心积分消耗。
研究团队推出80亿参数视听语言模型OmniScript,专攻长电影视频理解与新提出的视频到剧本(V2S)任务。该模型通过思维链监督微调与分段奖励强化学习训练,可生成包含角色动作、对话及音频提示的时序化分层剧本。实验显示,尽管参数规模较小,OmniScript在时间定位与语义准确性上不仅超越更大规模开源模型,更达到与Gemini 3-Pro相当的水平。
研究团队推出Re2Pix分层视频预测框架,将预测任务分解为语义表示预测与表示引导的视觉合成两阶段。该方法先在冻结视觉基础模型的特征空间中预测未来场景结构,再基于这些表示通过潜在扩散模型渲染真实帧。针对训练与推理时的表示不匹配问题,引入嵌套dropout和混合监督两种条件策略。在自动驾驶等复杂动态环境基准测试中,该语义优先设计显著提升了时间语义一致性、感知质量和训练效率。
本文提出一种利用预训练生成模型实现HDR视频生成的方法,无需重新设计模型架构。核心发现是,对数编码可将HDR图像映射至与模型潜在空间自然对齐的分布,仅需轻量级微调即可适配,无需重新训练编码器。此外,基于相机模拟退化的训练策略使模型能从学习先验中推断缺失的高动态范围细节。实验表明,该方法在多样场景和复杂光照条件下均能生成高质量HDR视频,证明通过合适的表示对齐即可有效处理HDR内容。