PixVerseV6が登場! 変形ロボ動画もご覧の通り! いかがでしょうか? #PixVerseV6 #V6PowerUp @PixVerse_
The mermaid chase 🌊🌊 Seedance 1080p on PixVerse @PixVerse_ #pixverse #seedance2 #vfx
现代视频扩散模型擅长外观合成,但物理一致性不足,如物体漂移、碰撞不真实。PhyCo框架引入连续、可解释且基于物理的控制,整合三个核心组件:包含超过10万条模拟视频的大规模数据集,系统改变摩擦、恢复系数等属性;基于像素对齐物理属性图的ControlNet,对预训练扩散模型进行物理监督微调;以及VLM引导的奖励优化,通过微调视觉语言模型评估视频并提供可微分反馈。该方法使模型能通过调整物理属性生成物理一致且可控的视频,无需推理时模拟或几何重建。在Physics-IQ基准测试中,PhyCo显著提升物理真实感,人类研究证实其控制更清晰、更忠实。
MoCapAnything V2 提出了首个完全端到端的单目视频运动捕捉框架,用于驱动任意骨骼。该框架将视频到姿态、姿态到旋转两个模块设计为可学习且联合优化,解决了传统分解流程中旋转模糊与不可微逆运动学带来的限制。通过引入目标资产的参考姿态-旋转对与休息姿态,明确定义了旋转坐标系,将旋转预测转化为条件良好的问题。模型直接从视频预测关节位置,无需依赖网格中间表示,提升了鲁棒性与效率。实验表明,该方法在多个数据集上将旋转误差从约17度显著降低至约10度,在未见骨骼上可达6.54度,且推理速度比基于网格的方法快约20倍。
UniVidX是一个利用视频扩散模型先验的统一多模态视频生成框架。它将像素对齐任务统一为共享多模态空间中的条件生成,核心设计包括:随机条件掩码,实现全向条件生成;解耦门控LoRA,为各模态引入独立适配器以保留骨干网络先验;跨模态自注意力,通过共享键值促进模态间信息交换。该框架在两个领域实例化:UniVid-Intrinsic用于RGB视频及其内在属性图;UniVid-Alpha用于混合RGB视频及其RGBA分层。实验表明,即使在少于1000个视频的小数据集上训练,模型也能在多种任务上达到先进性能,并能稳健地泛化到真实场景。
国家广播电视总局公布4月“AI魔改”视频治理成果,重点网络视听平台共清理违规视频11000余条、处置违规账号10余个。此前,总局于今年1月开展了为期一个月的专项治理,清理违规视频23000余条、处置账号100余个。自2月1日起,治理工作转为常态化、制度化长效机制,各平台需深化主体责任,加强审核与日常排查,并按月发布治理成果接受社会监督。
阿里云推出最新AI视频生成模型HappyHorse。该模型具备多项突破性功能:可生成影院级1080p高清画质;原生实现精准的音画同步,确保口型与声音对齐;在复杂场景和镜头切换中保持多镜头角色一致性;支持从文本提示到视频成片的秒级即时生成。用户现可免费试用。
做内容运营,生图生视频,你现在还在跑好几个工具吗? 被朋友拉去做瑜伽图,搭了无数工作流 GPT Image 2 出来后,发现全废了 得重新规划一套,但这几天身体不舒服,没心思搞 随手把提示词扔进 flowith 试了一下 以为偷懒的结果会很...
可灵AI在北京举办灵感工坊·4K零距片场电影主题专场活动,现场展示4K级视频创作体验。活动详情与精彩瞬间已在官方渠道发布。
研究团队提出X-WAM,一个统一4D世界模型,首次在单一框架内整合了实时机器人动作执行与高保真4D世界合成。该模型通过预测多视角RGB-D视频来想象未来世界,并采用轻量级结构适配器复制预训练扩散Transformer的末端模块,形成专用深度预测分支以高效获取空间信息。其核心创新异步噪声采样技术,在推理时采用异步去噪调度,能以更少步数快速解码动作实现实时执行,同时保留完整步数生成高保真视频。模型在超过5800小时机器人数据上预训练,在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率,其4D重建与生成质量在视觉和几何指标上均超越现有方法。
OpenRouter 四月发布涵盖视频生成、工作区(workspaces)、Agent SDK、重排序模型(reranker models)以及一批前沿模型(frontier model)的推出。
OpenRouter 在四月推出多项更新,涵盖视频生成、工作区功能、Agent SDK、Reranker 模型以及一批前沿模型。
Last, but not least, don't sleep on this one: Le Chat now has Work mode (Preview) - a powerful agent for complex long-ho...
Happy Horse 1.0 is live on fal, day 0 🐎 🎬 Best-in-class motion quality 🎧 Native 1080p with synced audio in one pass �...
研究团队提出一个系统性后训练框架,旨在弥合大规模视频扩散模型预训练性能与实际部署需求之间的差距。该框架包含四个协同阶段:首先通过监督微调将基础模型转化为稳定的指令跟随策略;随后采用专为视频扩散定制的新型群组相对策略优化方法进行基于人类反馈的强化学习,以提升感知质量和时间连贯性;接着集成专用语言模型进行提示词增强以优化用户输入;最后通过推理优化提升系统效率。实验表明,该统一流程能有效减少常见伪影,显著提升可控性和视觉美感,同时严格遵守采样成本限制。
本文提出Mutual Forcing框架,用于实现长时序音视频同步的快速自回归生成。该框架采用两阶段训练,先训练单模态生成器,再耦合为统一模型进行联合训练。其核心创新在于直接基于原生自回归模型,将少步与多步生成集成于单一权重共享模型中,通过自蒸馏提升训练-推理一致性。相比此前需要约50采样步的方法,本方法仅需4至8步即可达到或超越基线性能,在效率与质量上均具优势。该方法无需额外双向教师模型,支持更灵活的训练序列长度,并可直接从真实配对数据中学习。
利用GPT-image-2与Seedance2.0生成AI美女换装或跳舞视频,已成为抖音、小红书等平台快速起号的低门槛路径。该方法无需真人出镜与实拍,通过调整提示词即可产出不同风格的高质量视频,成本极低且易于上手。目前平台提供流量分成,可覆盖成本并盈利;粉丝增长后还可承接品牌商单,是一条处于红利期的变现副业赛道。
很多人总说AI没用,我觉得那是因为你光刷不用,真正能赚钱的人早就闷声发大财了。 分享一个用 AI 做副业的路子, 有点野,基本上算零门槛,见钱快(`・ω・ ́)💰 为啥说零门槛: 首先不用囤货不用开店不用露脸,一台电脑就能干,成本低到可以...