流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架,通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器,实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算,将推理速度提升至12.66 FPS,在流式基线中取得最优视觉质量,适用于交互式与增强现实场景。
流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架,通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器,实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算,将推理速度提升至12.66 FPS,在流式基线中取得最优视觉质量,适用于交互式与增强现实场景。
LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式(预训练主网络+侧网络)重新解释为基于分数的生成建模:主网络提供无条件先验分数,侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间,与构造的近似似然分数目标计算距离作为正则化损失,并与标准扩散损失联合优化。实验表明,LISA能一致加速训练收敛并提升合成质量,使侧网络特征更解耦,且几乎不增加训练成本、零额外推理成本。
AI 行业商业化的核心是“2boss”——付费方不是使用者(程序员、抽卡员),而是他们的老板。以 Claude/Codex 和 Seedance 为例,老板愿为提升效率的工具付费。中国 2B 市场进入“2boss”时刻,老板买单意愿强烈;独立开发者等自费者也扮演自己的老板。
伦敦警察厅计划扩大实时面部识别(LFR)的使用范围,圣诞节前率先在市中心西区部署固定摄像头,明年再扩展至另外六个地区。系统扫描路过人脸,与通缉嫌疑人观察名单比对。警方称克罗伊登六个月试点期间,摄像头扫描47万张人脸,促成173人被捕,仅1人被错误识别且未实施逮捕。警方已降低算法敏感度,称偏差“几乎已消除”,约80%伦敦居民支持该技术。每次启用前会提前通知,无匹配数据“几乎”立即删除。
ぜんざいのアトリエ開発迷走中😅 海エリアはやっぱり釣りでしょう、とかなんとか言うことで、釣りミニゲームを組み込み。 AI開発らしく、Pixverseで作ったAI動画を差し込んで作ってみたよ。 やってみると、こういうバリエーション動画を作る...
国家广播电视总局就《微短剧发展管理办法(征求意见稿)》公开征求意见。征求意见稿提出,微短剧按投资额度、题材分为一类、二类、三类,分类实行备案公示和发行许可制度。使用人工智能技术生成、制作的微短剧,制作机构和播出单位应在每集明显位置添加提示标识。此外,征求意见稿还支持外向型微短剧创作,为境外主创人员参与提供便利,鼓励优秀微短剧境内外同步播出。
字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...
Goat meet goat Create with @PixVerse_ #messi #argentina #pixverse
论文提出 Physics Question Scene Graph (PQSG),一种层级问题图评估方法,利用 VLM 生成带逻辑依赖的问题图,从对象、动作和物理定律三个维度细粒度检查生成视频。为验证方法,构建了 FinePhyEval 数据集,包含来自 Sora 2、Veo 3 和 Wan 2.1 的生成视频及人工标注。PQSG 的细粒度评分与人类判断相关性优于以往方法,且闭源模型物理真实性排名高于 Wan 2.1。此外,FinePhyEval 标注可用于子任务评估:两个强 VLM 能生成类人问题,但回答准确率仍不及人类。
Lift4D是一个测试时优化框架,从单目视频重建动态物体的完整几何、外观和变形,包括相机从未观察到的区域。它通过因果潜在条件化使单视图3D重建模型(图像到3D DiT)生成时间一致的逐帧预测,作为可变形3D高斯泼溅表示的初始化;随后结合遮挡感知优化与视图条件扩散先验,恢复可见表面细节并补全被遮挡及未观测部分。在合成和真实场景中,Lift4D在严重遮挡与非刚性运动下显著优于先前4D重建方法。
字节跳动视频生成模型 Seedance 2.0 收费:4K 15 秒需 1200 积分,折合超会约 88 元/条;一分钟广告片成本约 350 元,抽卡翻倍约 700 元。主推文指出,大模型训练和使用遵循 ROI 定律——算力、精力有限时 RL 优先选择价值最高的场景(如 coding 和短剧),模型定价高导致只有 ROI 算得过的人才用;当前 AI 仍处“替代阶段”,尚未进入“发现新价值”阶段。
Seedance 2.0 4K 15 秒要 1200 积分。 按超会来算, 一条 15 秒 4K 视频差不多 88 元, 一条 1 分钟左右的广告片, 成本大概 350 元上下。就算抽卡翻个倍700元 如果能跑出可用的 4K 商业画面, 你...
Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。
MaineCoon是一款22B参数的实时文本到音频-视频模型,专为实时AI角色设计。单H100 GPU可达47.5 FPS,成本低于0.001美元/秒;单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练(自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏)及智能体流式推理框架,支持千秒级连续生成。双流扩散Transformer(视频+音频交叉注意力)保持表情、口型与声音同步,历史KV缓存和attention sink确保片段连贯。首帧小于1秒,生成与播放同步,不先制作完整视频再配音。
WILD - The Full MV is OUT NOW! Welcome to Football Jungle ⚽️
Vera 是一种分层扩散模型,专为内容保留视频编辑设计。它生成编辑层及 alpha 遮罩,与源视频合成,从而分离创意编辑与内容保留。架构采用混合 Transformer(MoT),各层独立 DiT 通过联合自注意力交互。训练使用高质量分层数据集,含精确 alpha 遮罩和多样场景。定量基准和人类偏好显示,Vera 在内容保留上优于开源模型,编辑质量有竞争力,仅使用 486K 帧分层训练数据。
昆仑万维旗下短剧业务DramaWave内容负责人张薇在6月22日上海电视节白玉兰论坛上分享海外微短剧市场洞察。DramaWave采取付费和免费双轨运营,海外月活用户超亿,年度经常性收入达6亿美金。AI技术极大提升了内容产能——男频玄幻类AI短剧填补了真人拍摄成本高、难度大的空白,平台目前一个月可上线200余部AI剧。张薇指出,AI作为工具代替的是制作环节而非故事内核,99%的观众只关心故事是否好看。合作模式包括成品剧上传、合拍等,平台持续欢迎好剧本。
COACH'S LAST GIFT ⚽ An old pair of boots, a quiet tunnel, and a coach holding a faded photo from the stands What happens...
字节跳动在火山引擎FORCE大会上发布五款新AI模型。核心产品Seedance 2.5可生成单次30秒视频片段(无需后期拼接),支持场景变化与节奏切换,并同时处理多达50个额外输入(参考图、音频等),后期编辑可保持原有视觉风格。Seedance 2.0升级原生4K与10bit色深。其他模型包括Doubao 2.1 Pro语言模型、Seedream 5.0 Pro图像模型和Seed-Audio 1.0音频模型。据称Doubao 2.1 Pro价格比Claude Opus 4.6低约80%。Seedance 2.5将于7月初上线。
When I left Stability AI a couple of years ago I predicted we would see almost perfect video from Chinese labs around no...
字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...
中央广播电视总台中国之声报道,近期多地消费者反映KTV中原版MV被AI生成视频替换,画面与歌曲意境完全不符,例如温婉情歌高潮处出现大猩猩持枪扫射。KTV工作人员称,多数因MV无版权或歌曲本身无MV,曲库服务方打包设备时替换为AI生成内容,商家无法控制。律师指出,该做法不能规避MV版权费,反可能侵犯放映权及保护作品完整权,额外收取版权费也不合规。消费者可向消费者权益保护单位及KTV运营主管部门投诉。
字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...
Seedance 2.0 的 4K 分辨率功能已在即梦上线。用户需选择 Seedance VIP 版本,15 秒视频消耗 1200 积分。4K 分辨率视频码率为 50M,主要面向商业片和商业短剧制作公司。