VideoFlexTok提出一种可变长度token序列的视频表示方法,采用粗到细结构——首个token捕捉语义和运动等抽象信息,后续token添加精细细节,生成流解码器支持任意token数量的视频重建。相比传统3D网格分词,该结构允许根据下游需求调整token数,在相同预算下编码更长视频。在类别和文本到视频生成任务中,VideoFlexTok以1.1B参数(5.2B的1/5)达到可比生成质量(gFVD和ViCLIP Score)。训练一个处理10秒81帧视频的文本到视频模型仅需672个token,比同等3D网格分词器少8倍。
开始让美女助教卖课了😂 丝滑~
快手在港交所公告,21名初始投资者同意以138.24亿元人民币(20.28亿美元)现金注资北京可灵,后者将持有可灵AI相关资产。同日15名额外投资者追加出资52.235亿元人民币(7.6639亿美元),认购总上限为204.471亿元(30亿美元),对应北京可灵扩大后注册资本的16.67%。投后估值180亿美元。快手预计未来12个月内启动可灵AI赴港上市,募资用于扩充算力、建设数据中心及人才引进。
戛纳国际创意节今年首设AI Craft子赛道,两部使用可灵AI生成的广告获奖:《L'Ultimo Uomo Reale》获Classic单元Film银奖及Craft单元Film铜奖,《Lorem Ipsum》获Classic单元Film铜奖。前者为二手奢侈品平台The RealReal的愚人节广告,几乎全由AI生成,仅手提包为实拍,展现人物一致性和复杂视觉奇观;后者由Purga Films制作,全片角色用拉丁文假文对话,风格迥异但情绪推进精准。两部作品标志可灵已产出商业交付级广告,获全球最高级别广告创意殿堂认可。
Introducing Claude x Arcads in Slack: Get viral ads in your Slack DMs Available today for all Arcads users
Google 为 NotebookLM 新增视频概览功能,可将上传的源文件转换为 60 秒竖屏短视频,分解特定主题。该功能目前正在移动端和网页端向 Google AI Ultra 和 Pro 订阅者推出,免费用户即将获得访问权限。NotebookLM 是 Google 的 AI 笔记工具,能分析多源内容并以不同格式重新打包。
browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」,让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本(含逐词时间戳、说话人分离、事件标记),仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节:分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。
You can replace the animal and the object with anything in the quoted prompt, and NB2L let's you cycle through ideas qui...
可灵Kling AI官方宣布,由其生成的广告片《Lorem Ipsum》荣获戛纳狮子奖(Cannes Lions)电影类B2B铜奖。该片由阿根廷工作室Purga Films制作,片中所有角色均使用无意义的占位词“Lorem Ipsum”对话,但情感表达依然强烈。全片通过Kling AI生成,涵盖多种风格和世界,展现了可灵在表演一致性、情感深度和电影级控制上的能力。
简简单单使用豆包复刻一下📺 prompt 👇 [风格]真人实拍+2D动漫贴纸合成搞笑短视频(Live-Action + Flat 2D Sticker Composite),第一人称做饭视角(POV Cooking Vlog),写实厨房...
日本的艺术大学已经开始重视AI技术的价值。这是我在大阪成蹊大学的服装设计系,开设的AI服装设计的工作坊,感谢PixVerse的大力支持,同学们使用PixVerse平台在两个小时内完成了从图像到视频的高质量闭环交付,一站式平台全部搞定。
阿里云Happy Horse平台创作的短片《The Glow of First Love》在摩纳哥AI电影节黑客松中获得第三名。该一分钟作品讲述一名女子在2003年丈夫车祸去世后独自抚养女儿,53年间被无形光之守护者陪伴,直至临终重逢。短片利用Happy Horse平台将情感转化为诗意视觉,展示了festival-grade AI工具在叙事中的潜力。
快手旗下可灵 AI 即将完成 30 亿美元融资,投后估值 180 亿美元,腾讯参投。快手今年 4 月首次计划分拆时估值目标 200 亿美元,后下调至 180 亿。公司预计未来 12 个月内启动赴港上市,资金用于扩充算力、建设数据中心、引进人才。可灵 AI 今年 3 月年化收入运行率达 5 亿美元,一季度收入 6.5 亿元同比增长 300%,全球用户突破 1 亿,约四分之三收入来自海外。今年 2 月发布的 3.0 系列模型增强了视频生成中的叙事控制力和一致性。
Seedance 2.0 通过详细 prompt 生成一段超真实视频,以 2000 年代初 DV 摄像机美学展示韩国女性日常:手持抖动、自动对焦搜索、曝光波动、运动模糊等不完美感,配合环境自然音(鸟鸣、风声、社区闲聊),实现家庭录像般的独特说服力。
主推文介绍零成本AI副业:用AI做YouTube儿童早教动画。五步:搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条,首月见收益,月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8,找海外客户场景:有效结果90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5,Codex 71.8),单条成本$0.052(Exa $0.061)。Lev8聚合50+数据源和10亿+职场人脉,支持5个渠道发送定制破冰消息。
真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...
End of video. Start of game. Welcome to Choose Your Journey, our new interactive story series. Find your way out. Three ...
Omini 1.0 修改视频也还可以,看着演示空间、透视这些都应该提升不少啊。 应该很快就发布新版本可以使用了,但是因为属于编辑强,所以热度好像没有很高。
可灵 Kling AI 宣布,由 Lipstick 制作、Sebastian Strasser 执导的短片《L'Ultimo Uomo Reale》(最后的真人)在 2026 年戛纳狮子奖上获奖:电影 – 消费品类银狮奖和新增的电影工艺 – AI 工艺类铜狮奖。片中大部分镜头由可灵 Kling AI 生成,展示出行业领先的角色一致性、电影级视觉效果和动作质量,成为导演创意的完美伙伴。
视频世界模型在长时段生成中缺乏记忆,导致场景不一致。MemLearner 提出基于学习的自适应上下文查询方法,利用 query tokens 桥接上下文与预测 token,并借助视频生成模型自身的预训练视觉先验进行上下文查询,无需从头训练额外模块。团队收集了带场景遮挡和动态物体的长视频数据集,辅以相机位姿标注,并采用多数据集训练策略同时利用标注渲染视频和无标注真实视频。实验表明,MemLearner 在场景一致性和记忆方面显著优于以往视频世界模型,尤其在遮挡和动态场景下。
Doom scrolling but make it educational 🤓 Introducing Short Video Overviews in NotebookLM! Turn your most complex source...
阿里巴巴 HappyHorse 1.1 在 Artificial Analysis 文生视频和图生视频排行榜位列第二,仅次于字节跳动 Seedance 2.0。该模型基于统一 Transformer 架构,是 1.0 的改进版,重点提升音画同步,支持七种语言的原生音频与唇形同步对话,并在运动、角色和场景一致性上增强。支持最多 9 张参考图像,生成 720p 和 1080p。图生视频带音频模态从第 5 名升至第 2 名。定价 $9.90/分钟(1080p),已在阿里云 Model Studio、Qwen Cloud 和 fal 上线。
Google 推出两款新生成式 AI 模型。Nano Banana 2 Lite 可在 4 秒内生成图像,每张成本 0.034 美元(1K 分辨率),API 名称为 gemini-3.1-flash-lite-image。Gemini Omni Flash 允许开发者通过文本提示在 API 中生成和编辑最长 10 秒的视频,每秒输出价格 0.10 美元。Google 推荐将两个模型链式使用:先用 Nano Banana 2 Lite 生成图像,再传递给 Gemini Omni Flash 转化为视频。两者均使用 SynthID 水印,已通过 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 提供。
Google推出快速图像模型Nano Banana 2 Lite(4秒生成,$0.034/1K分辨率图像)以及视频编辑模型Gemini Omni Flash(输出10秒片段,$0.10/秒,支持文本/图像/视频输入和对话式剪辑)。两者可链式使用:Nano生成参考图,Omni将其动画化,逐步替代gemini-2.5-flash-image。当前Omni Flash API不支持音频参考,视频参考最多3秒但未正确生效;Interactions API保留会话上下文,支持连续3次编辑。
Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Stu...