Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...
Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...
Midjourney will be announcing its first hardware project tomorrow (Wednesday 6/17) at 6pm PT. Stay tuned for a livestrea...
Grok做的《黑客帝国》经典的Neo躲子弹,完美复刻! Prompt: 《黑客帝国》Neo躲子弹, Bullet Time 躲子弹瞬间,Neo 在雨中 hallway 或 rooftop,子弹以极慢速度飞来,他做出标志性后仰躲避动作,镜头围...
Grok Imagine Video 1.5 能一键生成电影级视频,完美复刻《黑客帝国》Neo躲子弹的 Bullet Time 场景(雨中后仰、绿色调、皮风衣墨镜),以及《权力的游戏》龙妈骑龙低空飞越君临的史诗镜头。用户感叹该模型“这么便宜还这么好用”,对比之下自己刚充的 6000 多元 seedance 会员显得不值。两个示例均附有详细 Prompt,涵盖镜头运动、物理模拟、光照与音频要求,展现出强大的文生视频能力。
Grok Imagine Video 1.5真的要吹爆,这么便宜还这么好用,一键复刻权力的游戏! 我刚充的6000多块的seedance会员算什么🥹 Prompt: Faithfully animate this reference im...
🚨 Google New Image Model > Instant-ramen (successor of nano-banana) Ramen is cooked time to serve soon , we will share ...
针对NCA在高分辨率下训练慢、信息传播局部化、推理计算重的局限,提出将粗网格NCA与轻量隐式解码器(LPPN)配对:解码器通过插值细胞状态与局部坐标直接输出任意分辨率的外观属性(如颜色、法线),且两者均为局部计算,推理可高度并行化。引入任务特定损失函数,以极小额外内存和计算开销监督形态发生与纹理合成。在2D/3D网格及网格域上的实验表明,混合模型能实时生成高分辨率输出,并保留NCA的自组织行为。
用户实测 xAI 的 Grok Imagine Video 1.5 视频生成模型,用详细 prompt 生成《权力的游戏》龙妈骑龙飞越君临城场景,火焰特效、物理模拟、原生音频和光影均达电影级水准。另一测试复刻 Tyrion 法庭演讲,面部微表情、布料动态、火把光影互动自然,效果不输 seedance 2。用户感叹仅需低廉价格(对比刚充的 6000 多元 seedance 会员)即可生成如此高质量视频。
Grok Imagine Video 1.5 实测: 复刻《权力的游戏》Tyrion 经典法庭演讲,效果真的有点吊炸,完全不输seedance 2, 整个场景真实感、物理表现和原生音频都拉满了......面部微表情、布料动态、火把光影互动都...
关联讨论 3 条xAI:News(网页)X:Elon Musk (@elonmusk, xAI)X:cb_doge (@cb_doge)Pixverse(@PixVerse_)のCanvasで作成しました。 #pixversecpp #zargates #pvpvibe @Nika_Ruis Rosmira Thornvale is a young cat knight w...
Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...
像素空间扩散模型训练面对全频带噪声图像,而有效信号具有强频率依赖性。本文提出 Spectral Forcing,即在 patch embedder 前对噪声输入施加时间条件 2D-DCT 低通算子,其截止频率随扩散时间单调扩展,在数据端点退化为恒等映射。该方法使去噪器无需内部学习频带边界,从而缓解容量分配问题。在 ImageNet-256 搭配 JiT-700M/32 上,不同训练轮次均一致提升 FID 和 Inception Score;粗 patch 分词化下收益显著,细分词化时仍有竞争力。将该算子直接插入统一文生图模型 SenseNova-U1,同样改进了 DPG-Bench 与 GenEval,表明输入侧频谱先验可迁移至类条件生成之外。
Midjourney will be announcing its first hardware project tomorrow (Wednesday 6/17) at 6pm PT. Stay tuned for a livestrea...
UniAR 提出统一多模态自回归框架,用单个离散视觉分词器作为理解与生成的共享桥梁,使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化,保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码,缩短视觉序列长度并加速生成;扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习,UniAR 在图像生成和编辑上达最优,在多模态理解基准上也有竞争力。
提出一种基于3D体素掩码自编码器(MAE)的tokenizer,用于3D脑MRI潜在扩散模型。编码器与解码器解耦:冻结的3D MAE编码器产生临床信息丰富的嵌入,专用CNN解码器从嵌入的线性投影重建体素。编码器在35,309个体积(来自18个公共队列,覆盖四种模态、十种疾病类别和200+采集站点)上预训练。在23任务线性探测基准上,编码器在21个任务上超越或匹配BrainIAC、BrainSegFounder、MedicalNet等SOTA模型。基于这些嵌入训练的扩散Transformer(DiT)支持跨六个变量的条件生成和患者特定纵向预测。
Moebius是一个仅0.22B参数的轻量级图像修复框架。它通过引入Local-λ Mix Interaction(LλMI)块重构扩散主干,其中Local-λ和Interactive-λ模块将空间上下文与全局语义先验压缩为固定大小的线性矩阵,在削减参数的同时保留复杂潜在交互。配合仅在隐空间执行的自适应多粒度蒸馏策略,Moebius在自然图像和人像基准上达到了与11.9B参数模型FLUX.1-Fill-Dev相当甚至更优的生成质量,总推理速度提升超过15倍。
GPT Image 2 on Chatgpt Prompt: Please transform the entire image into a single Decorative Folk Flat Illustration with Do...
Midjourney V8.1 的 Draft mode 草稿模式每次生成24张低分辨率低质量图片。用户可对任意图片点击 "Vary",将其渲染为全质量、全分辨率版本。草稿任务消耗的快速小时数减半。
同一事件,精选展示《Midjourney V8.1 已成为默认模型》Midjourney 将在明天(美国太平洋时间下午6点)通过 Discord 和 X 平台直播,首次公开其秘密硬件项目。该项目被描述为“雄心勃勃、物理尺寸巨大且出人意料”。具体细节尚未公布。
6 月 16 日,华为 nova 15 系列手机开启鸿蒙 HarmonyOS 6.1.0.125 SP10 版本升级,系统包约 2.85GB。本次更新后,图库 AI 沾色支持为逆光人物图一键生成剪影效果,在复刻色调的同时增强人物光影对比。此外优化了部分应用和第三方相机拍照体验,提升部分游戏流畅性,并合入 2026 年 6 月安全补丁。华为采取分批推送,未收到更新的用户需等待。
6月16日,导演於水在上海国际电影节透露下一步工作计划是《浪浪山小妖怪2》。他坦言第一部故事已完整,第二部需在此基础上提升。谈及AI模仿其动画风格时,於水认为AI基于大模型无所不知,但人作为“小模型”因不完美才构成喜怒哀乐;艺术源于人类痛苦喜悦,大模型只能模拟概率而非真实情感,无法与观众产生共鸣。《浪浪山小妖怪》在2025年暑期档票房突破17.19亿元,成为中国影史二维动画票房冠军。
BRDFusion是一个统一框架,结合物理建模和生成先验,用于从视频中恢复城市场景的显式、一致的场景属性,同时缓解优化歧义。在正向渲染中,物理模型提供基于场景配置的可控渲染,生成模型负责去噪和修复伪影,从而生成高质量视频并支持精确控制。该方法在真实和合成场景中均优于基线,并支持新视角重光照、夜间模拟以及动态物体插入/编辑。
AMD 在 COMPUTEX 2026 上透露,FSR 4.1 模型基于 FP8 开发,但 RDNA 3 AI 加速器仅支持 INT8,因此将模型全面适配 INT8,且画质与 FP8 一致。RX 7000 系列今年 7 月可用 FSR 4.1,而 RX 6000 系列因 RDNA 2 无专用 AI 加速器,需优化着色器周期,预计明年初上线。开发流程采用 Instinct MI 训练、Radeon PRO 优化,并在数十万 PC 配置中测试,依托 ROCm 平台完成模型迁移。
Adobe 于 6 月 15 日升级 Creative Cloud 套件。Lightroom 新增辅助筛选(按“睁眼”“眼部清晰度”过滤)、照片转视频功能,以及基于 Topaz Labs 模型的 AI 锐化,已支持索尼 Alpha 7R VI 的 RAW 格式。Premiere 引入全局音频静音、标记搜索、Single Word 编辑、3D Spinback 和 Slide 转场及纹理效果。After Effects 新增 AI 对象蒙版,支持 SVG 导入为形状图层,优化与 Illustrator 的复制粘贴。Photoshop 加入设备端 AI 移除工具和反光去除工具。
Meta 宣布在 Facebook 推出“AI Mode”搜索功能,利用 Meta AI 从公开帖子(含群组和 Reels)提取信息并合成答案,用户可用自然语言提问获得摘要。同时新增视频拼贴剪辑、过渡效果及 AI 照片预设(可更换服装、发型和配饰),体育迷可在 Stories 中点击“AI Edit”虚拟穿上队服。这些更新延续了此前动态头像、Marketplace 自动回复和创作者 AI 助手的部署节奏。此外,Meta 近期启动了 Facebook、Instagram 和 WhatsApp 的全球订阅计划(每月 3.99 美元起),更多 AI 订阅层级正在规划中。
Bring your imagination to life through elegant Chinese ink wash art. PROMPT ↓ "Traditional Chinese ink wash interpretati...
Oran Ge 发布了一套名为“橙线插画.skill”的 AI 智能体技能,可自动将长文生成插图。他以 7.5 万字的文章《置身钉内》作为测试,由 Agent 为每个场景生成 2 套插图供挑选,最终制作了 20 张插图,且未做任何修改。该技能旨在帮助读者快速理解长文内容,下载地址已公开在 GitHub。
http://x.com/i/article/2066286219416469504
Oran Ge发布开源技能“橙线插画.skill”,基于Fable 5模型(已绝版)的纽约客风格插画迭代而来,支持Cola、Claude Code、Codex等Agent。该skill可生成文章配图及带插图的HTML幻灯片。作者同时分享了在钉钉工作期间的20个反思切片(如“好产品只有一个主发心”),配图由Agent为每个场景生成2套方案,最终免费开源发布在GitHub。
TV-Edit 联合文本与视觉指令,以文本作为语义意图、稀疏视觉指令(拖拽/点)作为空间指导,实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集,将视觉指令与图像-文本语义融合为语义感知控制表征,输入预训练编辑骨干。相比纯文本或纯拖拽方法,空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估,TV-Edit 在多编辑骨干上一致优于 SOTA 基线。
Casually using Grok @imagine to one-shot sword fight scene in the bamboo forest (5 mins). Pretty good for the first try.
用户推荐 GPT Image 2 + Grok 混合工作流制作 AI 视频,称性价比极高。SuperGrok 月费 30 美元,当前 3 个月优惠 67%,单条短片零边际成本;GPT Image 2 把控角色风格一致性,Grok 负责动态效果。另提及 Claude 的 Fable 模型被美国政府管制,真正触发原因并非防中国,而是美国本土竞争对手提交越狱演示证明其安全层 Mythos 可被绕过。Anthropic 事后复测称此漏洞狭窄且非通用。
很多人都以为Fable5下架是为了防中国,但其实真正触发管制的,是美国本土的竞争对手, 大家都被官方的国家安全话术带偏了,默认下架是防范技术外流的常规操作。 实际上真正触发这次管制的,是美国本土一家公司提交的越狱演示,他们证明Mythos的...
If the world refuses to give you moonlight, light the moon yourself. The Uninvited Sea - PixVerse Originals S1. Built on...