Today we published a technical blog post about Ideogram 4.0 - our goal is to enable more innovation and creativity. It's...
Today we published a technical blog post about Ideogram 4.0 - our goal is to enable more innovation and creativity. It's...
藏师傅的社交媒体卡片 Skill 即将迎来重大升级,新增对小红书 Live Photo 的支持。该功能可帮助用户制作带文字排版的动态 Live Photo,使发布动态内容时仍能以图文形式呈现,无需制作完整视频。具体细节尚未公布,但用户可期待更便捷的社交媒体内容创作体验。
http://x.com/i/article/2059811469081141248
藏师傅的社交媒体卡片 Skill,即将迎来一个非常重磅的升级。 可以帮大家解决小红书 Live Photo 的制作问题,同时会帮你制作动态的带文字排版的 Live Photo 这样你可以在发布一些必须的动态内容的时候,依然以图文的形式发布,...
95分钟AI电影《Hell Grind》由15人14天完成,成本50万美元(80%为算力)。相比中位数美国电影(约200人2年、1800万美元),实现660倍人时、50倍时间、36倍成本改善。影片从约100小时AI生成素材(使用字节跳动Seedance等模型)中按64:1比率剪辑。质量方面,角色一致性、摄像机角度和写实感基本解决,但剪辑过多、角色口音多变、AI合成声音明显,动作和编排生硬——整体平庸,主因是导演选择而非模型限制。作者认为这是AI电影最差、最慢、最贵的时刻,未来创作者将直接投放YouTube。
FlowLet是一种条件生成框架,在可逆3D小波域中利用流匹配合成年龄条件的3D脑MRI,避免潜在压缩伪影并降低计算开销。实验表明,仅需少量采样步即可生成高保真体积;用其数据训练脑年龄预测模型可改善欠代表性年龄组的表现,区域分析证实解剖结构得以保留。
Z-Reward 是一种教师-学生奖励建模框架,用于文生图后训练。教师为 27B VLM,采用 Group-wise Direct Score Optimization (GDSO) 结合策略梯度奖励与分数分布监督;学生通过 Reasoning-Internalized Score Distillation (RISD) 将教师推理条件分布压缩进 9B VLM,推理时无需显式推理链。在内部评测集上,27B 教师达 89.6% 人类偏好准确率,超越 SFT、RewardDance 和 GRPO;9B 学生达 88.6%,超越 O
ABot-Earth 0.5是一个生成式3D框架,利用3D高斯泼溅(3DGS)表示,从地理参考卫星图像合成大规模无缝3D环境。模型在真实城市重建数据集上训练,推理时仅依赖卫星图像,以每平方公里不到10分钟的速度生成逼真的几何与纹理。框架集成层次细节(LOD)结构,支持网页地图引擎上的实时交互可视化。该高保真模拟沙箱可缩小sim-to-real差距,服务于闭环无人机导航等具身AI应用,降低大规模3D重建的技术与财务门槛。
ideogram发布Ideogram 4文生图模型,开放权重,仅9.3B参数,支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比,认为两者风格相似。
AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今,AI生成的内容创作者与真人之间的界限日益模糊,用户越来越难以分辨。
宝玉对比了GPT-5.5与Opus 4.8的设计能力,认为Opus 4.8效果远优于GPT-5.5。他使用了基于Cursor浏览器和元素标注的baoyu-design Skill,该Skill通过npx skills add JimLiu/baoyu-design安装,可在本地运行:描述屏幕需求即可生成精良HTML,点击预览中任意元素即可发出修改指令。官方推荐搭配Opus 4.8以获得最佳效果。工具GitHub仓库:https://github.com/JimLiu/baoyu-design。
Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...
关联讨论 1 条X:宝玉 (@dotey)WaveDiT是一种在3D Haar小波系数空间中的条件流匹配框架,结合分解时空注意力与基于高阶小波统计的带异方差不确定性建模。预测对数方差融入流目标和条件路径,适应解剖细节的输入相关方差结构。该方法在单个GPU上实现全分辨率3D合成。多中心评估显示,相比扩散、潜在和小波基线,生成与真实MRI分布对齐更优,下游脑年龄预测和区域解剖一致性均有提升。代码已开源。
针对扩散模型训练中噪声输入与干净参考特征的时间步信息不匹配问题,论文从token级视角发现:完整token对齐中梯度范数大的token具有稳定空间偏好,导致模型过度依赖完整干净图像token集。为此提出MaskAlign,训练时对随机采样的token子集施加表示对齐,减少对完整token集的依赖,增强鲁棒性;并引入轻量级预掩码token混合块,在掩码前跨token共享信息以缓解信息损失。实验表明该方法有效提升扩散Transformer的训练效率和生成质量。
Start with an image of a building and prompt for a projection mapping with Omni.
Meta 在其独立的 Meta AI 应用中新增了“For You”栏目,自动填充由 AI 生成的点击诱饵风格文章。这些文章的主题、图片和文本均由 AI 生成,质量存疑。此前该应用主要提供公开的“Discover”信息流,展示 AI 生成的图片和用户对话,现已改为标准聊天机器人界面。
视觉Transformer在固定patch网格上存在相位依赖不稳定:改变patch划分会改变像素可用的token证据,尤其边界处。研究者将patch-grid相位形式化为干扰变量,提出Phase Marginalization后处理方法,评估结构化patch-grid相位、反对齐密集输出并在原始图像坐标系中聚合。核心变体Uniform Phase Marginalization with K=4无需训练,在分割、深度和局部匹配任务上优于标准K=1基线。在Cityscapes实验中,相比通用移位四前向测试时增强(TTA)获得+0.31 mIoU优势。缩放实验表明K=4是实用折中:K=8基本不变,K=16精度提升极小但延迟大增。结论将patch-grid相位定位为可测量干扰变量,Phase Marginalization为密集ViT预测提供了简单诊断和后处理基线。
MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴,6.14-6.15举办开放日。活动包括:AI片场·海螺专属Booth(展示1+1组合作品及过程)、6.14多模态行业交流会、6.15专题圆桌(超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈)。具体时间地点详见图片。
彭博社马克·古尔曼爆料,iOS 27 中 Apple Intelligence 多项升级。Visual Intelligence 新增读取营养成分标签、提取名片等信息。修图推出 Extend(AI 补全照片边界)、Reframe(调整空间照片角度)和 Enhance(优化画质色彩)。Safari 新增 Organize Tabs,按购物、旅行等主题自动分类标签页。Genmoji 根据用户照片库和常用短语主动生成个性化表情,该能力还将进入壁纸设置。健康项目 Mulberry 含血糖追踪和相机锻炼监测,预计不随 iOS 27 首发。
Ideogram v4 > a scan of a page from my high school A3 art pad, highly original niche pencil piece working on the aura of...
xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview,可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后,模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成,适合概念验证、分镜测试和短内容生产,并能通过逐段动画化将多镜头串联为更长场景。
标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态,统一架构效率低下。本文提出复杂度平衡分裂(CBS)框架,基于函数逼近理论和de Boor均衡分布原理,将扩散时间线划分为等近似负担的片段,为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度,无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上,CBS不增加每步推理成本,持续提升合成质量:在SiT-XL上使用CFG时,相比朴素时间划分,FID改善约35%。
UniSHARP扩展了SHARP真实感视图合成方法,实现从传统透视相机到鱼眼、全景等系统的通用单目渲染。核心思路是在统一全向潜空间中对齐图像,在射线基表示中沿射线和径向距离排列高斯原语,并联合解码UniK3D编码器提取的2D语义和3D空间特征。构建了覆盖多种成像系统并按视场角分层的benchmark,实验表明UniSHARP大幅优于替代方法。
Rohan Paul 实测新推出的图像转 3D 模型 Rodin Gen-2.5,最大改进是控制力。提供五种生成模式,最快 4 秒生成百万多边形模型,支持最高 1000 万多边形输出。原生 3D PBR 材质,模型开箱即用。Hyper 3D 还支持并行批量生成、Break to Parts 部件分离和局部编辑,无需重新生成整个模型,覆盖 3D 创作全流程。
Apple WWDC 2026 即将举行,备受期待的 Siri 改版与 Apple Intelligence 更新将成为焦点。
归藏宣布其 PPT Skills 项目将继续更新。得益于近期的赞助,计划开发第三套主题,且会把在小红书图文卡片部分积累的好经验用于新版中。
http://x.com/i/article/2053655813877870592
ZipSplat是一种基于token的前馈3D高斯泼溅模型。它通过k-means聚类将多视图密集视觉token压缩为紧凑场景token,再经交叉/自注意力细化后由轻量MLP解码为位置不受限的高斯组。推理时进行聚类,单一训练模型无需重训即可沿质量-效率曲线运行。无需真值位姿或内参,在DL3DV和RealEstate10K上以约6倍少于像素对齐方法的高斯数超越最佳无位姿基线,PSNR分别高2.1dB和1.2dB,并零样本泛化至Mip-NeRF360和ScanNet++,超越所有可比基线。
商汤SenseTime发布SenseNova U1,一个原生理解和生成文本与图像的统一模型。该模型已开源,用户可自行运行。被@gurru_tech称赞“令人印象深刻”。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)