我觉得现在豪车、名表或者什么首饰的炫富方式已经过时了。 2026年的方式是:我在我家部署了一个满血GLM5.2🫡
我觉得现在豪车、名表或者什么首饰的炫富方式已经过时了。 2026年的方式是:我在我家部署了一个满血GLM5.2🫡
字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...
流匹配模型成为少步文本到图像生成的主流范式,但现有安全方法难以适应极少采样步数。VESFlow是一种无需训练的安全方法,直接利用流匹配模型学习的边际速度场,通过安全条件后验编辑速度场,将轨迹导向安全输出而不改变提示词。引入基于风险分数的过滤,绕过良性提示的速度编辑以降低计算开销。进一步提出VESFlow+,同时向安全方向编辑并远离不安全方向。实验表明,在4步MeanFlow模型上,VESFlow+将目标概念攻击成功率降至6.3%(Ring-A-Bell)和6.8%(MMA-Diffusion),同时保持良性提示的生成保真度。
字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5,分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下,图像视频生成赛道基本成为中国大厂的竞争阵地,包括字节跳动、阿里巴巴、快手等。
火山引擎活动透露,Seeddance 2.5 是全场最受期待的产品,预计 7 月上线,价格尚未公布。同时展示的 Seedream 5.0 Pro 编辑能力提升,支持箭头和高亮区块编辑。
字节跳动今日在 2026 火山引擎大会上发布 Seedance2.5,同时推出全新豆包 Seed2.1 模型,声称能力达 Opus4.6 水平,以及新款图像模型 Seeddream 5.0。具体参数、性能分数及定价信息尚未公布。
科技媒体 AppleInsider 报道苹果在 iOS 27 照片应用中引入基于 Apple 智能的 Extend 扩图工具。测试显示:小猫照片补充了窗帘、枯植物等元素,效果自然;夜景图片生成的路桩、立杆大体合理,但路牌背面形状略异常;罗马 Apple Store 楼梯照片补出台阶和玻璃,视觉合理但现实中不存在;罗马机场照片出现悬浮卡车。苹果表示 AI 扩图生成的画面无法保证真实还原。
Tailor-Bench评估视觉世界模型模拟非常规物理交互的能力,设计三种渐进难度场景:常规(常见工具-任务组合)、非常规(属性兼容替代品)、不可能(违反属性工具)。在统一协议下,预测生成与描述生成分别测试无引导推理与忠实实现。实验表明模型性能从常规到非常规再到不可能逐步退化,暴露物理建模的长尾差距。失败分析显示图像模型无法实现正确状态变化,视频模型还有时间不一致,说明模型依赖表面视觉模式而非内化物理原理。
统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架,将视觉条件查询分解为结构查询与语义查询的级联:结构查询先形成潜在视觉计划,语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息,推理时无需草图或中间解码,单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。
生成式AI让房地产经纪人一键虚拟装修房源照片,导致租户看房时发现现实与图片严重不符。纽约租户Joyce看到带有壁炉、厨房翻新的曼哈顿工作室,实地却发现没有壁炉,炉灶缺旋钮。另一位租户Madison在StreetEasy上看到大量AI增强图片,家具细节明显不真实。佛罗里达州经纪人Bee使用ChatGPT和Stuccco、BoxBrownie等工具为客户演示装修方案,但认为用AI制造虚假房源会引发诉讼。纽约州已立法要求广告披露AI使用,加州《修改图像法》进一步要求房产广告披露AI修改的图像。租户表示连房源描述也显AI痕迹,充斥着“迷人”“温馨”等套话。
跟大家分享下绝版的Claude Fable 5总结的AI生图焚决,+2个顶级美女人像提示词,这篇至少值3000块! 昨晚睡前让Fable 5总结了AI生图之性感人像提示词最有效的写法: 1️⃣用"成人 + 气质 + 材质"来定人设,比如 2...
Moebius是一个仅0.22B参数的轻量级图像修复框架。其核心是Local-λ Mix Interaction(LλMI)模块,将空间上下文与全局语义先验压缩为固定大小线性矩阵,大幅减少参数。结合自适应多粒度蒸馏策略,在隐空间中从教师模型迁移表征能力,动态平衡多层级梯度损失。在Places2、CelebA-HQ、FFHQ等6个自然场景和人像基准上,Moebius的生成质量与11.9B参数的FLUX.1-Fill-Dev持平甚至超越,参数量不足其2%,总推理速度提升超过15倍。
商汤SenseTime发布推文,感谢YouTuber xCreate对SenseNova U1模型的详细拆解,重点展示其文本-图像交错推理(text-image interleaved reasoning)和信息图表(infographic)生成能力。推文附有逐步指南,指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。
BREAKING: First Look at Sonnet 5 🚨 SVG of Nintendo Switch 2 This model is hella fast and it is impressive since I didn'...
字节旗下小云雀短剧 Agent 2.0 上线,核心升级包括 Seedance 2.0 Mini 模型(价格更低)及 720 度场景观看、3D 导演台(可摆放 3D 人偶设定角色位置与机位)等功能。资产库根据剧本生成详细提示语,支持多角色形象切换。单个镜头时长 1-10 秒,生成 15 秒视频约需 4-5 分钟,自带字幕可抹除。用户可用约三百元成本完成一集短剧,支持片段续接和首尾帧参考,最终一键导出到剪映。该工具旨在降低原创短剧制作门槛,尤其适合规则类、多场景反转等题材。
CuiMao使用seedance2与Grok Imagine Video 1.5制作了一部7分钟谍战短片,讲述Fable 5发布后24小时内的虚构事件:Anthropic CEO Dario突然失联,美国国防部长Pete亲自审讯,正在美国度假看世界杯的CuiMao收到神秘取件短信,内含验证码、太阳花与自毁录音。短片将近期真实出口管制事件包装成完整剧情,结尾暗示封杀背后更深原因。近日CuiMao为扩大影响力,追加了日语字幕版本。
Fable 5发布后的24小时内,Anthropic CEO Dario突然失联,美国国防部长Pete亲自审讯。与此同时,在美国度假观看世界杯的 CuiMao收到一条来自Dario的神秘取件短信。一个验证码,一朵太阳花,一段即将自毁的录音,...
智谱年初上市,股价从约131.50 HKD涨至约2,094 HKD,YTD涨幅约1,492%。背后由GLM-5.2与Fable 5测评对比驱动:同一任务下GLM-5.2效果达Fable 5九成,但价格不到$0.10(Fable 5约$5),价差五十倍。该对比改变了设计探索默认选项——当开源模型做到“够好且便宜到可以随便用”,用户优先选择低成本方案。GLM-5.2此次正好踩上这条线。
难怪今天智谱股票突突突疯长26%, 刚刷到一个GLM-5.2和Fable 5的测评, 同一个任务,同一句 prompt,同一张参考图, Fable 5 确实更精致,间距、质感、整体完成度, 一眼就能看出差距, 但 GLM-5.2 做出来的东...
CD Projekt Red 联合 CEO 米哈乌·诺瓦科夫斯基透露,完全由 AI 生成的游戏即将问世。他接触的多家 AI 工作室能快速批量产出游戏,有工作室自称一周内可做 40 个游戏原型甚至完成一整部游戏,其中一款成品很快上线。诺瓦科夫斯基认为,这类纯 AI 游戏即便质量尚可,也无法复刻人工开发的独特感染力,且玩家能轻易识别 AI 素材带来的违和感。AI 辅助开发可以接受,但纯 AI 制作并非行业发展正道。
现有文本到图像模型虽保真度高,但生成样本单一。现有多样性方法往往产生偶然变化而非有意义的设计选择。本文提出可控多样性方法“语义浏览”,让用户沿可解释变化轴系统遍历结构化图像画廊。核心思路是将语义决策与像素生成分离,直接在文本层面诱导多样性:利用视觉语言模型(VLM)操作完整场景上下文,并通过智能体工作流强制执行与原始提示一致的结构化变化。该方法生成多样且可导航的设计空间,每种变化对应一个可理解的语义决策。
不求设计师!Codex一句话生成App图标,加快项目开发速度。 开源乔木icon设计Skill,支持两种方案: 1. Codex内调用Imagen生图能力,参考小耳@xiaoerzhan收集的几百个图标参考生成。 2. 支持搜索 2w SV...
一位开发者花几个周末用AI辅助编程制作了一款类似Pokemon Go的App,但抓的是真实世界的猫。用户打开摄像头拍路边猫,App会检测照片中是否有真实的猫(防止截屏),然后将猫转化为复古卡通风格插画(奶油色调、粗轮廓),并添加到玩家的图鉴中。每只猫拥有名字、稀有度、等级、状态页和收藏卡,世界地图还能显示附近其他玩家抓到的猫。该App无融资、无团队、无市场预算,利用“全球六亿只流浪猫”这一普遍事实,让玩家不再错过路边的猫。
SOMEONE VIBE CODED POKEMON GO BUT FOR CATS YOU MEET IN REAL LIFE see a cat, open the camera, snap it, and it gets added ...
腾讯元宝推出父亲节主题活动,用户可选择爸爸年轻时照片与自己的照片,输入提示词(如“帮我生成一张和爸爸的合影,将图2的我融合到图1爸爸的照片中,我想穿越回__年前,和他一起_____;保留爸爸照片的背景、动作及五官;人物姿态自然协调,整体光线与色调保持一致”),元宝即可生成合影。活动旨在让用户“回到过去”看到爸爸的青春模样。
Vista分享开源乔木icon设计Skill,支持Codex内一句话生成App/网页图标。两种方案:1)调用Imagen生图,参考数百图标示例;2)搜索2万SVG图标,搭配纯色或渐变背景。适用于快速原型开发,精细设计仍需设计师。安装命令:npx skills add joeseesun/qiaomu-icon-generator。
钟二信发布了开源插件Cowart,结合Codex与无限画布工具,让用户直接在画布上用自然语言标注、修改图片。该过程比传统AI图片处理(发prompt、等生成、再迭代)更直观,也更容易留痕。插件还支持更自由地使用GPT Image 2。Cowart名字来自“Code with Art”。插件已开源至GitHub。
Cowart:Codex + 无限画布工具插件开源,大家可以来试试啦,这个插件先取名叫 Cowart,别问为什么叫这个,我只能说 Code with Art 这种冠冕堂皇的理由:https://github.com/zhongerxin/c...
同一任务、同一 prompt、同一参考图下,GLM-5.2(价格 <$0.10)效果接近 Fable 5(约 $5)的九成,价格仅为后者五十分之一。作为最强开源模型,GLM-5.2 体积从 1.5TB 压缩 84% 至 238GB,可在 256GB Mac 本地运行,保留 82% 能力。当开源模型跨过“够好且便宜到随便用”的线,设计探索第一步的默认选项可能从 Fable 转向 GLM-5.2。
把 1.5TB 的模型剁掉 84% 的体积,塞进本地跑,还剩 82% 的功力, 这就是GLM-5.2,最强开源模型, 现在缩骨到了 238GB,256GB 的 Mac 或者同档 RAM/VRAM 的机器就能带起来了 技术博客:http://...
欧洲零售协会Eurocommerce(成员包括Amazon、H&M、Inditex、Ikea)致信欧盟科技专员Henna Virkkunen,要求对非欺骗性AI生成广告图像豁免EU AI Act的透明度标签要求。该法律将于8月2日生效,要求所有符合“deepfake”定义的AI生成内容明确标注。Eurocommerce认为AI生成的沙发展示图不属于deepfake,强制标注将冲淡警示价值。Zalando称其平台90%营销内容由AI生成,H&M和Zara已启用AI模特。业界指出“deepfake”一词源于非法色情与欺诈语境,当前定义过于宽泛。欧盟委员会尚未回应。
GLM-5.2 这次真的有Opus 4.6 的水平了,牛逼~~
《幻兽帕鲁》开发商 Pocketpair 发行与传播负责人约翰·伯克利表示,玩家对生成式 AI 的反感是游戏公司不使用它的充分理由。伯克利确认 Pocketpair 完全没有使用生成式 AI,并称内部有足够多的美术人员愿意亲自完成工作,让 AI 接手而裁掉他们没有意义。他还指出,Steam 已开始在一定程度上限制生成式 AI,未来开发者可能需主动声明游戏“100% 由人类制作”。
Codex + 画布工具,以及尝试一种更直觉、更留痕的图片标注修改方式。 直接用 Codex 的好处是 GPT Image 2 也基本可以自由干。
分享了一个治愈风提示词,用于生成手工钩织玩偶形象(如 @elonmusk 等)。提示词描述:一只手工钩织的[主体]玩偶,柔软毛线材质,编织纹理细腻,身穿鲜艳主色调搭配精致辅色服饰,手中握着小道具,置于温馨场景中,氛围温暖柔和,充满手工质感与怀旧阿米古鲁米风格。@dotey 评论称该提示词挺酷,针织玩偶效果佳。
这个提示词挺酷,针织玩偶
GPT-Image-2.0生成的图片常出现毛躁、破碎纹路等观感问题,容易被识别为AI生成。使用Nano Banana超分放大工具可去除杂乱无意义的细节,增加有意义的细节,同时让文字和边缘更锐利清晰。对比图显示左边为GPT原图,右边为Nano Banana处理后效果。推荐提示词:"帮我将这张图片重绘和清晰化,让他细节更丰富,同时去掉原图中杂乱不必要的细节"。