根据一项Google Cloud调查,90%的开发者已在日常工作中整合AI技术。仅在2025年,Steam平台上就有7,818款游戏披露了AI的使用,相比前一年激增681%。AI在游戏开发中已从边缘实验转变为深度整合,正在全面重构从概念设计到产品发布的整个开发流程。
根据一项Google Cloud调查,90%的开发者已在日常工作中整合AI技术。仅在2025年,Steam平台上就有7,818款游戏披露了AI的使用,相比前一年激增681%。AI在游戏开发中已从边缘实验转变为深度整合,正在全面重构从概念设计到产品发布的整个开发流程。
英伟达发布 DLSS 4.5 光线重建技术,将于今年 8 月正式推出,适用于所有 GeForce RTX GPU,目前已有 27 款游戏支持。该技术通过神经渲染取代传统手工降噪器,集成降噪与超分辨率功能以提升光线追踪画质。新模型计算能力提升 35%,处理参数数量增加 20%,具备更强的空间感知能力和像素采样数据利用效率,并搭配专属开发者遮罩工具以优化画面质量。
It's actually crazy how few people are talking about how powerful Pixverse C1 is for text-to-VFX.We're on a completely d...
女儿想要哈利波特的魔法世界,我用 ColaOS 在两周内给她造了一个专属游戏 从故事→剧本→分镜→人物/场景剧照→转场视频→音效→鼠标特效,一共设计了 5 种结局。收集物品解锁成就,最终打开下一个故事的彩蛋。 但看到她认真玩进去的那一刻--...
Meta 推出针对 Instagram、Facebook 和 WhatsApp 的付费订阅服务,并表示未来将扩展更多订阅产品,其中包含 AI 相关计划。
HiDream发布O1-Image系列文生图模型,包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev,以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上,Dev-2604版本在所有开源权重模型中排名第一,生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中,HiDream-O1-Image是排名第二高的开源模型,仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供,价格分别为$10/1k images和$5/1k images。
1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型,其主要特点是面向本地设备进行优化,可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。
DRDD 模型将扩散过程解耦为两个独立阶段:先进行随机噪声扩散以实现领域协调和流形提升,再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力,显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练,极大提升了数据效率。理论与实验表明,DRDD 与主流扩散模型兼容,即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。
Steam商店页面确认,《使命召唤:现代战争4》将包含生成式AI制作的内容,该声明与前作《黑色行动7》一致。此前《黑色行动7》因大量AI美术素材备受玩家批评,因此本次再度使用AI引发部分粉丝失望。不过,游戏整体获得正面评价,开发商Infinity Ward优化了人物移动和多人地图设计。游戏还将登陆任天堂Switch 2平台。
我的天!我的 Skill 在 GitHub 本周排第二啦! 刚刷到藏师傅项目冲到第一,我点进去一看,笑死,我这个也在榜上,排第二 就是这个中文小黑怪诞正文配图生成 Skill: http://github.com/helloianneo/i...
这是一款定制化的 Markdown 渲染工具,可对围栏代码中的 SVG 块进行特殊处理,既能渲染图像,也提供切换到代码视图的标签页。用户可直接粘贴 Markdown 内容,或提供一个 CORS 支持的 Markdown 文件或 Gist 的 URL。示例中加载了一个关于 Claude Opus 4.8 的 LLM 相关日志的 Markdown 文件。
有卖家利用 AI 生成虚假的黑人形象,在 TikTok、Facebook 和 Instagram 上扮演手工制品创作者进行销售。例如一个名为 Aliyah 的 AI 生成形象,以带泪诉说的方式售卖所谓手工皮带扣,但该形象及其产品均为虚构。此类 AI 虚拟网红被用于推广通过代发货模式销售的批量生产品。
推文通过《黑袍纠察队》AI视频案例,点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径:以Claude Code为代表的“AI智能体型”(自主运行)与以Cursor为代表的“实习生型”(需人类监督判断)。作者认为后者是“以术入道”培养判断力的过程,但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor,实现手机远程控制电脑,消除物理距离限制,从而随时随地磨练使用者自身,成为优秀的提问者。
今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...
针对标准精确匹配奖励不适用胸部X光报告生成的问题,提出SDR方法。将报告分割为句子,用冻结的句子Transformer嵌入为无序集合,以生成与参考嵌入间的集合到集合距离作为连续、置换不变的奖励。在Qwen3-VL-2B/4B和Gemma3-4B上通过GRPO后训练,BERTScore、RadGraph F1和CheXbert F1分别相对提升6.80%、7.82%和4.45%。同一距离用于测试时best-of-N选择,在Mistral-Small、Gemini-2.5 Flash-Lite和GPT-4o-mini上BERTScore平均相对提升16.4%。作为流式信号,可在生成中修剪低分候选,减少超过50%的生成token且保持质量。代码已公开。
昨天那个 md2wechat-skill 很多人收藏 今天再分享一个很适合中文创作者的 Skill:claude-design-card。 它可以把一段文字、一个 URL、一篇文章,直接生成能发出去的视觉卡片,比如公众号首图、小红书图文卡、...
1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...
Adobe正在beta测试的Firefly AI Assistant是一个对话式AI智能体,定位为设计工作流的中间人,旨在帮助用户处理繁琐任务同时保留创作控制权。然而,初步体验表明其功能表现平庸,未能令人印象深刻。
京东JoyInside与ZORICAM联合推出小龙AI魔法益智打印机,集故事机、聊天机器人、打印机、学习机于一身。产品搭载京东自研JoyAI大模型,首创面向儿童的“情景式对话+打印”交互:唤醒“小龙”后通过语音指令即可生成画作并打印成专属贴纸,还能在对话中理解语境主动提出打印建议。硬件支持WiFi连接,续航超48小时。
兄弟们,今天我不装了。 摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。 捣鼓了一套万能产品、人文、科技、展会等等 都可以快速出图的提示词。 但是,很多人还是用不来觉得麻烦。 于是我,我把它在Bloome 做了个海报...
扩散模型的生成轨迹具有频谱偏差,早期处理低频全局结构,后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声,能量分配效率低。本研究提出彩色噪声采样(CNS),一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度,更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明,CNS作为推理时的替换采样器显著提升了生成质量:在ImageNet-256上,无引导FID在SiT-XL/2上从8.26降至6.27,在JiT-B/16上从32.39降至26.69,在JiT-H/16上从11.88降至8.31,并且在使用无分类器引导时带来一致改进。
GenClaw提出一种代码驱动的智能体图像生成范式,让AI智能体像人类艺术家一样分步创作:先通过搜索与推理构建概念,再利用SVG、HTML、Three.js等代码渲染可执行的视觉草图,最后调用图像生成模型补充纹理、材质与真实感。该范式将代码作为连接语言推理与像素合成的可控中间画布,将图像生成从黑盒过程转变为类似人类创作的分步流程,迈向更高可控性与可解释性的视觉生成系统。
PaintBench是一个动态可扩展的基准,涵盖几何变换、结构操作、颜色变化、符号推理四类共20种精确视觉编辑操作。它通过程序化生成与可配置复杂度实现无限、抗污染的评估套件,并采用确定性像素级评估(mIoU)。在11个图像编辑模型上,当前最高性能的行业领先模型仅取得17.1% mIoU。任务分解显示几何变换、大部分结构操作和基于公式的颜色变化尤为困难,且模型存在针对性专长。场景变化(如物体数量、背景复杂度、配色方案、编辑区域大小)会导致性能下降。通过另一个确定性评估基准TinyGrafixBench验证,PaintBench得分与应用任务表现存在强线性相关(R²=0.91,p<0.001)。
扩散模型存在生成超出真实数据分布的幻觉样本问题。研究者通过密度视角首次实证分数平滑是根本原因,并将幻觉概率与分数函数的Lipschitz常数建立形式化联系。提出方差引导分数调制(VSM)策略,通过控制分数Jacobian降低平滑度,更逼近真实分数函数,在合成与真实数据集上减少幻觉约25%,同时保持高保真度与多样性。论文还推出两个具有极端语义变化的基准数据集用于系统性评估,代码和数据已开源。
αDepth提出一种分层表示方法,将软边界(如毛发、散焦模糊)分解为分层颜色和深度值,以解决立体转换中前景与背景模糊混合导致的深度对应歧义。针对多目标复杂场景,设计圆形Alpha表示(CAR),从全局目标提取转向局部边界分解,无需人工干预即可实现场景级推理。实验表明,αDepth在立体转换中达到最先进水平,消除了软边界处的背景渗色和结构扭曲。
RayDer是一个统一的Transformer前馈模型,将相机估计、场景重建和渲染整合到单一主干网络中。它通过一个被视为干扰因子的最小动态状态来吸收时变内容,从而能够在无约束的真实世界视频上进行稳定训练。该模型以静态场景新视角合成作为目标任务,仅将动态内容用作可扩展的监督信号。实验表明,RayDer在数据量和计算量上展现出清晰的幂律扩展规律,并在大量基准测试中取得了与有监督最先进方法相当的零样本开集性能。
Function2Scene是一个从自然语言功能描述(如用户需求和活动)生成3D室内布局的框架。与传统基于物品提示的方法不同,它将设计问题重构为空间功能支持。系统解析用户画像和活动,并基于包含空间、人体工学等17项标准的功能约束分类体系来指导布局生成。其核心是采用检查-修复循环进行迭代优化,结合几何测量、大语言模型的上下文推理与视觉语言模型的视觉评估。实验在30个专业设计案例上表明,其布局在功能需求满足度上显著优于近期基线,在配对比较中偏好率达94.3%。
针对真实世界图像复原缺乏高质量配对数据的瓶颈,本研究提出“生成式基准真值”方法,利用生成式多模态基础模型从真实低质量图像合成高质量目标。通过对9个最先进模型的系统评估,发现Nano-Banana-2结合基于VLM的自适应提示词,在合成感知逼真且内容忠实的目标上能力最强。基于此,研究构建了GGT-100K数据集,包含103,707个训练对和500个测试对,覆盖多样场景与复杂退化。实验证明,该数据集能持续提升多种图像复原模型的真实世界泛化能力,尤其对微调生成式复原模型效果显著。