GOOGLE 🔥: A new Nano Banana 2 Lite image generation model is on the horizon! > "Introducing Nano Banana 2 Lite for ultr...
GOOGLE 🔥: A new Nano Banana 2 Lite image generation model is on the horizon! > "Introducing Nano Banana 2 Lite for ultr...
GOOGLE 🔥: A new Nano Banana 2 Lite image generation model is on the horizon! > "Introducing Nano Banana 2 Lite for ultr...
Lumo 2.0 新增图像识别和图像生成能力,用户可上传图片进行分析或编辑。Projects 功能新增用户控制的持久记忆,可跨对话保留偏好。响应速度比上一代提升 76%,并引入思考模式处理复杂问题。采用零访问加密架构,数据端到端加密,服务器不记录会话日志,不使用用户数据训练或与第三方共享。即日起可用,提供免费版及 Plus、Professional 付费方案。
ILLUME-X是一个统一多模态模型,能够自主生成高质量、自由形式的交错文本-图像序列。它通过三项核心组件实现:面向交错图文生成的扩展训练数据管道、基于自适应目标的渐进训练策略(适用于自由长度的多模态token序列),以及用于评估交错图文序列的客观综合方法ILScore。ILLUME-X在风格迁移、图像分解和故事讲述等多个交错图文生成任务上优于此前统一模型。
⚡️🍌🔮
小米澎湃 OS 3 今日官宣升级。足球赛事方面:超级小爱新增赛事预约与问答(需 7.12 及以上,数据由中国移动灵犀提供);小米超级岛可常驻显示小红书(≥9.34.0)、直播吧(≥7.2.1)赛事比分;桌面新增 2026 世界杯赛程小部件(数据来自腾讯体育)。相册 AI 修图专区聚合全部 AI 工具,智能美化算法增强,可一键修复曝光失衡。新增录音机自动续录。流畅度优化覆盖文件管理、主题壁纸、笔记搜索等页面。修复多项问题,采用灰度到全量推送。
Nemotron-Labs-Diffusion-Image是一种用于高分辨率文本到图像合成的掩蔽离散扩散模型(MDM)。它引入token编辑机制,使推理时能动态修改已揭开的离散token,弥补标准MDM缺乏自纠正能力的缺陷;提出分组交叉熵(GCE)目标函数,为嵌入空间中邻近真实token的相邻token分配正学习信号,缓解大词汇量离散图像tokenizer带来的训练信号稀疏问题。同时实现针对GCE的自定义融合操作符,显著降低大词汇量场景下的显存占用。实验结果显示,该模型在GenEval上得分为0.90,DPG 86.9,HPSv3 10.76。
谷歌宣布,所有符合条件的美国 Gemini 免费用户均可使用由 Nano Banana 驱动的个性化图像生成功能,不再仅限 Plus、Pro 和 Ultra 订阅用户。该功能从用户授权的 Gmail、谷歌相册、YouTube 和谷歌搜索中获取信息,自动生成贴合个人兴趣的图像。用户需主动开启“个性化智能”,并自行选择 Gemini 可访问的应用,也可随时关闭。据悉,今年早些时候 Gemini 月活跃用户已突破 7.5 亿。
Google 宣布,Gemini 应用的 Nano Banana 驱动个性化图片生成功能向所有符合条件的美国用户免费开放,此前仅限 Plus、Pro 和 Ultra 订阅用户。该功能基于 Gemini 对用户喜好的理解生成图片,无需在提示词中指定具体内容,并可从 Google Photos 提取用户照片。数据来自 Gmail、Google Photos、YouTube 和 Search 等 Google 账户连接。Personal Intelligence 为可选功能,默认用于每个提示,用户可在 Tools 菜单中关闭。上个月 Google 预告了 Gemini 应用的后续更新,包括 Daily Brief、改版界面、AI 视频模型 Gemini Omni 和个人 AI 智能体 Gemini Spark。Gemini 月活跃用户已超 7.5 亿。
Personal Intelligence 🤝 Nano Banana 2 Personal Intelligence now gives Gemini an understanding of your preferences and i...
商汤推出 SenseNova-U1-8B-MoT-Infographic 模型,能够生成工作室级别的高密度信息图,此前这类工作流程缓慢且昂贵。YouTuber CAPITAL R 制作了演示视频,模型已在 HuggingFace 上线,GitHub 页面展示示例图片,并开放 Discord 社区。
OpenAI Codex 项目负责人安布罗西诺称,设计比代码更难量化评判,训练模型区分优劣设计比验证代码编译更繁琐。Figma 首席执行官菲尔德指出,AI 模型基于数据分布训练,产出通常平庸。格莱美提名音乐人巴斯强调,引导 AI 创作离不开人类审美判断。目前 AI 在创意设计领域主要作为提速工具,无法独立产出成熟成品。
加拿大温哥华警察局在X平台发布缉毒照片,贴文带有“Made with AI”标签,且照片中部分50加元钞票被误标为20加元、背景出现模糊色块,引发真实性质疑。警方解释仅用软件遮挡嫌疑人姓名,但未平息争议。随后警方删除原贴并重发无AI标签版本,公众不信任情绪仍未消散。此事再次凸显政务部门使用AI内容时的公信力风险。
针对文本到图像模型在科学图像中语义对齐与逻辑推理的不足,本文提出SciIR框架,基于皮尔斯符号学三元组,涵盖实体结构、科学过程、科学定律三个维度。创建了SciIR-82k数据集,含超8万高质量科学图像-文本对,来自前沿论文,并引入科学推理思维链Sci-RCoT建模视觉逻辑。评估基准SciIR-Bench使用原子检查表将科学准确性转为可验证细粒度问题。实验表明当前模型推理能力不足;在SciIR-82k上微调的Qwen-Image-SciIR模型将Bench分数从35%提升至43%。
PhotoQuilt提出无需训练的任意分辨率光马赛克生成框架,通过自举式分块去噪解决高分辨率生成中局部细节与全局结构难以兼顾的问题。先低分辨率生成全局构图,再升维加噪恢复生成能力,然后在固定分块内独立去噪,使每个分块形成独立图像的同时保持整体布局一致。该方法避免了二次注意力开销,可扩展到大型画布。实验表明,PhotoQuilt在全局结构和局部真实感上均优于现有基线。
嘿嘿,skill写好了,开源了朋友们! 实现原理: 把文章或架构内容先压缩成一份结构化 JSON spec,再由本地 Python + Pillow 渲染出黑底手绘风格的 PNG、GIF 和可编辑的 Excalidraw JSON。 开源地...
MirrorPPR 提出基于示例的结构化人像修图方法,通过 Retouching Operation Extractor 从示例对中提取细微修图操作,经连接器和 LoRA 模块注入预训练的 Diffusion Transformer(DiT)。为克服跨身份训练中的操作对齐难题,设计数据自增强范式确保严格对齐,并构建含超 4700 万对修图样本的大规模数据集 MirrorPPR47M,按模拟与专业子集组织以支持渐进课程学习。实验表明 MirrorPPR 在修图质量和身份保留上显著优于现有基线。
Webcamのリアルタイムの映像を画像をドラック&ドロップでその人になれるものを作ってみた。 モデルを読み直さなくても、さくさく動くように改変 おっさんが美少女になる日も近い
Our new cloud agent (live tomorrow) can make posters! Its so much nicer to see information in a styled page than plainte...
常州溧阳市博物馆展出的“八十年代拍摄”老照片被网友指出疑似 AI 生成,照片清晰但碑文字体模糊扭曲。馆方回应称该照片为短期展览“时光里的家园”展品,原图模糊,溧阳市总工会使用 AI 技术进行影像修复导致文字失真,目前已撤展,后续将加强审核。
安全专家lcamtuf购买了一本亚马逊畅销排行第一的AI生成儿童百科全书,发现书中插图出现大量“身体恐怖”缺陷:猫长着人脸、动物与树木融合成脉动的肉团、无头怪物缠绕读者脚踝。这些图片指向美国某头部实验室的旗舰模型生成。作者警告,尽管前沿模型在2025年夏季声称超越博士级智能,但2026年中问世的AI童书仍存在严重质量问题,正在影响儿童认知。当前模型无法保证内容准确性。
博主小互开源个人IP配图技能“小互IP Studio”,包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。
Here's how I build beautiful UI using AI (My design workflow)
Unconventional AI 发布首个图像生成模型 Un-0,其核心是一个模拟的耦合振荡器系统——一种物理计算基板。在 class-conditional ImageNet 64×64 上,Un-0 达到 FID 6.74,匹配此前领先常规图像生成方法的首次发布质量。模型将耦合强度矩阵 K 和频率 ω 作为可学习参数,通过库拉莫托振荡器方程演化。权重、训练与消融代码均已开源。Un-0 旨在验证物理动态系统能以约 1000 倍更高能效运行现代 AI 工作负载。
像素空间连续 token 自回归图像生成面临高维 patch 单步误差大与训练-推理 gap 累积问题。现有方法只能部分缓解。本文提出并行 rollout 近似(PRA),通过生成低维中间状态再经像素解码器映射回像素 token,并在训练时利用相同路径构造类推理像素输入,保持并行教师强制训练。在 ImageNet-1K 256×256 类条件生成上,135M 参数的 PRA-S 取得 FID 2.58,511M 参数的 PRA-L 降至 1.94,创像素空间 AR 模型新 SOTA,且分类探查准确率优于其他基线。
流匹配生成模型在强化学习后训练中,速度范数膨胀5%-15%导致感知质量下降,而推理时重缩放无法修复。NormGuard引入铰链惩罚,仅在速度范数超过参考值时激活,可加性组合到任何速度局部损失之上。在两种基础模型、三种后训练方法(NFT、AWM、DPO)和两种奖励代理上,NormGuard一致提升MLLM评判的图像质量和逼真度,同时保持奖励,且收益在少步推理下进一步放大,并非由早停解释。
We've released a new big-batch draft mode for V8.1. This new mode lets you generate 24 lower resolution images at the ha...
Midjourney V8.1 的草稿模式(draft mode)添加了随机风格功能。用户在提示词中加入 --sref random 即可一键生成 24 张不同风格的图片。开启草稿模式可通过点击提示栏的 ⚡ 图标或添加 --draft 参数。
推文指出90%的人用AI做UI方式错误,不应直接扔需求让AI随意生成。正确流程分五步:1. 收集灵感;2. 搭建设计系统;3. 生成组件令牌;4. 手动微调细节;5. 最后交给AI批量扩底。强调AI不是设计师,用户需自行定规则与审美,AI只做重复性脏活。附有@Rasmic的详细教程视频链接。
由前 Databricks AI 负责人 Naveen Rao 创立的 Unconventional AI 发布了首个模型 Un0,一个图像生成系统,性能可媲美 Stable Diffusion 和 GPT Image 1。该模型基于全新的振荡器计算机架构,目前运行在软件模拟上。团队计划发布实际芯片图纸并构建完整推理堆栈,最终以网络电缆提供“提示词进入、推理输出”的服务。Unconventional AI 声称该架构最终能将推理功耗降低 1000 倍。公司员工不到 50 人,Rao 认为能源将是未来几年 AI 扩展的根本限制。