AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 906 条
全部一手资讯X论文
标签「多模态」清除
AK@_akhaliq · 4月29日59

Nvidia released Nemotron 3 Nano Omni made a gradio app for it on Hugging Face

译Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用

Suno@suno · 4月29日70

how to make a backing track in 60 seconds.

译如何在60秒内制作伴奏音轨。

AK@_akhaliq · 4月29日66

Meta presents Tuna-2 Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation paper: https://huggingface.co/papers/2604.24763

译Meta 推出 Tuna-2 像素嵌入优于视觉编码器,用于多模态理解与生成 paper: https://huggingface.co/papers/2604.24763

AK@_akhaliq · 4月29日57

Meta presents TUNA Taming Unified Visual Representations for Native Unified Multimodal Models paper: https://huggingface.co/papers/2512.02014

译Meta 推出 TUNA 驯服统一视觉表示以构建原生统一多模态模型 论文:https://huggingface.co/papers/2512.02014

OpenRouter@OpenRouter · 4月29日66

NVIDIA Nemotron™ 3 Nano Omni is live on OpenRouter. An open 30B-A3B multimodal model for agentic workflows: text, image, video, and audio in → text out, with a 256k context window and efficient MoE architecture for computer use, documents, and AV reasoning.

译NVIDIA Nemotron™ 3 Nano Omni 已在 OpenRouter 上线。 这是一个用于智能体工作流的开源 30B-A3B 多模态模型:文本、图像、视频和音频输入 → 文本输出,拥有 256k 上下文窗口和高效的 MoE 架构,适用于计算机使用、文档和音视频推理。

Sundar Pichai@sundarpichai · 4月29日46

Hello. How are you? Thank you. I love you. Please. Some of the most frequently translated phrases of the past 20 years! Google Translate began twenty years ago with a mission to help people understand one another, regardless of the language they speak. What started as a small experiment has become a global tool that helps over 1 billion users every month. In that time Translate has evolved from simple pattern matching to true understanding. In 2006, it relied on statistical machine learning to look for patterns in small word clusters. By 2016, we pioneered a shift to neural networks to move beyond literal word-for-word translations, and today we’re using our powerful Gemini models to make Translate even more helpful. We are moving from text to fluid, real-time conversations. With our latest models, you can even use your headphones as a personal interpreter that preserves your original tone and cadence - it’s an amazing experience! One of the interesting things about AI is that as we make progress, we begin to take it for granted. If you met a person who could translate across a hundred languages faster than any human can, you would be so impressed. Today, one product does that for nearly 250 languages, and we kind of just shrug. Being able to say thank you in 250 languages is not something I take for granted. So to the 1 billion who use Google Translate - merci, dhanyavaad, arigatō, gracias, and thank you! Let’s see what the next 20 years will bring.

译谷歌翻译迎来二十周年,已从最初的简单模式匹配发展为每月服务超10亿用户的全球工具。其技术历经三个阶段:2006年依靠统计机器学习分析词簇,2016年转向神经网络实现超越字面的翻译,如今借助Gemini模型进一步提升能力。当前发展重点正从文本翻译转向流畅的实时对话,最新模型甚至能通过耳机充当口译器,并保留用户原有的语调和节奏。尽管AI翻译已支持近250种语言,人们却逐渐将其视为常态。谷歌对此表达感谢,并展望未来二十年的技术突破。

Chubby♨️@kimmonismus · 4月28日59

Microsoft Presents "TRELLIS.2": An Open-Source, 4B-Parameter, Image-to-3D Model producing up to 1536³ PBR textured assets. Built On Native 3D VAES With 16× Spatial compression, delivering efficient, scalable, high-fidelity asset generation. Ngl, pretty cool!

译Microsoft 推出 "TRELLIS.2":一个开源的、40亿参数的图像转3D模型,可生成高达1536³的PBR纹理资产。 基于原生3D VAES,具有16倍空间压缩能力,提供高效、可扩展、高保真的资产生成。 说实话,相当酷!

SenseTime@SenseTime_AI · 4月28日59

𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1 𝗟𝗶𝘁𝗲 𝗦𝗲𝗿𝗶𝗲𝘀 𝗶𝘀 𝗻𝗼𝘄 𝗼𝗽𝗲𝗻 𝘀𝗼𝘂𝗿𝗰𝗲! Built on the 𝗡𝗘𝗢-𝘂𝗻𝗶𝗳𝘆 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲, it natively unifies multimodal understanding and generation, delivering: •𝗦𝗢𝗧𝗔 𝗘𝗳𝗳𝗶𝗰𝗶𝗲𝗻𝗰𝘆 𝗔𝗺𝗼𝗻𝗴 𝗢𝗽𝗲𝗻-𝗦𝗼𝘂𝗿𝗰𝗲 𝗠𝗼𝗱𝗲𝗹𝘀: Compact models (8B & A3B) delivering commercial-grade performance and exceptional cost efficiency. Leading performance among open-source models across a wide range of understanding, reasoning, and generation benchmarks. •𝗡𝗮𝘁𝗶𝘃𝗲 𝗜𝗺𝗮𝗴𝗲–𝗧𝗲𝘅𝘁 𝗜𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻: Generate coherent interleaved text and images in a single flow using one model; ideal for practical applications like guides, where visuals turn complex information into intuitive insights. •𝗛𝗶𝗴𝗵-𝗗𝗲𝗻𝘀𝗶𝘁𝘆 𝗜𝗻𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 𝗥𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴: Strong capabilities in dense visual communication, generating richly structured layouts for knowledge illustrations, posters, PPTs, comics and other information-rich formats. 𝗛𝘂𝗴𝗴𝗶𝗻𝗴 𝗙𝗮𝗰𝗲: https://huggingface.co/collections/sensenova/sensenova-u1 𝗚𝗶𝘁𝗛𝘂𝗯: https://github.com/OpenSenseNova/SenseNova-U1 𝗗𝗶𝘀𝗰𝗼𝗿𝗱: https://discord.gg/cxkwXWjp  @huggingface @github

译SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构,原生统一了多模态理解与生成能力。其核心优势包括:在开源模型中具备领先的效率,紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益;支持原生的图像-文本交织生成,单一模型即可在单次流程中生成连贯交织的图文内容,适用于制作指南等实用场景;并拥有高密度信息渲染能力,擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。

Berryxia.AI@berryxia · 4月28日56

🔥兄弟们,最近多模态图像模型真是神仙打架啊! 看来又要来一波,实测对比了啊! 前几天才发完测试,又有新的模型,真心吃不消啊! 又发现一个全网开源、即刻可用的重磅神器 —— 商汤 OpenSenseNova 刚刚发布 SenseNova-U1! 原生统一多模态大模型,NEO-Unify架构,视觉+语言从第一性原理彻底打通,无独立VE/VAE! 核心技术亮点: • 文本与图像深度交错生成(教程、海报、漫画一气呵成) • 推理驱动的智能图像编辑(懂物理逻辑) • 高密度信息图表渲染超强 模型大小高度本地化: • 8B 密集模型 • A3B-MoT(活性参数仅约3B,个人显卡就能本地部署跑起来!) 全网开源部署,Apache 2.0 可商用: GitHub: https://github.com/OpenSenseNova/SenseNova-U1 立刻登录领取限时免费Token Plan额度,每天5小时 + 1500次无门槛调用,零成本解锁极速体验! 即将上线「办公小浣熊」,这个结合办公看看能不能搞点东西出来! 本地多模态时代,冲就对了!

译商汤发布开源可商用的多模态大模型SenseNova-U1,采用NEO-Unify架构统一处理视觉与语言。其核心功能包括图文交错生成、智能图像编辑与图表渲染。模型提供8B密集版和约3B活性参数的轻量版,适合个人显卡本地部署。现提供每日5小时及1500次免费调用额度,并即将推出办公场景应用功能。

Alibaba Cloud@alibaba_cloud · 4月28日33

Your media library should be a valuable asset, not a liability. Alibaba Cloud’s Media AI solution provides a unified AI platform that understands, organizes, and accelerates your entire media workflow by automatically tagging and summarizing video content, moderating content at the frame level, and enabling AI search across multimodal content. So your content finally starts working for you. 🔗 https://int.alibabacloud.com/m/1000412499/

译您的媒体库应成为宝贵资产,而非负担。阿里云媒体AI解决方案提供统一的AI平台,通过自动标记和总结视频内容、帧级内容审核以及支持跨模态内容的AI搜索,来理解、组织并加速您的整个媒体工作流程。让您的内容最终为您所用。 🔗 https://int.alibabacloud.com/m/1000412499/

Berryxia.AI@berryxia · 4月28日54

Minmax 的 Music-2.6 本周在 Cloudflare 上免费使用! 从文本提示生成完整长度的歌曲或器乐作品,并可选自动生成歌词。 直接开整吧!!!

TestingCatalog News 🗞@testingcatalog · 4月28日49

ICYMI: Gemini can now generate Docs and Sheets on web and mobile. Not sure when it was added though. Slides are not working for now but looking at Gemini for Business, we will likely get them too, as well as an inline editor potentially.

译你可能错过了:Gemini 现在可以在网页和移动端生成 Docs 和 Sheets。不过不确定这个功能是何时添加的。 目前 Slides 还不能用,但考虑到 Gemini for Business,我们很可能也会获得该功能,或许还会有一个内联编辑器。

Google Gemini@GeminiApp · 4月28日31

Ready to unlock your creativity with Gemini Canvas? 🪄 Don’t miss our next Discord event to see Gemini Creative Technologist @DavidMaliglowka live demo his latest Canvas and Nano Banana workflows to help you advance your own creative prompting techniques. 🗓️ Wednesday, April 29th ⏰ 11:30 AM PT 📍 http://discord.gg/gemini

译准备好通过Gemini Canvas释放你的创造力了吗?🪄 别错过我们下一次Discord活动,届时Gemini创意技术专家@DavidMaliglowka将现场演示他最新的Canvas和Nano Banana工作流程,帮助你提升创意提示技巧。 🗓️ 4月29日星期三 ⏰ 太平洋时间上午11:30 📍 http://discord.gg/gemini

Suno@suno · 4月28日49

Screenshot it. Song it. #SunoTextSong

译截图它。歌曲它。#SunoTextSong

AK@_akhaliq · 4月28日51

Xiaomi MiMo-V2.5 is out on Hugging Face https://huggingface.co/collections/XiaomiMiMo/mimo-v25

译小米 MiMo-V2.5 已在 Hugging Face 发布 https://huggingface.co/collections/XiaomiMiMo/mimo-v25

MiniMax (official)@MiniMax_AI · 4月28日57

Really excited about this one. Music 2.6 is now available on @Cloudflare AI — full songs with vocals, instrumentals, covers, all from text. We want honest feedback from real users. Give it a spin and let us know what hits (and what doesn't).

译Music 2.6模型现已在Cloudflare AI平台推出,用户可通过文本提示生成带人声、伴奏或翻唱的完整歌曲。该模型由MiniMax AI提供,本周免费使用,支持从文本生成完整歌曲或伴奏,并可选自动歌词。基于Cloudflare的全球网络,它能实现快速推理,适合开发者在Cloudflare Workers上构建音乐应用。作者呼吁用户试用并提供真实反馈。

AK@_akhaliq · 4月28日49

Building a Precise Video Language with Human-AI Oversight paper: https://huggingface.co/papers/2604.21718

译构建一个由人类与AI监督的精确视频语言 paper: https://huggingface.co/papers/2604.21718

凡人小北@frxiaobei · 4月28日35

Amazing

译开发者通过整合Google Maps的街景与3D视图功能,利用OPENAI进行路线优化与关键地点提取,并结合预设的角色卡,调用Seedance的API,实现了从起点到终点的引导视频自动生成。该系统能自动选取路线中的标志性地标,并将虚拟角色融入场景进行引导。生成的视频片段经手动合成编辑后,最终形成完整的导航视频,展现了AI技术对生活方式的革新。

AK@_akhaliq · 4月28日48

Video Analysis and Generation via a Semantic Progress Function paper: https://huggingface.co/papers/2604.22554

译通过语义进展函数进行视频分析与生成 paper: https://huggingface.co/papers/2604.22554

Berryxia.AI@berryxia · 4月27日55

小耳做的这个小插件,解决了右键批量命名的问题。 Apple macOS自带的批量修改的问题是只能是批量改一样前缀和后缀的名字,不够智能和方便。 这个就是纯使用AI多模态的Gemini模型来给你识别,可能要消耗token,其实可以直接使用Gemma 4或者qwen多模态本地使用小模型可能成本更低更方便。 推荐大家体验下载使用👇🏻

译一款名为“小耳”的开发者制作的macOS右键工具,利用AI多模态模型(如Gemini)智能识别文件内容,并自动将其重命名为“内容+日期”的格式,解决了系统自带批量重命名功能不够智能的问题。该工具以Quick Action形式集成,无需安装新应用或后台进程,支持图片、视频、PDF、Word等多种文件类型的批量处理。其关键优势包括处理在本地完成、可使用Gemini Flash免费额度、支持撤销操作,并建议用户也可考虑使用Gemma或Qwen等本地小模型以降低成本。

小互@xiaohu · 4月27日62

兄弟们手机上现在能跑世界模型了 蚂蚁灵光 App 今天上线"体验世界模型"的功能 上传一张图,等个几秒到几十秒,就能生成一个可以拿摇杆走进去的 3D 世界。 手机的算力怎么可能支撑这件事? 应该是云端生成,但是速度这么快,也是牛P,不过效果没有那么惊艳,但是可以玩... 我连测了四张图都进去了...

译蚂蚁灵光App推出“体验世界模型”新功能,用户上传图片后,可在几秒到几十秒内生成一个可供探索的3D世界。该功能疑似主要依赖云端算力完成生成,尽管手机本地算力有限,但其生成速度仍被评价为“牛P”。目前生成效果虽未达到“惊艳”程度,但已具备可玩性,用户实测可成功进入多个由图片生成的3D场景。

向阳乔木@vista8 · 4月27日48

试了几个 Chatbot 客户端,发现都不支持上传音、视频对话。 这对全模态模型测试非常不友好。 只能找个开源Chatbot UI,让Codex改造个产品用了。 这开源UI很有意思,参考ChatGPT、Grok、Gemini、Perplexity做了好几个不同的机器人对话界面。 目前已有接近1w Star,地址见评论区

译开发者在测试多个Chatbot客户端时,发现普遍不支持上传音视频文件进行对话,这给全模态大模型的测试带来了不便。因此,他选择了一个开源Chatbot UI项目,并计划用Codex对其进行改造以适配需求。该开源项目参考了ChatGPT、Grok、Gemini和Perplexity等主流产品的界面,设计了多个不同的机器人对话界面,目前在GitHub上已获得近1万颗星。

Chubby♨️@kimmonismus · 4月27日36

This years WWDC will be the most exciting one. - new Apple CEO - first time a useful AI model deeply integrated into iOS (Gemini) - excited for new macOS features. I wish I would be there in person

译今年的WWDC将是最令人兴奋的一届。 - 新任苹果首席执行官 - 首次将实用的AI模型深度集成到iOS中(Gemini) - 期待全新的macOS功能。 真希望我能亲临现场

向阳乔木@vista8 · 4月26日21

真会起名,TwelveLabs...

Berryxia.AI@berryxia · 4月26日60

🚨 微软刚刚开源炸场了! TRELLIS.2 —— 40亿参数图像转3D模型 一张图片 → 仅需3秒 就能生成带完整PBR材质(粗糙度、金属度、不透明度)的超高质量3D资产! 不是粗糙网格,而是直接能用的专业级模型 连开放表面、空心内部、复杂几何体都轻松搞定!

译微软开源了40亿参数的TRELLIS.2模型,可将单张图片在3秒内转换为具备完整PBR材质(粗糙度、金属度、不透明度)的专业级3D资产。该模型生成的并非粗糙网格,而是直接可用于生产流程的高质量模型,能够准确处理开放表面、空心结构以及复杂几何体,显著提升了图像到3D内容的生成效率与实用性。

Greg Brockman@gdb · 4月26日22

oh, *that’s* what tenet was about

译哦,原来《信条》讲的是这个 [引用 @umesh_ai]:ChatGPT Images 2.0 explains “Tenet” in a simple way!

TestingCatalog News 🗞@testingcatalog · 4月25日33

Google is working on a "Usage Limits" section for Gemini and a new "Images" tab. > At this point, it is unclear if we should expect a new Image model to arrive during Google I/O or if we would see a new Images section with extra features for image editing and more. > Usage Limits tab aligns with a broader direction for Gemini, where we would expect its Desktop app to be expanded to include more agentic features. AI Studio already shares Usage Limits with Gemini. Super Gemini App 👀

译Google正在为Gemini开发"使用限制"板块和新的"图像"标签。 > 目前尚不清楚我们是否能在Google I/O期间迎来新的图像模型,或者是否会看到带有图像编辑等额外功能的新图像板块。 > 使用限制标签符合Gemini更广泛的发展方向,我们预计其桌面应用将扩展包含更多智能体功能。AI Studio已与Gemini共享使用限制。 超级Gemini应用 👀

Berryxia.AI@berryxia · 4月25日56

每个人都在忽略这个新的 OCR 模型! - 在 olmocr bench 上达到 85.9%(sota) - 支持 90+ 种语言,附带基准测试 - 40 亿参数模型(从 90 亿参数减少) - 完整布局信息 - 提取并为图像和图表添加说明 - 强大的手写、数学、表单、表格支持 100% 开源。

译一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。

AK@_akhaliq · 4月25日39

Context Unrolling in Omni Models paper: https://huggingface.co/papers/2604.21921

译Omni模型中的上下文展开 paper: https://huggingface.co/papers/2604.21921

AK@_akhaliq · 4月24日44

Seeing Fast and Slow Learning the Flow of Time in Videos paper: https://huggingface.co/papers/2604.21931

译看见快与慢 学习视频中的时间流 论文: https://huggingface.co/papers/2604.21931

Ethan Mollick@emollick · 4月24日62

I had a range of models "build me a procedurally generated 3D simulation showing the evolution of a harbor town from 3000 BCE to 3000 AD" in one prompt. You can play the full gallery here: https://hg-20f7d1a3ce.netlify.app Or read my write up about GPT-5.5 here: https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55?r=i5f7&utm_medium=ios&triedRedirect=true

译我让一系列模型通过一个指令“为我创建一个程序生成的3D模拟,展示一个港口小镇从公元前3000年到公元3000年的演变过程”。 你可以在这里体验完整画廊:https://hg-20f7d1a3ce.netlify.app 或者在此阅读我关于GPT-5.5的文章:https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55?r=i5f7&utm_medium=ios&triedRedirect=true

Saining Xie@sainingxie · 4月24日72

vision🍌 is here https://vision-banana.github.io/ if you got into computer vision the way I did, starting with pixel-level labeling tasks like segmentation, edges, depth, or surface normals, you’ll probably feel the same seeing these results -- something big has quietly shifted, and it’s going to change how we approach these problems for good 🧵

译vision🍌 现已发布 https://vision-banana.github.io/ 如果你像我一样进入计算机视觉领域,从像素级标注任务(如分割、边缘、深度或表面法线)开始,看到这些结果时你可能会有同感——某些重大的转变已悄然发生,这将永久改变我们处理这些问题的方式 🧵

Chubby♨️@kimmonismus · 4月22日

AI/ML API is rolling out a major promotion in collaboration with MiniMax, bringing their latest models to the forefront of the Playground - and they reached out to me to tell all of you :) For the next 7 days: • MiniMax Music → Free access • Text-to-Speech → 50% off • Video generation → 30% off • LLMs → 10% discount Alongside the promo, AI/ML API is expanding coverage of the MiniMax model family, including the latest 2.7 and music-2.6 releases, and publishing a deep dive on their capabilities. All MiniMax models are now prioritized on the Playground for easier access and testing. Thanks AIMLP API :)

译AI/ML API 携手 MiniMax 推出为期七天的模型促销活动。MiniMax Music 及最新 music-2.6 版本免费开放,Text-to-Speech 五折,视频生成七折,LLMs 享九折优惠。平台同步上线 MiniMax 2.7 等最新模型,并在 Playground 中优先展示全部模型便于测试。此次限时优惠是开发者体验 MiniMax 最新 AI 能力的最佳窗口。

Rohan Paul@rohanpaul_ai · 4月22日

ok so I told Runable about my brand once. And it seems to remember it everywhere. slides, images, carousels all came out with the same look (tone, layout, hierarchy, spacing, image style). And the desktop-to-phone handoff felt unusually smooth. just incredible. Consistency is what makes AI output ready for production use.

译好吧,我曾经向 Runable 提过一次我的品牌。 而且它似乎处处都记得。幻灯片、图片、轮播图全都呈现出相同的外观(色调、布局、层级、间距、图片风格)。 而且桌面到手机的切换感觉异常流畅。简直不可思议。 一致性是让 AI 输出可用于生产环境的关键。

DogeDesigner@cb_doge · 4月22日

Grok just leveled up 🚀 You can now upload videos directly on Grok — on both mobile & web. • Drop any video, get instant summaries • Saves time, no need to watch full content • Makes research & learning way faster

译Grok 刚刚升级了 🚀 你现在可以直接在 Grok 上传视频——移动端和网页端均可。 • 上传任意视频,获取即时摘要 • 节省时间,无需观看完整内容 • 大幅提升研究和学习效率

Deedy@deedydas · 4月22日

ChatGPT’s new image model can take in a picture of a house and “generate an entire floor plan” It blows every single other image model out of the water. I’ve been trying it all day and here are 10 unbelievable things it can do: 1/11

译ChatGPT 的新图像模型可以接收房屋照片并"生成完整的平面图" 它彻底击败了所有其他图像模型。 我已经试了一整天,以下是它能做的 10 件令人难以置信的事情: 1/11

宝玉@dotey · 4月22日

GPT Image 2 Prompt: 以手机随手拍摄的日常风格,桌面上摆放着一款 【成龙】【功夫】 动漫手办,动作夸张帅气,装备齐全。 同时,真实世界的对应人物也出现在镜头中,与手办摆出相似的姿势,形成手办与真实人物同框的有趣对比效果。画面背景模糊、浅淡柔和,强调主角清晰突出,整体构图和谐自然,传递温暖且富有生活气息的视觉体验。

译推文展示GPT Image 2的提示词示例,呈现其生成真实人物与动漫手办同框的能力。提示词要求以手机随手拍风格,构建成龙功夫手办与真人同框场景,两者姿势呼应形成趣味对比。画面采用背景虚化突出主体,追求自然和谐的生活气息。这体现了GPT Image 2在理解复杂空间关系、人物一致性及模拟真实摄影质感方面的能力。

宝玉@dotey · 4月22日

GPT Image 2 Prompt:Japanese shonen manga Source:https://openai.com/index/introducing-chatgpt-images-2-0/ --- Prompt --- Make a sample page of a colorized Japanese shonen adventure manga. The page should vividly depict our main character found a magical quill. The name of the quill is called the Quill of GPT Image. Make it dramatic. The magical quill has strong power sealed inside it. Additional instructions: Aspect ratio: Portrait 1440x2560. The pen should have an OpenAI logo on it. The language throughout the manga should be Japanese. Think carefully first to make this a good story with good split of manga panels. The page should appear as a photo of a physical page, not a digital page.

译OpenAI 展示 GPT Image 2 生成日本少年漫画(shonen manga)的提示词案例,体现其创作复杂多格漫画的能力。提示词要求生成 1440x2560 纵向比例的彩色冒险漫画,主角发现带有 OpenAI logo 的魔法羽毛笔,需使用日语并模拟实体书页照片效果。这反映了 GPT Image 2 在特定艺术风格渲染、文字生成、品牌元素植入及物理质感模拟方面的精细控制水平。

AK@_akhaliq · 4月22日44

OneVL One-Step Latent Reasoning and Planning with Vision-Language Explanation paper: https://huggingface.co/papers/2604.18486

译OneVL 一步到位的潜在推理与规划,附带视觉-语言解释 论文: https://huggingface.co/papers/2604.18486

DogeDesigner@cb_doge · 4月22日32

Grok 4.3 can explain memes.

译Grok 4.3 可以解释梗图。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月29日
05:39
AK@_akhaliq
59
Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用
多模态开源/仓库端侧
02:18
Suno@suno
精选70
如何在60秒内制作伴奏音轨。
多模态教程/实践

推荐理由:虽然只是 Suno 的官方教程,但这 60 秒的视频把生成伴奏这件事儿讲得明明白白,对于想快速出 demo 的音乐创作者来说,是个能立刻用上的实用技巧。
01:38
AK@_akhaliq
66
Meta 推出 Tuna-2 像素嵌入优于视觉编码器,用于多模态理解与生成 paper: https://huggingface.co/papers/2604.24763
Meta多模态论文/研究
01:08
AK@_akhaliq
57
Meta 推出 TUNA 驯服统一视觉表示以构建原生统一多模态模型 论文:https://huggingface.co/papers/2512.02014
Meta多模态论文/研究
01:00
OpenRouter@OpenRouter
精选66
NVIDIA NemotronTM 3 Nano Omni 已在 OpenRouter 上线。 这是一个用于智能体工作流的开源 30B-A3B 多模态模型:文本、图像、视频和音频输入 → 文本输出,拥有 256k 上下文窗口和高效的 MoE 架构,适用于计算机使用、文档和音视频推理。
智能体产品更新多模态

推荐理由:Nemotron 3 Nano Omni 是 NVIDIA 在开源多模态模型上的新动作,30B 参数 MoE 架构、256k 上下文、四模态输入,做 Agent 工作流的开发者值得试一下,尤其文档和音视频推理场景。
00:07
Sundar Pichai@sundarpichai
46
谷歌翻译二十周年:从简单短语到实时对话的演进

谷歌翻译迎来二十周年,已从最初的简单模式匹配发展为每月服务超10亿用户的全球工具。其技术历经三个阶段:2006年依靠统计机器学习分析词簇,2016年转向神经网络实现超越字面的翻译,如今借助Gemini模型进一步提升能力。当前发展重点正从文本翻译转向流畅的实时对话,最新模型甚至能通过耳机充当口译器,并保留用户原有的语调和节奏。尽管AI翻译已支持近250种语言,人们却逐渐将其视为常态。谷歌对此表达感谢,并展望未来二十年的技术突破。

Google多模态大佬观点
4月28日
20:36
Chubby♨️@kimmonismus
59
Microsoft 推出 "TRELLIS.2":一个开源的、40亿参数的图像转3D模型,可生成高达15363的PBR纹理资产。 基于原生3D VAES,具有16倍空间压缩能力,提供高效、可扩展、高保真的资产生成。 说实话,相当酷!
Microsoft多模态开源生态模型发布
20:25
SenseTime@SenseTime_AI
59
SenseNova U1 Lite系列开源,统一多模态理解与生成

SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构,原生统一了多模态理解与生成能力。其核心优势包括:在开源模型中具备领先的效率,紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益;支持原生的图像-文本交织生成,单一模型即可在单次流程中生成连贯交织的图文内容,适用于制作指南等实用场景;并拥有高密度信息渲染能力,擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。

图像生成多模态开源/仓库模型发布
18:36
Berryxia.AI@berryxia
56
商汤开源多模态大模型SenseNova-U1,推动本地化部署

商汤发布开源可商用的多模态大模型SenseNova-U1,采用NEO-Unify架构统一处理视觉与语言。其核心功能包括图文交错生成、智能图像编辑与图表渲染。模型提供8B密集版和约3B活性参数的轻量版,适合个人显卡本地部署。现提供每日5小时及1500次免费调用额度,并即将推出办公场景应用功能。

图像生成多模态开源生态模型发布
18:01
Alibaba Cloud@alibaba_cloud
33
您的媒体库应成为宝贵资产,而非负担。阿里云媒体AI解决方案提供统一的AI平台,通过自动标记和总结视频内容、帧级内容审核以及支持跨模态内容的AI搜索,来理解、组织并加速您的整个媒体工作流程。让您的内容最终为您所用。 🔗 https://int.alibabacloud.com/m/1000412499/
产品更新多模态部署/工程
07:34
Berryxia.AI@berryxia
54
Minmax 的 Music-2.6 本周在 Cloudflare 上免费使用! 从文本提示生成完整长度的歌曲或器乐作品,并可选自动生成歌词。 直接开整吧!!!

Cloudflare Developers: Music-2.6 from @MiniMax_AI is free on Cloudflare this week! Generate full-length songs or instrumentals from a text prom...

产品更新多模态部署/工程
07:13
TestingCatalog News 🗞@testingcatalog
49
你可能错过了:Gemini 现在可以在网页和移动端生成 Docs 和 Sheets。不过不确定这个功能是何时添加的。 目前 Slides 还不能用,但考虑到 Gemini for Business,我们很可能也会获得该功能,或许还会有一个内联编辑器。

XIVIX: Gemini app has gained the ability to generate and send files It's similar to Claude now It has it's own sandbox that it ...

Google产品更新多模态
05:45
Google Gemini@GeminiApp
31
准备好通过Gemini Canvas释放你的创造力了吗?🪄 别错过我们下一次Discord活动,届时Gemini创意技术专家@DavidMaliglowka将现场演示他最新的Canvas和Nano Banana工作流程,帮助你提升创意提示技巧。 🗓️ 4月29日星期三 ⏰ 太平洋时间上午11:30 📍 http://discord.gg/gemini
Google产品更新多模态
05:22
Suno@suno
49
截图它。歌曲它。#SunoTextSong
产品更新多模态
04:26
AK@_akhaliq
51
小米 MiMo-V2.5 已在 Hugging Face 发布 https://huggingface.co/collections/XiaomiMiMo/mimo-v25
多模态开源/仓库模型发布
01:52
MiniMax (official)@MiniMax_AI
57
Music 2.6模型现已在Cloudflare AI平台推出,用户可通过文本提示生成带人声、伴奏或翻唱的完整歌曲。该模型由MiniMax AI提供,本周免费使用,支持从文本生成完整歌曲或伴奏,并可选自动歌词。基于Cloudflare的全球网络,它能实现快速推理,适合开发者在Cloudflare Workers上构建音乐应用。作者呼吁用户试用并提供真实反馈。

Cloudflare: Music-2.6 from @MiniMax_AI is free on Cloudflare this week! Generate full-length songs or instrumentals from a text prom...

产品更新多模态
00:49
AK@_akhaliq
49
构建一个由人类与AI监督的精确视频语言 paper: https://huggingface.co/papers/2604.21718
多模态视频论文/研究
00:44
凡人小北@frxiaobei
35
开发者通过整合Google Maps的街景与3D视图功能,利用OPENAI进行路线优化与关键地点提取,并结合预设的角色卡,调用Seedance的API,实现了从起点到终点的引导视频自动生成。该系统能自动选取路线中的标志性地标,并将虚拟角色融入场景进行引导。生成的视频片段经手动合成编辑后,最终形成完整的导航视频,展现了AI技术对生活方式的革新。

梁: 重新优化了一天, 调用googlemap的街景功能和3D视图功能, 用OPENAI进行优化与关键地点提取, 结合设计好的角色卡, 调用Seedance的API, 自动生成一个从起点到终点的案内视频。 自动挑选路线中的几个标志性地点, 然后让...

多模态教程/实践视频
00:34
AK@_akhaliq
48
通过语义进展函数进行视频分析与生成 paper: https://huggingface.co/papers/2604.22554
多模态视频论文/研究
4月27日
13:48
Berryxia.AI@berryxia
55
基于AI多模态的macOS右键智能批量重命名工具

一款名为“小耳”的开发者制作的macOS右键工具,利用AI多模态模型(如Gemini)智能识别文件内容,并自动将其重命名为“内容+日期”的格式,解决了系统自带批量重命名功能不够智能的问题。该工具以Quick Action形式集成,无需安装新应用或后台进程,支持图片、视频、PDF、Word等多种文件类型的批量处理。其关键优势包括处理在本地完成、可使用Gemini Flash免费额度、支持撤销操作,并建议用户也可考虑使用Gemma或Qwen等本地小模型以降低成本。

小耳👂Jane|Xiaoer: 我是一个 AI Builder & Learn in Publish 👇 🔥一键让AI帮你改文件名🔥 你是不是有这种情况: 📁 截图全叫 Screenshot 2026-04-23 at 14.32.48 📁 下载图清一色 IMG...

Google产品更新多模态
13:21
小互@xiaohu
62
蚂蚁灵光App上线手机端世界模型体验功能

蚂蚁灵光App推出“体验世界模型”新功能,用户上传图片后,可在几秒到几十秒内生成一个可供探索的3D世界。该功能疑似主要依赖云端算力完成生成,尽管手机本地算力有限,但其生成速度仍被评价为“牛P”。目前生成效果虽未达到“惊艳”程度,但已具备可玩性,用户实测可成功进入多个由图片生成的3D场景。

产品更新具身智能多模态
12:00
向阳乔木@vista8
48
全模态测试遇阻,开发者改造开源UI适配多模型

开发者在测试多个Chatbot客户端时,发现普遍不支持上传音视频文件进行对话,这给全模态大模型的测试带来了不便。因此,他选择了一个开源Chatbot UI项目,并计划用Codex对其进行改造以适配需求。该开源项目参考了ChatGPT、Grok、Gemini和Perplexity等主流产品的界面,设计了多个不同的机器人对话界面,目前在GitHub上已获得近1万颗星。

多模态开源/仓库部署/工程
02:53
Chubby♨️@kimmonismus
36
今年的WWDC将是最令人兴奋的一届。 - 新任苹果首席执行官 - 首次将实用的AI模型深度集成到iOS中(Gemini) - 期待全新的macOS功能。 真希望我能亲临现场
Google多模态大佬观点
4月26日
23:20
向阳乔木@vista8
21
真会起名,TwelveLabs…
多模态行业动态
23:19
Berryxia.AI@berryxia
60
微软开源TRELLIS.2:单图3秒生成高质量3D模型

微软开源了40亿参数的TRELLIS.2模型,可将单张图片在3秒内转换为具备完整PBR材质(粗糙度、金属度、不透明度)的专业级3D资产。该模型生成的并非粗糙网格,而是直接可用于生产流程的高质量模型,能够准确处理开放表面、空心结构以及复杂几何体,显著提升了图像到3D内容的生成效率与实用性。

Microsoft多模态开源/仓库
06:51
Greg Brockman@gdb
22
哦,原来《信条》讲的是这个 【引用 @umesh_ai】:ChatGPT Images 2.0 explains "Tenet" in a simple way!

Umesh: ChatGPT Images 2.0 explains "Tenet" in a simple way!

OpenAI其他多模态
4月25日
20:49
TestingCatalog News 🗞@testingcatalog
33
Google正在为Gemini开发"使用限制"板块和新的"图像"标签。 > 目前尚不清楚我们是否能在Google I/O期间迎来新的图像模型,或者是否会看到带有图像编辑等额外功能的新图像板块。 > 使用限制标签符合Gemini更广泛的发展方向,我们预计其桌面应用将扩展包含更多智能体功能。AI Studio已与Gemini共享使用限制。 超级Gemini应用 👀
Google产品更新多模态
19:13
Berryxia.AI@berryxia
56
开源OCR模型性能突破,支持90余种语言与完整布局解析

一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。

多模态开源/仓库模型发布
00:20
AK@_akhaliq
39
Omni模型中的上下文展开 paper: https://huggingface.co/papers/2604.21921
Hugging Face多模态论文/研究
4月24日
11:19
AK@_akhaliq
44
看见快与慢 学习视频中的时间流 论文: https://huggingface.co/papers/2604.21931
多模态视频论文/研究
10:54
Ethan Mollick@emollick
62
我让一系列模型通过一个指令"为我创建一个程序生成的3D模拟,展示一个港口小镇从公元前3000年到公元3000年的演变过程"。 你可以在这里体验完整画廊:https://hg-20f7d1a3ce.netlify.app 或者在此阅读我关于GPT-5.5的文章:https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55?r=i5f7&utm_medium=ios&triedRedirect=true
OpenAI多模态大佬观点
00:07
Saining Xie@sainingxie
72
vision🍌 现已发布 https://vision-banana.github.io/ 如果你像我一样进入计算机视觉领域,从像素级标注任务(如分割、边缘、深度或表面法线)开始,看到这些结果时你可能会有同感--某些重大的转变已悄然发生,这将永久改变我们处理这些问题的方式 🧵
图像生成多模态论文/研究
4月22日
22:16
Chubby♨️@kimmonismus
AI/ML API 联合 MiniMax 推出限时模型优惠活动

AI/ML API 携手 MiniMax 推出为期七天的模型促销活动。MiniMax Music 及最新 music-2.6 版本免费开放,Text-to-Speech 五折,视频生成七折,LLMs 享九折优惠。平台同步上线 MiniMax 2.7 等最新模型,并在 Playground 中优先展示全部模型便于测试。此次限时优惠是开发者体验 MiniMax 最新 AI 能力的最佳窗口。

AI/ML API: Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...

产品更新多模态视频
21:14
Rohan Paul@rohanpaul_ai
好吧,我曾经向 Runable 提过一次我的品牌。 而且它似乎处处都记得。幻灯片、图片、轮播图全都呈现出相同的外观(色调、布局、层级、间距、图片风格)。 而且桌面到手机的切换感觉异常流畅。简直不可思议。 一致性是让 AI 输出可用于生产环境的关键。

Umesh Kumar: The power to create anything is now in your pocket. Runable is now live on the App Store. Try it, tell us what sucks.

产品更新图像生成多模态
16:16
DogeDesigner@cb_doge
Grok 刚刚升级了 🚀 你现在可以直接在 Grok 上传视频--移动端和网页端均可。 • 上传任意视频,获取即时摘要 • 节省时间,无需观看完整内容 • 大幅提升研究和学习效率
xAI产品更新多模态
12:14
Deedy@deedydas
ChatGPT 的新图像模型可以接收房屋照片并"生成完整的平面图" 它彻底击败了所有其他图像模型。 我已经试了一整天,以下是它能做的 10 件令人难以置信的事情: 1/11
OpenAI产品更新图像生成多模态
11:36
宝玉@dotey
GPT Image 2提示词:成龙与功夫手办同框生成示例

推文展示GPT Image 2的提示词示例,呈现其生成真实人物与动漫手办同框的能力。提示词要求以手机随手拍风格,构建成龙功夫手办与真人同框场景,两者姿势呼应形成趣味对比。画面采用背景虚化突出主体,追求自然和谐的生活气息。这体现了GPT Image 2在理解复杂空间关系、人物一致性及模拟真实摄影质感方面的能力。

OpenAI图像生成多模态教程/实践
11:06
宝玉@dotey
GPT Image 2 展示日本少年漫画生成能力

OpenAI 展示 GPT Image 2 生成日本少年漫画(shonen manga)的提示词案例,体现其创作复杂多格漫画的能力。提示词要求生成 1440x2560 纵向比例的彩色冒险漫画,主角发现带有 OpenAI logo 的魔法羽毛笔,需使用日语并模拟实体书页照片效果。这反映了 GPT Image 2 在特定艺术风格渲染、文字生成、品牌元素植入及物理质感模拟方面的精细控制水平。

OpenAI图像生成多模态教程/实践
01:44
AK@_akhaliq
44
OneVL 一步到位的潜在推理与规划,附带视觉-语言解释 论文: https://huggingface.co/papers/2604.18486
多模态推理论文/研究
00:19
DogeDesigner@cb_doge
32
Grok 4.3 可以解释梗图。
xAI产品更新多模态
‹ 上一页
1…1920212223
下一页 ›