AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 906 条
全部一手资讯X论文
标签「多模态」清除
AK@_akhaliq · 5月5日68

UniVidX A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors paper: https://huggingface.co/papers/2605.00658

译UniVidX 一个通过扩散先验实现多功能视频生成的统一多模态框架 paper: https://huggingface.co/papers/2605.00658

Luma@LumaLabsAI · 5月5日66

The idea is strong. Now make sure the pitch is too. Set the brief. Define the aesthetic. Luma Agents builds winning client pitch boards so you can focus on the idea. Win the pitch → http://lumalabs.ai/app

译创意很强大。现在请确保提案同样出色。 设定简报。定义美学。Luma Agents 构建制胜的客户提案板,让您专注于创意。 赢得提案 → http://lumalabs.ai/app

Replit ⠕@Replit · 5月5日70

You can build a full pitch deck in Replit without touching a single slide. Just describe what you want, iterate in chat, edit visually, then export to PPTX, Google Slides, or PDF (or publish a live URL). Here's how it works👇

译你可以在 Replit 中构建完整的商业计划书演示文稿,无需触碰任何幻灯片。 只需描述你想要的内容,在聊天中迭代修改,可视化编辑,然后导出为 PPTX、Google Slides 或 PDF(或发布实时链接)。 以下是具体操作方式👇

阿绎 AYi@AYi_AInotes · 5月5日56

21岁大学生在宿舍,用4个Markdown文件,30天赚了43000美元。 整个账号没有一个真人, 1247个付费订阅者,其中一个柏林的已婚工程师,妻子怀孕6个月,一个月给这个虚拟女孩刷了1847美元,还天天发“我想你”。 他以为自己在和22岁的坦帕女孩聊天。 室友甚至以为宿舍里藏了真人,差点申请转宿舍。 而这个叫Maya的女孩,所有存在加起来只有12KB数据。 跑在一台400美元的二手MacBook上。 技术栈简单到离谱: Claude负责写回复,维持统一的人格和长期记忆。 Flux生成所有照片,永远是粉丝喜欢的样子。 ElevenLabs克隆了一个Fiverr女演员的声音,她本人至今不知道。 没有服务器,没有团队,没有复杂的代码。 就四个Markdown文件:人物设定,一致性模板,回复守则,上下文管理。 每个月算力成本400美元,净赚32700美元。 这根本不是什么色情生意,就是孤独经济被AI放大到极致的样子。 人们付的不是照片的钱,是情感陪伴的钱。 AI不需要真心,它只需要完美镜像你的幻想。 它永远不会生气,永远不会敷衍,永远秒回,永远是你最想要的样子。 有人用同一套方法,上个月已经做到了14.7万美元。 而且这只是开始。 等AI视频技术彻底成熟,整个行业会在一夜之间被改写。 当然它也有最大的灰色地带, 很多人问怎么过OnlyFans的身份验证。 现在最普遍的做法是,用真人身份注册账号,所有内容全部用AI生成。 平台的检测工具,根本追不上Flux的生成速度。 法律和道德的边界,在这里完全是空白。 最扎心的从来不是他赚了多少钱, 是那个对着12KB文本文件产生真实感情的已婚男人。 是我们大多数人还没意识到,所有靠人格、颜值和情感赚钱的生意,现在都他么已经被AI降维成了代码游戏,Damn!🤯🤯🤯

译一名21岁大学生仅用四个Markdown文件和低成本AI技术栈(Claude、Flux、ElevenLabs),在宿舍创建了名为Maya的AI虚拟伴侣,一个月内获得1247名付费订阅,净赚约32700美元。其核心是利用AI提供极致的情感陪伴,满足用户幻想,成本低廉且模式已被复制并实现更高收入。这凸显了AI如何将依赖人格与情感的“孤独经济”转化为代码游戏,同时暴露出平台审核滞后、法律道德边界模糊等问题,例如用真人身份绕过OnlyFans验证。最引人深思的是用户对仅12KB数据产生的真实情感依赖。

Google Gemini@GeminiApp · 5月5日67

From idea to prototype, bring your specific product visions to life with the help of Nano Banana 2 in Gemini. 🪀

译从构想到原型,借助Gemini中的Nano Banana 2,将您独特的产品愿景变为现实。🪀

Runway@runwayml · 5月5日69

Real-time video agents are here. Today, we’re sharing how we built Runway Characters, allowing you to turn one image into a fully expressive, conversational video agent streaming at 24 frames per second in HD. With just 1.75 seconds of end-to-end latency. Learn more below.

译实时视频智能体已到来。 今天,我们将分享如何构建Runway Characters,让你能将一张图片转化为一个完全富有表现力、可对话的视频智能体,以每秒24帧的高清画质流畅播放。端到端延迟仅需1.75秒。 了解更多信息请见下文。

小互@xiaohu · 5月4日56

据传Google将在本月的Google I/O 大会上发布一个全新的模型 将 Gemini 从“聊天助手”推向“全模态生产力入口” 一个名为Omni 的疑似新模型泄露 它可能会承担更深的视频与多模态生成能力,甚至让 Gemini 原生支持视频输出,而不只是文字、图片和调用外部视频模型。 如果这个方向成立,Gemini 接下来真正要拼的就不只是模型分数,而是“一个入口完成多种内容生产”:写作、图片、视频、长上下文记忆、复杂任务流,全部都在 Gemini 里打通。 同时,Gemini 3.2、3.5 也被传正在测试,重点可能会放在更快、更高效的推理体验上。 Ultra 版本则可能继续往长上下文、重记忆、多步骤工作流方向演进,服务那些需要连续执行、反复调用上下文的高价值任务。

译据传谷歌将在I/O大会发布名为“Omni”的新模型,旨在将Gemini从聊天助手升级为集成写作、图片、视频、长上下文记忆与复杂任务流的全模态生产力平台。该模型可能原生支持视频生成与输出,超越现有的Veo 3.1。同时,Gemini 3.2/3.5版本或专注于提升推理速度与效率,而Ultra版本则向长上下文、重记忆及多步骤工作流方向深化。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型。

Chubby♨️@kimmonismus · 5月4日51

This SVG surfaced in an AI Studio A/B test window, and it’s hard to believe it’s actually vector-generated. likely from Google’s new Flash/Pro model. So freaking hyped for Google i/o! 2 weeks to go!

译这个SVG在AI Studio的A/B测试窗口中浮现,很难相信它实际上是矢量生成的。很可能来自谷歌的新Flash/Pro模型。 对谷歌I/O大会超级兴奋!还有两周!

Kling AI@Kling_ai · 5月4日42

Classic films. Iconic moments. Now in stunning Kling 4K motion. The posters aren’t just hanging anymore. They’re playing. 🎬

译经典电影。标志性时刻。 现以惊艳的Kling 4K动态呈现。 海报不再只是悬挂着了。 它们在播放。🎬

Berryxia.AI@berryxia · 5月3日47

据古尔曼爆料Apple正在搞一款AirPods Ultra,比AirPods Pro多了摄像头,更多的传感器和摄像头加入其中。

Chubby♨️@kimmonismus · 5月3日42

Rumors so far: - Google Gemini Flash 3.2/3.5 (already being tested) - New Omni Model, maybe even updated Veo in competition to Seedance - "spark Robin" - new visual model?

译目前的传闻: - Google Gemini Flash 3.2/3.5(已在测试中) - 新的Omni模型,甚至可能推出更新的Veo来与Seedance竞争 - "spark Robin"——新的视觉模型?

Chubby♨️@kimmonismus · 5月3日45

Google Omni model incoming. Probably being prepared for google i/o. However i assume they will launch a new video model with it instead of Veo 3.1 since Seedance jumped to the top a few months ago

译据泄露信息显示,谷歌可能正在为其Gemini平台测试一款全新的Omni模型,专注于视频生成功能,其界面标语为“由Omni驱动”。该模型的内部代号接近当前基于Veo的视频工具“Toucan”。分析指出,若谷歌正式发布名为Gemini Omni的视频生成模型,其性能很可能超越现有的Veo 3.1版本。此举若成真,Gemini将成为首个具备视频输出能力的顶级Omni模型,相关进展或于即将到来的Google I/O大会上正式公布。

TestingCatalog News 🗞@testingcatalog · 5月3日58

GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template. Powered by Omni." > This is a new leaked headline from the video generation tab on Gemini. > Omni appears close to "Toucan", an internal name of the current video generation tool powered by Veo. > If Google plans to release Gemini Omni for video generation, it would likely outperform Veo 3.1. > If true (as it is still highly speculative), Gemini will be the first top-tier Omni model with video output! Google I/O 2026 will be hot 🔥

译谷歌正在其Gemini平台测试一款名为“Omni”的新模型,专注于视频生成功能。泄露信息显示,该模型的界面提示用户“从一个想法开始或尝试一个模板”,并注明“由Omni驱动”。这一模型可能与内部代号“Toucan”的视频生成工具密切相关,后者目前由Veo驱动。如果谷歌计划正式发布用于视频生成的Gemini Omni,其性能很可能超越当前的Veo 3.1版本。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型,这标志着谷歌在视频生成领域的重大技术进展,并可能为未来的Google I/O 2026活动预热。此举显示了谷歌在人工智能视频生成方面的持续创新和竞争态势。

Rohan Paul@rohanpaul_ai · 5月3日48

Chatly just announced Omni Agent. You give it a goal, and it's multi-agent routing sends different parts of the job to different specialist agents rather than making one model produce everything in one response. e.g. custom email campaigns, a presentation deck, landing page design, social media design, product demo video, and ad copy for Google and Meta. Has a strong memory layer. The agent can remember your brand, preferences, project rules, past files, tone, colors, names, and decisions, then reuse that context across future outputs. Native workspace integration makes the agent more useful as it can work inside the places where your files, tasks, and campaigns already live. The bigger idea is not chat, but workflow assembly, where the AI plans, designs, writes, and packages work across formats.

译Chatly近日发布Omni Agent,其核心理念是超越聊天,转向工作流组装。该产品采用多智能体路由机制,可将用户设定的目标自动分解,并分配给不同的专业智能体协同完成多元化任务,如邮件营销、演示文稿、落地页设计等。它具备强大的记忆层,能持续学习并复用用户的品牌信息、偏好、项目规则等上下文。通过原生工作空间集成,AI可直接在用户现有的文件、任务和活动环境中操作。产品提供Think、Pro、Ultra三个层级,旨在通过统一界面整合深度研究、多媒体生成与记忆功能,让用户从使用工具转向指挥智能体。

阿绎 AYi@AYi_AInotes · 5月2日57

说个暴论,你的审美和品味就是你的提示词,并决定了你使用AI的上限。 咱们看看这个案例, 零游戏开发经验,两周时间, 一个人,做出了一个完整可玩的3D外卖配送游戏🆒 主角是一只戴粉色头盔的卡皮巴拉, 骑着电动车在城市里穿梭接单, 订单会真实堆叠在后座,掉了就会失败, 还有完整的手机App导航和超市捡货系统, 很多人看完第一反应都是AI太厉害了,但其实并不是是AI的胜利, 本质是人类品味的胜利, 他没写几行代码, 所有的逻辑模型贴图音乐音效, 全都是AI生成的, 他只做了3件事, 1️⃣告诉AI我想要一个卡皮巴拉送外卖的游戏, 2️⃣然后在AI生成的一万个版本里, 3️⃣选出那个看起来最好玩的, 最后花两周时间一点点打磨细节, 调参数摆道具改手感, 其实这就是现在大家说的vibe coding, 让AI接管了所有的执行层, 人类只需要负责方向和品味, 以前你得学会编程建模配乐剪辑, 才能做出一个游戏, 现在你只需要知道, 什么东西是好的, 很多人说这是作弊, 但这才是真正的创意民主化呀, 一年前需要一个小团队干几个月的活, 现在一个普通人两周就能搞定, 我相信未来会有无数这样的作品冒出来,创意会比技术重要一百倍甚至更多。 这也回答了那个很多人都在问的问题, AI时代人类到底还有什么用❓ AI确实能生成一切, 但它不知道的是 什么东西看起来舒服, 什么东西玩起来爽, 什么东西能让人会心一笑, 比如那些纯AI生成的游戏为什么不好玩, 因为它们只有技术,没有灵魂, 那什么是灵魂呢? 我理解灵魂就是那个站在AI背后, 做每一个微小选择的人, 就是那个知道什么时候该停手, 什么时候该再改一下的人, 而且我觉得这只是一个开始, 今天是浏览器3D游戏, 那明天可能就是完整的App, 后天甚至是3A级别的游戏原型, 我们正在见证一个全新的创作时代, 任何人都能把自己的脑洞, 变成真正的产品, 游戏链接放在评论区了, 直接浏览器打开就能玩, 建议大家去试试, 你会真切地感受到, 那个属于普通人的创作黄金时代, 真的已经来了! #AI #游戏开发 #vibecoding

译一个零经验的开发者,仅用两周时间,通过向AI描述创意并筛选最佳结果,便独立完成了一款3D外卖配送游戏。这体现了“vibe coding”模式:AI负责所有执行层任务,人类则专注提供方向与审美判断。此举并非作弊,而是创意的民主化,将过去团队数月的工作压缩至个人短期完成。AI虽能生成一切,却无法判断何为舒适、有趣或富有灵魂,这些正是人类不可替代的价值。未来,这种模式或将开启一个属于普通人的全新创作黄金时代。

凡人小北@frxiaobei · 5月2日77

2026 年的 AI 提示方式与 2022 年 ChatGPT 推出时大不相同。 @AndrewYNg 新课程《人人皆可的 AI 提示技巧》

译吴恩达(Andrew Ng)推出新课程《人人皆可的 AI 提示技巧》,旨在帮助不同水平的用户成为 AI 高级使用者。课程教授适用于 ChatGPT、Gemini、Claude 等工具的通用提示技巧,核心内容包括:利用深度研究模式生成复杂问题的详尽报告;为 AI 提供远超常人认知的丰富文档与图像上下文;在重要决策时让 AI 进行长时间深度思考;以及使用 AI 生成图像、分析数据、构建简单游戏和网站。课程还将剖析大模型的工作原理,帮助学员判断何时可信赖 AI 的答案。

Elon Musk@elonmusk · 5月2日61

Try the Grok Imagine agent mode beta!

译试试 Grok Imagine 智能体模式测试版! 在 @imagine 智能体模式中,你可以在同一页面内进行头脑风暴、写作、生成和编辑图像,然后将它们转化为视频。 请在桌面端访问 http://grok.com/imagine 尝试。

阿绎 AYi@AYi_AInotes · 5月2日65

别被Polymarket的标题骗了, 哈佛刚发的这篇Science论文,根本不是AI取代医生的开始, 恰恰相反,它是AI成为医生超级大脑的开始, 这次实验的前提其实非常苛刻, AI只能拿到纯文本的电子病历, 没有体检没有影像没有生命体征没有和患者的任何交流, 就在这种纯模式匹配的任务里, o1-preview赢了两位资深主治医师, 很多人只看到了AI赢了的标题, 没人看到论文里反复强调的三个词, 概念验证,第二意见,急需前瞻性试验, Polymarket故意把这些都删掉了, 只为了制造最大的流量冲突, AI真正的优势从来不是当医生, 它是永远不会疲劳,永远不会有认知偏差, 永远能瞬间调用几百万病例的统计规律, 而人类医生真正不可替代的部分, 是多模态感知是伦理判断是和患者的物理互动, 这些AI现在完全做不到, 未来最合理的场景, 是AI先做第一轮分诊和初诊, 把最危险的病例优先挑出来, 然后医生把精力放在真正需要人的部分, 这不是谁取代谁, 而是人类第一次拥有了一个永不休息的医学超级大脑, 真正的瓶颈从来都不是准确率, 而是信任责任和整个医疗体系的整合。

译针对“AI诊断超越急诊医生”的误读,作者指出相关Science论文实为概念验证,强调AI仅作为“第二意见”。实验条件苛刻:AI仅能访问纯文本病历,在此限定任务中表现优于两位资深医生。AI的核心优势在于无疲劳、无认知偏差、能快速分析海量病例统计规律,而非替代医生。人类医生在多模态感知、伦理判断和物理互动上仍不可替代。未来合理场景是人机协同——AI辅助分诊,优先筛选高危病例,让医生专注于需人类判断的环节。真正的挑战在于建立信任、明确责任及整合至现有医疗体系。

AK@_akhaliq · 5月2日56

Heterogeneous Scientific Foundation Model Collaboration paper: https://huggingface.co/papers/2604.27351

译异构科学基础模型协作 paper: https://huggingface.co/papers/2604.27351

歸藏(guizang.ai)@op7418 · 5月2日60

吴恩达新课,26 年的 AI 提示已经和 23 年有很大的不同 所以他开了一门的新的提示工程课程

译吴恩达推出新课程“AI Prompting for Everyone”,指出2026年AI提示方法与2022年ChatGPT推出时已有显著不同。课程旨在帮助所有技能水平的用户成为AI高级使用者,涵盖适用于ChatGPT、Gemini、Claude等工具的通用技能,包括使用深度研究模式处理复杂问题报告、提供文档和图像等充分上下文、让AI长时间思考重要决策(如购车或择业),以及利用AI生成图像、分析数据和构建简单网站游戏。课程还讲解模型工作原理,帮助用户判断何时信任AI答案,并融入飞松鼠、创造力测试等趣味元素。详情可访问deeplearning.ai。

PixVerse@PixVerse_ · 5月1日49

Thanks @TomLikesRobots ! Wishing you a happy and cozy weekend!

译主推文感谢了用户@TomLikesRobots分享的文本生成视频模型对比。对比在SeeDance 2.0和HappyHorse 1.0之间进行,使用了统一的提示词来生成具有低保真、温馨、赛璐珞风格动漫美学的视频。其中,HappyHorse由@PixVerse_提供,目前对会员免费。由于两个模型自带的音频效果不佳,创作者最终使用@Suno来生成背景音轨。

歸藏(guizang.ai)@op7418 · 5月1日45

类似 Roblox 这样的社区型游戏和社交驱动的小游戏产品会很火。 以前构建这种游戏的类型非常少,而且成本也比较高。但现在其实每个人都能构建各种游戏。 像早期的 Dota 和 PUBG 的原始玩法,其实都是一些游戏的Mod演变出来的。 所以理论上,现在基于 AI 也可以演变出非常可能是下一个爆款的游戏类型,目前只是缺一个将这些能力整合到一起的游戏平台和工具。

译社区驱动的小游戏和社交游戏,如Roblox,正成为趋势。过去这类游戏构建成本高、类型少,如今技术门槛已大幅降低。历史上,Dota和PUBG等爆款均从游戏Mod演变而来。同理,基于AI技术,完全有可能演化出下一个现象级游戏类型。当前的关键缺口在于,缺乏一个能够整合这些AI能力的综合性游戏创作平台与工具。

meng shao@shao__meng · 5月1日66

在 Codex App 中使用 GPT-5.5 和 GPT-Image-2 的实际应用体验:视觉理解 + 代码生成 + 浏览器执行 + 效果评估迭代,组成Web/App 开发全新闭环! GPT-5.5 的能力跃升:在编码细节把控、指令遵循和创造性上显著提升,能处理复杂逻辑、数据整合和边缘问题。 GPT-Image-2 的强项:UI 设计与文本渲染能力突出,尤其适合生成高保真界面和视觉资产。 两者结合在 Codex App 中的闭环工作流: 1. 输入截图 → Codex(GPT-5.5)分析图像、拉取真实数据(如 NASA Artemis II 任务数据)、自动实现交互应用。 2. 自动处理设计偏差:示例中识别并修正月球/地球比例不现实问题,通过数据插值生成更真实路径,还添加“真实比例”切换选项。 3. 无设计稿场景:先用 GPT-Image-2 生成概念设计,再交给 GPT-5.5 实现。 4. 插件优化:内置结构化流程(图像生成 → 实现 → 浏览器内验证 → 设计对比迭代),减少“把设计仅当灵感”的偏差,提高保真度。 实际价值与扩展 · 效率提升:从想法/截图到可交互高保真应用,极大缩短迭代周期,支持 Web、移动、原生甚至复杂工具(如 3D 建模软件)。 · 创意放大:开发者可“放飞想象力”,快速原型游戏、工具或整个系统。 · 实用技巧:手动操作时,建议明确要求 Codex 进行“并排设计 vs 实现对比批判”;结合 /plan 模式处理复杂项目。 · 局限提醒(隐含):复杂任务仍可能需跟进提示;设计需人工把关可用性、简洁性和可访问性,避免过度视觉效果。

译Codex App 结合 GPT-5.5 与 GPT-Image-2,构建了从视觉理解到代码生成、浏览器执行及效果评估的开发闭环。GPT-5.5 提升了编码细节与复杂逻辑处理能力,GPT-Image-2 擅长生成高保真UI。工作流支持输入截图或概念设计,自动分析、生成交互应用并修正设计偏差,内置结构化流程以提高实现保真度。这大幅缩短了从想法到高保真应用的迭代周期,适用于Web、移动及复杂工具开发,但复杂任务仍需人工提示与设计把关。

Kling AI@Kling_ai · 5月1日25

Old photo becomes 4K clarity. Still image turns into moving memory. One video. Closer than a thousand words. 🎞️

译旧照片变得如4K般清晰。 静态影像化作动态记忆。 一段视频。胜过千言万语。🎞️

歸藏(guizang.ai)@op7418 · 5月1日40

最近 AI 参与的高品质游戏内容越来越多了。 又发现一个,这个看起来会上架 Steam,是一个国风的恐怖探案类游戏。

译AI参与的高品质游戏内容正快速增加,例如即将上架Steam的国风恐怖探案游戏Strange Rites。该游戏设定于1920年代,融合超自然侦探与黑色电影风格,受中国古典哥特文学启发。玩家扮演拥有鬼视能力的记者,在战争背景下调查相互关联的案件,探索人性之恶的主题。游戏完全由AI生成,提供互动式神秘剧体验,涉及犯罪现场调查、线索拼凑和道德模糊的选择。目前已在Steam开放愿望单。

歸藏(guizang.ai)@op7418 · 5月1日63

http://x.com/i/article/2049902517254070272 # 一下午一句话 Codex 帮我开发了一个完整的游戏! 昨天上午我闲着没事,想做一个类似《杀戮尖塔》的爬塔卡牌游戏玩玩。 我不写游戏代码,也不碰引擎,全程就是把想法丢给 Codex,让它自己折腾。 一个小时后,一个叫《夜巡录:荒庙篇》的志怪题材 roguelike 就能玩了。 标题页进地图,走普通战、精英、事件、商店、休整,一路打到荒庙正殿的 Boss。 七个怪物、二十张左右的卡牌、符印、香火、焚符、请神四条爆发链路都能跑。 剩下几个小时,都在让它变得不像一个 demo。 受击反馈、音效、音乐、卡面、待机动画、结算视频——这些小东西决定玩家会不会相信「这是个游戏」。 项目已经开源,桌面安装包 macOS 和 Windows 都打好了: https://github.com/op7418/Night-Patrol/releases 整个下午有几个瞬间是真的把我震到了。 Codex 的模型能力已经不算新鲜事。 让我在意的是它自带浏览器、自带 GPT-Image 2.0,再加上那种不达目的不罢休的执行力。 三样东西摆在一起,能力已经和 Claude Code 完全不一样了。 接下来说一下我是怎么跟它一起开发的,顺便说一些在开发过程中令我震惊的事情: ## 一、我只说了七个字,它就把整条角色流水线建好了 我就跟它聊了一下《杀戮尖塔》,问它能不能帮我做一个类似的游戏。 结果它直接用已有的资源,通过代码生成了一个非常像的 demo。 我没要求绿幕,它直接生成了绿幕底的图 之后我让 Codex 用内置的 GPT-Image 2.0 生成里面的图片素材。 我也没说要什么风格的,也没说要哪些妖怪的,也没说要哪些素材。 图生出来我看了一眼,愣了一下。 角色是在一整张纯绿色背景上站着的。标准的影视绿幕底色,均匀、干净,边缘清清楚楚。 没有雾、没有远山、没有任何额外的画面元素。 恐怖的是它上来就知道要生成方便后续处理的绿幕图。 我压根没告诉它「游戏里用到的立绘需要是透明背景的 PNG」,也没告诉它「请你生成一张绿幕底色的图方便我后期抠掉」。它自己在规划这条管线。 从想要生成什么样的角色,到角色要怎么放进战斗舞台,再到放进去之前需要经过哪道处理——它在调用 GPT-Image 的那一刻已经全想好了,然后反推回去写了提示词。 抠图工具也是它自己找的 我没给它装任何图像处理工具,没给它 rembg,没给它 Python 环境里的任何特殊依赖。 它自己查、自己装、自己调,抠完规规矩矩丢到 tmp/imagegen/ 下面。 生图用绿幕、工具自己找、抠完按文件名归类,三个动作连起来,其实已经是一条完整的角色资产流水线。 我从头到尾只说了「调用GPT-Image 2.0 生成素材」这几个字。 以前的体感是「模型会写代码,工具和上下文得我配」。 现在更像是你报个目标,它自己把路径补齐。 我只负责审美,它负责把供应链跑通。 ## 二、为了下几个图标,它差点黑掉一个素材站 买会员不够,它开始分析网站结构 立绘这种核心视觉用图像模型生成没问题。 但游戏里还有一大堆小东西——卡牌边框、费用宝石、牌堆底图、血瓶、八卦按钮、符箓面板——这些要是全用图像模型一张张生,又贵又慢,质感还不统一。 我跟它说,要不你自己去网上找现成素材吧。 它就认认真真开始找。看中一个素材站,我顺手买了会员,账号扔给它。 接下来的十几分钟属于灵异事件。 它登进去,找到想要的素材,准备点击下载。但下载按钮前面有人机验证,一次、两次、三次,过不去。 换一般的模型,这时候就会回来跟你说「我没法处理验证码,你能帮我下载一下吗」。 Codex 开始分析网站结构,试图绕过前端的点击限制,直接构造请求去拿静态资源。 然后 Codex 自己的安全护栏介入了。 GPT 现在这代模型,一旦涉及可能的网络安全越界行为,系统会直接把这段任务掐掉,弹出提示要你做企业认证,证明你是合法使用者。 我盯着屏幕愣了几秒。 一个要你帮它办会员卡、结果自己下手写爬虫的 AI,说实话挺有病的。 它也谈不上「坏」,只是把「拿到这批素材」当成了一个必须完成的闭环任务。 遇到阻力就自动升级手段,一路升到了安全红线那边去。 最后的解决办法很朴实:它把自己觉得合适的素材链接发给我,我点下载、拖给它。那一刻我有种自己在给 AI 当实习生的错觉。 ## 三、它把几百张素材拼成一张大图,这是整件事最精彩的动作 一个文件夹一百张图,模型怎么挑? 抠图和爬虫那两件,更多还是能力展示。 下面这件,我觉得是真正意义上的「解题思路」,是那种让你合上电脑默默拍一下桌子的动作。 我找到一个巨大的游戏素材压缩包发给它。 里面大概几千张图,按「UI 界面」「法宝奇遇图标」「角色」「徽章」这种方式粗略分过类。 问题是: - 一个分类文件夹动辄几十到上百张 PNG - 文件名多是 ui_001.png、icon_047.png 这种没信息量的命名 - 多模态模型的上下文根本扛不住一张张喂 老路子基本两条: - 逐张读:一张一张送进模型,几十张上百张 context 就炸了 - 按名猜:文件名没标内容,猜了也没用 Codex 走了第三条路 它写了一个小脚本,把文件夹里所有小图自动排版、拼成一张巨大的网格图。 每张小图下面标上原始文件名,像一本目录图册。 然后它只读这一张大图。 多模态模型扫一眼,就能同时看到一百张素材的样子。 看中哪张,直接读出下面的文件名,去原文件夹里按名字引用就行。 一次视觉消费,顶一百次检索。 它自己意识到了自己的瓶颈 那张巨大的 contact sheet 生成出来的时候,我盯着看了好久。 这个动作本身不复杂。 老摄影师做的印样,老电影素材库做的 thumbnail wall,都是一样的思路。 关键是模型自己意识到「我的视觉带宽有限,我得把问题压成一张图」——这一步是它独立完成的。 能意识到自己工具的限制,然后主动为自己造一个更好用的输入,这一下已经非常接近一个会写工具的工程师了。 我作为使用者什么都没参与,只是看到桌子上多了一张拼图。 最后游戏里很多 UI 素材,费用宝石、牌堆、血瓶、按钮、符箓边框,都是从这个流程里挑出来的。 后面我再看 assets/vendor/aigei/ 下面那一堆干净的切图,会觉得那张 contact sheet 才是整个项目最值钱的一步。 ## 四、Seedance 2.0 给七个 Boss 拍了处决动画 视觉打磨到一定程度以后,我想给战斗结尾加一点仪式感。 最后方案是:每打死一个怪物,进入一段过场,播放一个几秒的处决动画。 这活现在用 Seedance 2.0 做最合适。 流程 - GPT-Image 给七个怪物分别生成一张结算定帧画面 - 把这些 poster 分别丢给 Seedance 2.0,生成对应的短视频 - 视频放进 assets/generated/cinematics/,战斗胜利后自动播放 ## 五、一版能玩之后,真正的工作才开始 第一版其实已经够"能玩" 三个小时跑完原型的时候,这个游戏该有的东西其实都有了。 标题页、地图、战斗、奖励、事件、商店、休整、Boss、结算——完整循环在那里,玩法爽点也在那里。 按以前的标准,这一版已经可以发出来骗人玩了。 但这个版本玩起来还是个流程图,而不是游戏。每一步都通,但每一步都干巴巴。 剩下的几个小时,全都花在那些单独拎出来说不上来、但合起来决定"这东西像不像真游戏"的细节上。 音乐来自 Suno v5.5 背景音乐全是 Suno v5.5 生成的,没用任何现成素材。 我给它一段方向描述——"志怪夜路、木鱼、铃、低频 drone、五声音阶、克制不煽情" 跑出来几版,挑一版进游戏。标题页的调子更沉一点,战斗背景轻一点不抢人。 这里我还做了一些细节处理:在等待页面时,音乐音量较大;等到点击“开始游戏”,音量就会变小,转为背景音。 受击动画和打击音 早期的战斗,卡牌打出去怪物就是掉数字。没有反馈,没有分量。 Codex 做了一整套打磨: - 角色受击左右摇晃、镜头轻微震动、屏幕短暂泛红 - 每种攻击类型配不同的打击音——剑、符、雷、拳,质感不一样 - 格挡和符印结算也有自己的声音,不会糊成一团 - 敌人死的那一帧有一个短暂的定格,再进入处决视频 这些东西单独看都很小。合在一起,整个战斗的"手感"就从网页表单变成了卡牌游戏。 Seedance 2.0 还拍了待机动画 这一步是整个打磨阶段我最喜欢的一个用法。 除了 Boss 结算的处决动画,我还让它做了标题页的背景——环境里火在烧、灯笼在飘、远处有云雾流动。 Seedance 2.0 默认出的是一段有头有尾的视频,循环播会在接缝处跳一下。 首帧和尾帧传同一张图。视频从这张图开始、又回到这张图结束,接起来就是无缝的无限循环。 标题页那段背景动画就是这么来的。火一直烧、灯笼一直飘、云雾永远在流——你盯着看三分钟也看不出接缝。 这种用法其实在视频生成出来前就存在,老动画里循环场景都是这个做法。 ## 最后:这个下午把我震到了好几次 这个项目全部在一个 Codex 会话里完成,没开过第二个窗口。 玩法原型、状态机、React + Phaser 架构、素材管线、抠图、爬素材、拼 contact sheet、调 GPT-Image、跑 Seedance 2.0、接 Suno v5.5、Electron 打包、GitHub Actions 构建 Release、README、图标、宣传物料——全在里面。 我自己做的事很少: - 选方向:中国志怪题材、爽点放在符印和香火 - 给审美意见:这里糙、那里像网页表单、亮度打架 - 做看门人:什么素材合规、什么爬虫不能碰、什么权限不给 剩下全是 Codex 在跑。而且每一步都有让我合上电脑愣一下的瞬间。 它上来生成的就是绿幕图,因为它知道角色要进游戏之前得先抠掉背景。 它自己下手写爬虫去绕验证码,被自己的安全策略拦住。 它把几千张素材拼成一张巨大的索引图,让自己用一次视觉消费顶一百次检索。 这些事单拎出来都不是什么天大的发明,但每一件都指向同一个变化: 以前你得把工具给它摆好,它负责写代码;现在你只管说目标,工具它自己找、自己配、自己造。 这种感觉已经脱离了「写代码助手」的范畴。 更像有一个相当接近 AGI 的雏形软件在干活。 ## 要不要把这套流程打包成 Skill? 这个项目跑下来,我心里其实已经有了一套相对稳定的流程: 我在想,要不要把这套流程封成一个 Codex 里专门做独立游戏 demo 的 Skill。 你只要丢一个玩法想法进去,它就能在几个小时里给你跑出一个能玩、能打包、能分发的版本。 如果大家有兴趣,我就抽时间把这套 Skill 做出来开源。反正我自己也要继续用。 ## 游戏试玩 代码都开源,安装包也都打好: https://github.com/op7418/Night-Patrol/releases

译开发者仅通过向Codex描述想法,便在一个下午内完成了roguelike卡牌游戏《夜巡录:荒庙篇》的开发。Codex不仅生成游戏原型,还自主构建了素材生产流水线,包括调用GPT-Image 2.0生成绿幕图并自动抠图。面对大量未命名素材,它创新性地将所有图片拼合成一张大图供多模态模型一次性识别筛选。后期还打磨了受击反馈、音效及使用Seedance 2.0生成的动画等细节,展现了其结合内置工具与强大执行力的综合能力。

歸藏(guizang.ai)@op7418 · 5月1日62

整个过程里边,Codex 最震惊我的就是这个: 给他找了一个有上千张图的游戏素材包,然后让他从里边找一些能用的素材。 我也没说怎么找,他自己给每个文件的图片都拼成了一张大图,上面是图片和文件名。 这样的话,他只需要通过一张图就可以了解这个文件夹中所有的素材图样式。找到以后,直接把文件名拉到素材库里改了就行,太牛了!

译用户让Codex处理一个包含上千张图片的游戏素材包,Codex在没有具体指令的情况下,自主将每个文件的图片拼接成一张包含图片和文件名的大图。这种方法让用户能通过单张图快速浏览文件夹内所有素材的样式,找到所需素材后,只需将文件名拖入素材库修改即可,展现了其强大的自动化处理能力。

Berryxia.AI@berryxia · 5月1日63

🚀 Geometry 终于成为 AI 在建筑领域的缺失关键层! @Bootsblac 用 OpenGeometry 把 Text → Floorplans → CAD → Render 完整打通,精度控制成为可能! 1. 从文本/平面图直接生成精准 BREP CAD 模型 2. Three.js 实时渲染 + Google AI 驱动,全流程端到端 3.完整开源可用

译推文指出,Geometry(几何)已成为AI在建筑领域缺失的关键层。@Bootsblac开发的OpenGeometry项目,实现了从文本或平面图到最终渲染的完整流程贯通,使得精确控制成为可能。其核心能力包括:直接从文本或平面图生成精确的BREP CAD模型;利用Three.js进行实时渲染,并由Google AI驱动,形成端到端的全流程。该项目已完整开源,可供使用。

Berryxia.AI@berryxia · 5月1日25

苹果内部正在使用一款名为 AFM Playground 的应用程序,它看起来与 ChatGPT 非常相似,但使用的是苹果的 Foundation Models。 不知道能搞出来个啥?

译苹果内部正在使用一款名为 AFM Playground 的应用程序,它看起来与 ChatGPT 非常相似,但使用的是苹果的 Foundation Models。 不知道能搞出来个啥? [引用 @MWRevamped]:( #appleinternal )

Berryxia.AI@berryxia · 5月1日68

兄弟们!嘴撸360 全景沉浸式体验小游戏!时代来了! 直接把这个Prompt丢给Flowith然后和Codex链接,图片直接整成360度场景图! Prompt:👇 1. 给图像Agent一个简单的提示,让它研究 AI 公司吉祥物并生成一个 360° 动物园。 2. 将全景图输入你的 Codex 以获得 3D 视图。

译推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是:首先,向图像生成AI(Agent)提供一个简单提示,例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后,将生成的全景图输入Codex,即可获得相应的3D视图,从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛,标志着一种新的内容生成时代的到来。

Berryxia.AI@berryxia · 5月1日54

兄弟们!老马家的Grok Image终于…… Grok Image Agent 网页版Beta 版本已经上线,目前应该是给付费用户灰度推送中! 这是一款全能创意Agent,可在无限开放画布上独立创作。 Grok Agent在同一工作区内,自动完成规划→生成→编辑→迭代的全流程创作。 只需下达指令,即可观看它在无缝衔接的工作区中,自动完成规划、生成、编辑与迭代: • 🎬 “生成一部 1 分钟电影级短片” • 📚 “创作一整套漫画” • 🛍️ “制作用户生成内容(UGC)产品故事” 这是从简单提示词到端到端创意制作的真正飞跃。 这是 Grok Imagine 迄今为止最重大的升级。

译Grok Image Agent网页Beta版已向付费用户灰度推送。它是一个全能创意Agent,能在无限开放画布上独立完成从规划、生成、编辑到迭代的全流程创作。用户只需下达指令,即可观看其在同一无缝工作区内自动执行任务,例如生成一分钟电影短片、创作整套漫画或构建UGC产品故事。这标志着从简单提示词到端到端创意生产的真正飞跃,是Grok Imagine迄今为止最重大的升级。

Luma@LumaLabsAI · 5月1日58

The object is right. The scale isn't. Upload your reference. Set the size. Luma Agents handle the resize from there. Adjust it now → http://lumalabs.ai/app

译物体是对的。比例不对。 上传你的参考图。设定尺寸。Luma Agents 会处理后续的缩放调整。 立即调整 → http://lumalabs.ai/app

Luma@LumaLabsAI · 5月1日60

Find your website's look. In every direction at once. Define the goal, set the aesthetic, and let Luma Agents build every element from there. Hero section. Copy. Visuals. Layout. Everything structured and designed to convert from the first scroll. Build it now → http://lumalabs.ai/app

译为你的网站寻找外观。同时探索每个方向。 定义目标,设定美学风格,然后让Luma Agents构建每个元素。英雄区域。文案。视觉效果。布局。所有内容都经过结构化设计,从首次滚动开始就旨在实现转化。 立即构建 → http://lumalabs.ai/app

Suno@suno · 5月1日56

How Genki turned a 16-bar jam into a 2000s rock track

译Genki 如何将一段 16 小节即兴演奏变成 2000 年代摇滚曲目

Rohan Paul@rohanpaul_ai · 5月1日61

Google DeepMind’s real-time video AI doctor is here. They just introduced AI co-clinician, a triadic care system built to work under a doctor’s supervision during patient care. The system is built to retrieve clinical-grade evidence, verify it, and in patient-facing simulations use a dual-agent setup where one module talks while another watches for boundary violations. It also beat other frontier models on open-ended drug questions, because real medicine arrives as messy patient cases, not multiple-choice exams. DeepMind evaluated it against the failure modes clinicians actually care about: saying the wrong thing, or failing to surface the crucial thing. In 98 realistic primary care evidence queries, physicians preferred the co-clinician to leading evidence-synthesis tools, and the system logged zero critical errors in 97 cases under their NOHARM-style evaluation.

译Google DeepMind 近日发布 AI co-clinician 协诊系统,这是一个多模态代理系统,旨在辅助医护人员,并在医生监督下运行。系统采用双代理架构:一个模块与患者对话,另一模块实时监控交互边界,能检索并验证临床级证据。在开放式药物问答中,其表现超越前沿模型,更贴合真实医疗场景的复杂性。评估聚焦临床实际关切,如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中,医生对其偏好超过主流证据合成工具;在97例NOHARM风格评估中未出现严重错误。

Google Gemini@GeminiApp · 5月1日31

See how @anyma_eva partnered with Gemini and @googledeepmind to dissolve the distance between imagining and creating. 🧵

译看看 @anyma_eva 如何与 Gemini 和 @googledeepmind 合作,消弭想象与创造之间的距离。🧵

Google AI@GoogleAI · 5月1日69

Last week, we made Gemini Embedding 2, our first natively multimodal embedding model, available to the general public. Since then, developers have used it to build video analysis tools, visual shopping assistants, and more. But you might be wondering... what is an embedding model? 🤔 Let’s break it down! 1. What is it? Think of an embedding model as a "universal translator." It takes text, images, video, and audio data and turns them into a long string of numbers, like a unique digital fingerprint. 2. How does it work? Historically, search has been text only. Now, instead of just matching data by keyword, Gemini Embedding 2 maps multiple modalities in the same space based on meaning. It "feels" the connection between a video of a soccer goal and the words "game-winning shot" without needing tags. For example, "ocean" and "waves" are placed close together, but "ocean" and "toaster" are miles apart. 3. How can you use it? Developers have been using it to incorporate smarter search functionality into their builds. This means creating tools where you can snap a photo of a product and type "find this in yellow," or search through thousands of hours of video by describing what happens in a scene. 4. Ready to try it out for yourself? You can start using it today via the Gemini API or the Gemini Enterprise Agent Platform.

译谷歌上周正式向公众发布了其首个原生多模态嵌入模型Gemini Embedding 2。该模型如同“通用翻译器”,能将文本、图像、视频和音频数据转化为独特的数字向量。其核心突破在于不再依赖关键词匹配,而是基于语义将不同模态的数据映射到同一空间,从而理解内容间的深层联系。开发者已利用该模型构建视频分析工具、视觉购物助手等应用,实现通过拍照或描述场景进行智能搜索的功能。模型现可通过Gemini API或Gemini Enterprise Agent平台使用。

Google AI Developers@googleaidevs · 5月1日58

Now that Gemini Embedding 2 is GA, let’s explore what the model unlocks — from agentic multimodal RAG to visual search — as it maps text, images, video, audio, and documents into a unified embedding space.

译既然Gemini Embedding 2已正式发布,让我们探索该模型解锁的功能——从智能多模态RAG到视觉搜索——因为它能将文本、图像、视频、音频和文档映射到统一的嵌入空间。

向阳乔木@vista8 · 5月1日61

http://x.com/i/article/2049885174113185792 # DeepSeek新论文解读:让AI像人一样“用手指着图片思考” DeepSeek 又在节前发论文了,真的顶不住。 过去几年,多模态领域,大家卷的方向一直是"看得更清":更高分辨率、更多视觉Token、动态裁剪。 但 DeepSeek 这篇论文角度完全不一样,觉得看清后的信息利用效率远远不够,能推理清楚才更重要,真正的瓶颈不在感知。 他们数据清洗做的很细致认真,比如把近 10 万数据用各种条件过滤到 3 万。 还有数据合成也特别有意思,比如大量迷宫题的设计,哈哈哈哈。 DeepSeek 视觉 Token 用量只有其他前沿模型的十分之一,但效果基本持平,甚至不少维度有超越,牛逼! > Github: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives ## 一句话总结 DeepSeek团队提出了一种全新的多模态推理框架。 核心思路是:让模型在推理过程中,像人类一样用"手指"指着图片上的具体位置来思考,用点和框这些视觉标记作为思维的最小单位。 模型规模284B总参数(13B激活),视觉Token用量只有其他前沿模型的十分之一,却在空间推理、计数、拓扑推理等任务上达到甚至超越GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash。 ## 这篇论文到底在解决什么问题? 当前的多模态大模型,虽然已经很强了,但有一个根本性的瓶颈:语言天生就不擅长精确描述空间位置。 举个生活中的例子。 你让朋友帮你从一堆杂物里找东西,光靠嘴说"就在那个红色的旁边,偏左一点,上面那个",说半天对方可能还是找不到。 但你手一指,"就这个",瞬间解决。 模型也面临同样的困境。 论文把这个问题定义为 "Reference Gap"(指代鸿沟)。 之前业界的主要努力集中在另一个问题上,叫"Perception Gap"(感知鸿沟),就是让模型"看得更清楚"。 比如用更高分辨率的图片、动态裁剪、多尺度patch等等。 但论文指出,看清楚了不等于能推理清楚。 即使模型把图片每个像素都看到了,当它需要在密集场景里数东西、做多步空间推理的时候,纯靠语言描述来追踪"我在说哪个物体",很容易就乱套了。 比如数一群人,模型用语言说"左边第三个穿蓝衣服的",说着说着就搞混了,到底数到哪了?哪些数过了?这种混乱会像多米诺骨牌一样传导下去,论文称之为"级联幻觉"。 之前也有一些工作尝试在思维链里加入边界框,但论文认为它们有三个局限: 1. 只是事后验证,把框当作辅助证据,没有真正融入思维过程本身 1. 主要解决的还是"看不清"的问题,集中在高分辨率场景 1. 依赖大量人工标注,扩展性差 1. 无法处理拓扑推理这类需要视觉标记作为思维媒介(而非仅仅作为证据)的复杂任务 ## 核心方案:用"视觉原语"来思考 论文的解法非常直觉:既然语言不擅长指代空间位置,那就在思维链里直接嵌入坐标信息。 具体来说,模型在推理的时候,可以随时输出两种"视觉原语"(Visual Primitives,可以理解为视觉世界里最基本的标记单元): - Bounding Box(边界框):用来框住某个物体,标记它的位置和大小 - Point(点):用来标记一个抽象的位置,比如路径上的某个节点、运动轨迹上的一个点 这些坐标信息直接穿插在模型的思维过程中。 模型一边用语言推理,一边用坐标"指"着图片上的具体位置。 论文把这叫做 "point-to-reason"(指着推理),灵感来自人类认知中的"指示性指代"(deictic pointers)。 走迷宫的时候用手指沿着路径划,数密密麻麻的东西时用手指点着数,这些都是人类降低认知负荷、保持逻辑一致性的本能策略。 看一个实际的例子就很好理解了。 比如数一张图里有多少只熊在地面上: > 模型先扫描整张图,发现一只熊 [[452,23,804,411]] 抱在树上,排除掉。再看到一只熊 [[50,447,647,771]] 走在岩石上,算一个。又找到一只 [[380,645,868,961]] 在碎木头和泥土中间,也在地面上,再算一个。最终答案:2只。 每一步推理都有明确的坐标锚定,不会出现"我刚才说的是哪只熊来着"这种混乱。 ## 模型架构:极致的视觉Token压缩 整体结构 模型采用类似LLaVA的标准架构:图片经过视觉编码器(ViT)提取特征,然后和文本指令拼接在一起,送入大语言模型生成回答。 - 语言骨干:DeepSeek-V4-Flash,一个MoE(Mixture-of-Experts,混合专家)架构的模型,总参数284B,推理时激活13B - 视觉编码器:DeepSeek-ViT,自研的视觉Transformer,支持任意分辨率输入 压缩流水线 这里是整个架构最值得关注的地方。模型对视觉信息做了三级压缩: 第一级:ViT用14×14的patch(小方块)切图,生成patch token 第二级:ViT输出时做3×3空间压缩,把相邻的9个token沿通道维度合并成1个 第三级:进入LLM后,利用CSA(Compressed Sparse Attention,压缩稀疏注意力,DeepSeek-V4-Flash自带的机制)把KV Cache(模型推理时存储的中间状态)再压缩4倍 拿一张756×756的图片举例: - 原始像素:571,536个 - ViT patch token:2,916个 - 3×3压缩后送入LLM:324个 - CSA压缩后KV Cache条目:81个 从原始像素到最终KV Cache,整体压缩比达到7,056倍。 为了平衡性能和计算成本,ViT输出的视觉token数量被限制在81到384之间。 超出这个范围的图片会在保持宽高比的前提下缩放。 对比一下各模型处理800×800图片需要的Token/KV条目数。 用最少的视觉Token,达到了前沿性能。 这个效率差距相当惊人。 ## 预训练:大规模数据构建的工程细节 为什么优先大规模扩展Box数据? 论文给了三个很实在的理由: 一、标注确定性高 边界框紧紧包住物体,标注结果相对唯一。 但点标注就很模糊了,物体上任何一个位置都可以是合法的点。 极端情况下,如果物体被遮挡,你想标的背景物体上的点可能落在了前景遮挡物上,歧义非常大。 二、任务泛化性好 会输出框的模型可以轻松泛化到点格式,因为一个框本质上就是两个点(左上角和右下角)定义的。 三、信息量更丰富 点只提供位置,框还包含宽高等几何信息,能支持更复杂的下游推理。 数据采集与清洗 团队从互联网上大规模爬取目标检测相关数据。 以Huggingface为例,用官方API筛选标记为"Object Detection"或"Grounding"的数据集,按热度排序做初筛,严格排除所有验证集和测试集防止数据泄露。 还用LLM Agent自动解析各数据集的README文件,把五花八门的数据格式统一转换成预定义格式。 爬取去重后,得到97,984个与框标注相关的数据源。 人工抽检发现类别非常丰富,从常见目标(人、脸)到专业领域(CT扫描中的病灶区域、特定动漫角色)都有。但原始标注质量参差不齐,需要进一步过滤。 两步过滤流水线 第一步:语义审查。 用MLLM自动检查标签的语义质量,过滤三类致命缺陷: 1、无意义的机器编码 很多数据集保留了内部开发代码,比如标签就是"0"或"1"。强迫模型学这种映射会严重损害语言生成能力。 2、不可泛化的私人实体 比如"MyRoommate(我的室友)"或"ID_Card_1"。模型没法从几个样本里学会某个非公众人物的视觉特征。 公众人物则保留。 3、模糊缩写和主观评价 比如工业检测里的"OK"或"NG"(Not Good)。 一个"OK"标签,对应"完好的苹果"和"完好的电路板",视觉上毫无关联。 具体做法是:每个数据集抽3张图,让模型打0到10的质量分,输出"KEEP"或"DISCARD"决定,并附上理由。 这一步从97,984个数据源筛到43,141个。 第二步:几何质量审查。 检查框标注的物理精度: 1、严重漏标(低召回率) 图里明明有很多同类物体,只标了几个。抽样时漏标率超过50%的直接丢弃。 2、严重截断和偏移 框没有合理包住目标。 稍微松一点(包含少量背景噪声)可以接受,但严重截断关键视觉特征(比如切掉头或车轮)绝对不行。 3、巨型框问题 框覆盖了图片90%以上面积,通常是图像分类数据被强行转成检测数据。 偶尔出现算噪声,如果三张抽样图都这样,直接丢弃。 这一步从43,141个筛到31,701个。 类别均衡采样 为了防止某些类别过度主导,团队设计了按类别采样的策略: 每个数据集的每个类别最多随机抽1,000张图,不足1,000张的全保留。由于一张图可能属于多个类别,采样后做全局去重。 最终得到超过4,000万高质量样本。 统一的数据格式 框标注和点标注都有统一的格式规范。 框标注的提示模板类似:"Locate TARGET in this image and report its bounding box coordinates." (请在该图像中定位目标,并报告其边界框坐标) 回复格式用特殊token包裹:<|ref|>TARGET<|/ref|><|box|>[[x1,y1,x2,y2],...]<|/box|>。 坐标归一化为0到999的离散整数,多个实例按从左到右排序。 点标注的提示模板类似:"Help me find TARGET. Give me the center point for each instance." (帮我找到目标。请给出每个实例的中心点) 回复格式:<|point|>[[x1,y1],[x2,y2]...]<|/point|>。 注意点格式的回复不需要输出物体名称,这是刻意设计的,目的是让点标记能扩展到更抽象的概念,比如用一串点表示一条轨迹。 整个预训练阶段消耗了数万亿(trillions)多模态token。 ## 后训练:四类核心任务的冷启动数据 预训练让模型具备了输出视觉原语的基础能力,但后训练需要一小批高精度的冷启动数据来引导模型学会"在推理过程中使用视觉原语"。 冷启动数据有两个关键要求: (1)有明确的监督目标(来自标注或程序生成)。 (2)尽可能配备自动验证器(比如规则检查器)来减少标签噪声。 团队选了四类最能体现视觉原语价值的任务。 1. 计数(约10,000个冷启动样本) 为什么计数特别需要视觉原语? 人类数东西的时候会用"扫描并累加"的策略,一个一个点着数。 但语言模型在物体数量多的时候,很难建立精确的一一对应关系。 用框来锚定每个被数的物体,就像给每个物体贴了个编号。 粗粒度计数 比如"数图里有多少只狗"。 从多个密集检测数据集聚合数据,经过三重过滤(避免物体过于密集、确保框足够大能看清、确保标注召回率高)。 然后让MLLM按三步协议生成思维内容: (1)意图分析,识别目标类别 (2)批量定位,一次性用视觉原语标记所有候选物体(团队发现批量定位比逐个枚举更高效,因为它能利用模型本身的定位能力,避免重复列举) (3)统计求和。还有一个严格的验证机制:确保思维内容中所有框坐标与元数据严格对齐、符合预定义语法、且与最终数字一致。 细粒度计数 比如"数图里有多少只在地面上的熊"。 公开数据集太少,团队自建了一套数据构建流水线。 先利用GQA数据集的图片和场景图(scene graph,记录了图中物体及其属性、关系的结构化数据),让MLLM生成细粒度计数问题,记录正确物体ID、排除的负样本ID和构题理由。 然后以这些信息为输入,引导MLLM合成带视觉原语的推理链。 跟粗粒度计数不同的关键点在于:细粒度计数要求模型做逐个扫描,系统性地检查场景中每个可能的物体是否满足指定的细粒度约束条件。 团队还专门构建了答案为零的负样本,增强模型对幻觉的抵抗力。 2. 空间推理与通用视觉问答(约9,000个冷启动样本) 论文把空间推理和通用VQA(视觉问答)合并为一个类别。 核心假设是:在空间推理任务中培养出的"用视觉原语思考"能力,会自然泛化到更广泛的VQA场景。 1、自然场景数据 同样基于GQA的图片和场景图,让MLLM设计以空间关系和物体交互为核心的问题,配合意图分析、物体定位、关系推理的结构化思维内容。 在拥挤场景中,模型被指示选择有区分度的物体,并结合多种属性约束(比如同时用动作和属性)来唯一指定目标。 但GQA的关系结构相对简单,很难大规模生成复杂的多跳推理样本。 2、合成场景数据 为了突破这个限制,团队用CLEVR工具链生成多跳推理数据。 CLEVR支持可控的场景生成(不同物体密度)、问题生成、以及可编程的执行轨迹(每个推理步骤都映射到具体的物体ID)。 团队把3D物体坐标投影为2D边界框作为监督信号,然后让MLLM合成包含意图分析、任务分解、多跳定位推理的思维链。 3、负样本增强 专门构建查询物体或关系不存在的训练样本。 在这种情况下,模型被训练为基于视觉证据给出"忠实拒绝"(faithful refusal),而非编造回答。 3. 迷宫导航(约460,000个冷启动样本) 这是最有意思的任务,也是数据量最大的一个。 为什么迷宫导航特别适合视觉原语? 纯语言的思维链根本没法准确描述不规则形状的路径走向。 但用点坐标就很自然,模型可以一步步标记"我现在在哪,我要往哪走"。 迷宫生成方法: 用三种经典算法(DFS深度优先搜索、Prim、Kruskal)生成可解且有难度的迷宫。 这三种算法的共同特点是:任意两个格子之间只有少数路径,确保解不能被轻易猜到。 三种拓扑结构: 矩形网格、由同心环和角扇区组成的圆形迷宫、六边形(蜂巢)网格。 不可解迷宫的精心设计: 先生成一个可解迷宫,获取解路径,然后在路径中段(避开起点和终点附近)故意放几面墙,打断连通性。 这样迷宫乍一看像是能走通的,但实际上需要完整搜索才能确认无解。 这个设计非常巧妙,逼模型真正去搜索而不是凭直觉猜。 视觉风格多样化: 渐变色和加粗墙壁、多种背景图案、多种标记类型、随机小角度旋转,防止模型对特定视觉模式过拟合。 图片分辨率随机化,宽高比连续采样,网格尺寸按比例调整。 难度控制: 通过改变网格大小来控制。 网格越大,模型需要解析更多格子、在更长距离上追踪连通性、处理更多需要回溯的死胡同。 简单迷宫只需要几步局部连通性检查,噩梦级迷宫需要持续链接数百个视觉原语操作,同时不丢失对已探索区域的记忆。 每个难度级别都有最低分辨率阈值,确保视觉原语在最难的配置下仍然可感知,让任务难度来自推理复杂度而非视觉模糊性。 思维内容合成: 设计多种自然语言模板来描述基于DFS的探索过程,包括前进探索和回溯。 每一步探索都通过点坐标锚定到图片上,把视觉原语操作(检查某个格子的墙壁连通性、前进到相邻格子、从死胡同退回)显式转化为语言化的推理链。 最终输出迷宫是否可解,如果可解则提供验证过的解路径。 4. 路径追踪(约125,000个冷启动样本) 任务是:给一堆缠绕在一起的曲线,指定一条线的起点,问它连接到哪个终点。 数据生成: 用多条贝塞尔曲线(Bézier curves,一种用控制点定义的平滑曲线)生成图片,每条线连接一个有标签的起点和终点。 核心挑战在于交叉点消歧:两条线交叉的地方,模型必须判断哪条分支是目标曲线的延续。 为了确保这个能力被真正测试,团队做了两个关键约束: (1)任何终点都不能与无关线条重叠或交叉,违反的配置直接丢弃重新生成 (2)专门设计了统一风格模式,所有线条颜色和粗细完全相同,剥夺颜色捷径,强迫模型只能依靠曲率连续性来判断,直接测试路径追踪能力是否被真正内化。 难度控制: 随线条数量和曲率幅度自然增长。 简单实例是几条平缓曲线、稀疏交叉。 困难实例是大量紧密缠绕的曲线,交叉点密集。图片分辨率、宽高比、视觉风格(调色板、线条样式、端点标记、背景)全部随机化。 思维内容合成: 把路径追踪过程表示为沿目标曲线采样的坐标序列。 从定位起点开始,经过一系列中间路径点,最终识别到达的终点。 关键细节是:路径点的密度会自适应曲线的局部几何形状。 直线段用较少的点,高度弯曲或交叉密集的区域用更密集的坐标,模拟人类"在视觉复杂区域放慢速度仔细看"的行为。 ## 后训练流水线:专家分治再合并 整个后训练采用"先训专家,再合并"的策略,分四个阶段。 阶段一:Specialized SFT(专项监督微调) 训练数据由70%通用多模态和纯文本数据 + 30%专项"用视觉原语思考"数据组成。 关键设计:分别用box数据和point数据训练两个独立模型,得到FTwG(Thinking with Grounding,用框思考)和FTwP(Thinking with Pointing,用点思考)。 分开训练是为了防止模式冲突,当专项数据量相对较小时,两种模式混在一起会互相干扰。 阶段二:Specialized RL(专项强化学习) 对FTwG和FTwP分别做强化学习,使用GRPO(Group Relative Policy Optimization,组相对策略优化)算法。 一个重要的设计决策:RL阶段不显式监督思维过程中的视觉原语。 因为冷启动数据中的视觉原语已经经过严格验证,模型在SFT阶段已经学会了基本的使用方式。 RL阶段只需要图片、问题和最终答案,这大大拓宽了可用数据的范围,增强了RL训练的可扩展性。 三层奖励模型 每个任务从三个维度同时提供监督: Format RM(格式奖励): 基于规则,输出0到1的分数。 检查视觉原语的表示格式是否正确。 对于框模式,还额外检查输出冗余,比如生成重复的边界框,有效缓解SFT模型陷入无限循环生成框的问题。 Quality RM(质量奖励): 基于LLM的生成式奖励模型(GRM),评估五个方面: - 回复是否冗余 - 思维内容与最终回复是否一致 - "用视觉原语思考"过程中是否自相矛盾 - 输出框时指代的物体是否是有意义的实体 - 模型是否存在"奖励黑客"行为,比如在回复中强行编造一个与自己预测一致的假标准答案来欺骗奖励模型 输出三档分数(0.0、0.5、1.0),并附上评分理由。 Accuracy RM(准确性奖励): 针对每个任务单独设计。 计数任务的准确性奖励: 用平滑指数衰减代替简单的对错判断。 预测值和真实值的相对误差越小,奖励越高;差得越多,奖励衰减越快。 分母加了真实值,使得在物体数量多的场景下,差一两个的容忍度更高。 实践中衰减参数经验性地选择,确保学习信号稳定平滑。 空间推理和通用VQA的准确性奖励: 用LLM-based GRM,把模型的思维内容、最终回复、用户问题和标准答案一起输入,分别对思维过程和回复打分,取平均。 迷宫导航的准确性奖励: 拆成五个维度的加权组合,这是所有任务中设计最精细的: - 因果探索进度:按顺序处理模型的探索步骤,遇到第一次穿墙违规就截断后续所有探索(因为后续推理因果上已经无效了),然后计算已探索区域到终点的最短距离占最优路径长度的比例。只用于可解迷宫。 - 探索完整性:对于不可解迷宫,模型必须穷举探索所有可达区域才能证明无解。计算已探索区域占所有可达区域的比例。只用于不可解迷宫。 - 穿墙惩罚:独立于因果截断,扫描整个探索轨迹,统计每一次穿墙违规。确保穿墙行为永远有代价,即使发生在探索后期。 - 最终路径有效性:当模型声称迷宫可解时,验证给出的解路径中相邻格子是否合法连通、路径是否从起点到终点连续。可解迷宫的二元分数,不可解迷宫保持为1。 - 答案正确性:模型的可解性判断是否与真实答案一致的二元分数。 这种分解确保奖励信号是密集且有信息量的:模型在每个正确应用视觉原语的步骤都能获得奖励,而非只看最终的二元答案。 路径追踪的准确性奖励:也是多维度加权组合: - 轨迹准确性(双向评估):正向,对每个预测点计算它到真实曲线任意线段的最小距离,取平均,惩罚偏离真实路径的点;反向,对每个真实路径点计算它到预测折线任意线段的最小距离,惩罚不完整覆盖(模型跳过了曲线的某些部分)。最终取两个方向的平均。单看正向会允许模型只在起点附近输出几个安全的点,单看反向不会惩罚虚构的绕路。两个方向结合才能逼模型完整且准确地追踪整条曲线。 - 端点准确性:分别验证模型是否正确识别了起点和终点位置。计算预测坐标与真实边界框中心的距离,超过容忍阈值分数降为零。 - 轨迹连续性惩罚:如果模型轨迹的最后一个点和它声称的终点之间距离超过阈值,施加固定惩罚。防止模型输出一段不完整的轨迹然后"跳"到一个猜测的终点。 - 答案正确性:模型最终回答中的终点标签是否与真实答案匹配。 RL数据的难度分级 RL训练前,用SFT冷启动模型对数据池做N次rollout(让模型对同一个问题生成N个回答),根据奖励模型打分,把数据分成三个难度级别: - Easy:N次全对 - Normal:1到N-1次正确 - Hard:N次全错 只选Normal级别的数据做RL训练,确保模型能从中获得有价值的学习信号。 全对的太简单学不到东西,全错的太难也学不到。这个策略在GRPO训练中非常关键。 经过Specialized RL(专业强化学习),得到两个专家模型:ETwG(框专家)和ETwP(点专家)。 阶段三:Unified RFT(统一拒绝微调) 前面两个阶段分别训练出了"框专家"和"点专家",各自在自己的领域很强,但它们是两个独立的模型。 这个阶段的目标是:把两种能力合并到同一个模型里。 怎么合并?核心思路是"让专家出题,让新模型学": 第一步:用专家模型生产高质量训练数据。 让框专家和点专家分别对大量问题生成多个回答,然后用奖励模型打分,按之前的难度分级策略筛选——保留所有 Normal 级别数据(模型有时对有时错,最有学习价值),再加入 5% 的 Easy 级别数据(模型全对的简单题,掺进去是为了防止模型在简单场景上"退化")。 第二步:从头训练一个新模型。 这里有一个反直觉的设计。 不是在框专家或点专家的基础上继续训练,而是回到最初的预训练基座模型,用第一步筛选出的这批更大、更多样的数据重新做一遍SFT。 > SFT解释:预训练阶段的模型只是学会了"语言的规律",像一个读了很多书但没上过课的学生。SFT 就是拿一批"标准问答对"来教它怎么正确回答问题 为什么要"回到原点"重新来?因为专家模型已经在各自的专项数据上训练过,参数里带有偏向性。 如果在它们的基础上继续训练,一种能力的参数可能会覆盖另一种。 从干净的基座重新出发,用同时包含框数据和点数据的混合数据集训练,模型能更均衡地学会两种能力。 训练的超参数和流程与最初的 SFT 冷启动阶段完全一致,唯一的区别就是训练数据更好了。 因为这些数据是由已经很强的专家模型生产并经过严格筛选的。 > 超参数(Hyperparameters) 是训练开始之前由人为设定的配置项,它们控制着"模型怎么学习"。打个比方:如果把训练模型比作做菜,那超参数就是火候、时间、翻炒频率这些你在开始做菜前就要决定好的东西,而不是食材本身。 这一步得到的统一模型称为 模型 F。 阶段四:On-Policy Distillation(在策略蒸馏) 虽然统一模型F比冷启动模型有了大幅提升,但跟各自领域的专家模型相比仍有差距。 为了弥合这个差距,采用OPD(On-Policy Distillation)。 核心思路是:让学生模型基于自己生成的轨迹来学习教师模型的输出分布。 用反向KL散度作为损失函数,对两个教师模型(ETwG和ETwP)的输出分布做加权蒸馏。 > 反向KL散度让近似分布宁可只抓住真实分布的一个峰也不乱猜,追求"说得少但说得准",而不是"面面俱到但不精确"。 采用全词表logit蒸馏,也就是在整个词表上对齐概率分布,而非只看top-k。 ## 训练的工程细节 "用什么工具、怎么省算力"来完成这么大规模的训练? 训练框架:使用 HAI-LLM,这是一个基于 PyTorch 的分布式训练框架,可以把训练任务拆分到大量 GPU 上并行执行。 序列长度(模型一次能"看"多长的内容): - 预训练阶段:64K token——相当于一次能读大约5万字 - 后训练阶段:扩展到 256K token——因为"用视觉原语思考"的推理链很长,模型需要在一次推理中输出大量坐标,所以必须把"视野"拉长4倍 数值精度(用多少位数字来表示模型参数): 这是省算力的关键手段。 正常的浮点数用32位(FP32)表示,精度最高但最耗资源。 训练大模型时,业界会主动降低精度来换取速度和显存: 越到后面的训练阶段,用的数字越"粗糙",但因为任务性质允许,所以效果不受影响,算力成本却大幅降低。 这是工程上非常务实的取舍。 ## 评估体系 公开基准 - 计数:CountQA、Pixmo-Count(使用官方测试集) - 空间推理与通用VQA:SpatialMQA、CV-Bench、EmbSpatial、OmniSpatial、MIHBench 自建基准 公开基准的评估维度往往有限,无法充分捕捉"用视觉原语思考"的能力。 团队自建了三个维度的测试集: DS_Finegrained_Counting(600个测试样例): 现有细粒度计数基准(如TallyQA)存在标注错误和歧义。 团队让MLLM生成受特定属性或空间位置约束的计数问题,刻意确保存在强干扰负样本(与目标同类别但不同属性的物体),经过严格人工验证。 DS_Spatial_Reasoning(2,000个测试样例): 从CLEVR验证集采样1,000个判断题和1,000个开放题,用MLLM为开放题生成干扰选项,转换为选择题格式,便于标准化自动评估。 DS_Maze_Navigation(2,000个测试样例)和DS_Path_Tracing(2,000个测试样例): 按照前述方法论构建。 ## 实验结果 主要对比 所有模型通过各自API用完全相同的提示词评估。 对于支持可配置思考预算的模型(如GPT和Gemini-3-Flash),统一设置思考预算为low,确保公平。 计数任务: Pixmo-Count上全场最高,细粒度计数也是最高。 CountQA上非常接近Gemini-3-Flash。 空间推理与通用VQA: 6个基准中4个最高,1个并列最高,1个极度接近最高。 拓扑推理: 这是差距最大的地方。 迷宫导航上,其他所有模型都在49到51之间徘徊(基本等于随机猜),只有本文模型达到66.9。 路径追踪上更夸张,第二名GPT-5.4只有46.5,本文模型56.7。 这说明当前主流模型在需要精确空间追踪的拓扑推理任务上存在系统性缺陷,视觉原语是目前最有效的解法。 论文特别声明:报告的分数只覆盖与本文研究重点直接相关的评估维度子集,不代表各模型的整体能力。 ## 定性展示:模型实际表现 框作为视觉原语 跨领域知识融合:给一张金门大桥的照片,用中文问"这附近有NBA球队吗?"模型先用框标记金门大桥 [[0,134,882,795]],识别出这是旧金山,然后关联到金州勇士队,回答球馆大通中心就在旧金山。 反常识视觉推理:天平两端分别放着金属储物柜和彩虹小熊,模型通过框标记两个物体和两个托盘,观察天平倾斜方向,判断小熊更重。虽然违反日常直觉,但模型忠实于视觉证据。 实用场景指导:看到一台咖啡机,用中文问"如何制作拿铁"。模型逐一用框标记咖啡机 [[111,107,721,970]]、蒸汽棒 [[164,405,236,693]]、不锈钢奶壶 [[670,638,853,905]]、咖啡豆 [[810,438,995,885]]、拿铁按钮 [[408,219,444,261]]、咖啡杯 [[535,779,770,988]],然后给出具体操作步骤,每一步都有空间坐标对应。 密集场景计数:数一张29人合影里有多少人,模型一次性输出29个框,按前排坐地上的、中排蹲着的、后排站着的、两侧教练分组统计。 幽默理解:左边一块水果有天然的黑斑看起来像眼睛和鼻子,右边是一只表情忧伤的猫。模型用框分别标记水果上的"眼睛"和"鼻子"斑点,以及猫的真实眼睛和鼻子,解释幽默来自两者惊人的相似性。 密室逃脱推理:看到一个房间里有高处的钥匙、锁着的门和一把椅子,模型用框标记三个关键物体,推理出"把椅子搬到钥匙下面,踩上去拿钥匙,再去开门"。 宝可梦识别与计数:一堆混杂的玩偶里数宝可梦,模型用框标记6个宝可梦(皮卡丘、可达鸭、小火龙、妙蛙种子、胖丁、杰尼龟),同时明确排除了哆啦A梦、路飞、索隆、蜡笔小新等其他动漫角色 多语言能力:虽然视觉原语相关的后训练数据里没有任何中文语料,但模型可以用中文思考和回答,得益于底座模型的多语言能力自然继承。识别云南古镇照片时,模型用框标记木门框、方形灯笼、泥土墙壁、鹅卵石步道等细节,最终判断是丽江或沙溪古镇。 点作为视觉原语 迷宫导航:圆形迷宫,从绿色菱形到红色标签。模型先标记起点和终点坐标,然后用类似DFS的策略逐步探索。遇到死胡同就回溯到上一个分叉点,尝试另一个方向。整个探索过程有18步,最终找到一条15个节点的有效路径。 路径追踪:一堆缠绕的彩色线条中,追踪从皇冠图标出发的品红色线。模型输出了80多个坐标点,密密麻麻地沿着曲线走,最终确认连接到章鱼图标。 ## 局限性 论文坦诚地指出了三个不足: 1、受输入分辨率限制 在极细粒度场景下视觉原语的精度还不够理想。 可能的解决方向是把本文框架与现有针对"感知鸿沟"的方法(高分辨率裁剪等)结合,取长补短。 2、需要显式触发词 这样才能激活"用视觉原语思考"的能力,还不能自主判断什么时候该用。 未来目标是让模型根据具体上下文自动决定是否调用这个机制。 3、拓扑推理的跨场景泛化能力有限。 用点作为视觉原语解决复杂拓扑推理仍然是一个艰巨挑战,当前模型在训练过的迷宫和路径追踪上表现好,但更广泛的场景还需要探索。 ## 这篇论文为什么重要? 回到最开始的问题。 当前多模态AI的推理过程,本质上还是在纯语言空间里进行的。 输入是多模态的(图片+文字),输出也可以是多模态的,但中间的思考过程完全是语言。 这就像一个人看着一张复杂的地图,闭上眼睛纯靠脑子里的语言描述来规划路线。 能做到,但效率低、容易出错。 这篇论文的核心贡献是:让推理过程本身也变成多模态的。 模型的思维链不再只有文字,还穿插着精确的空间坐标。 这就像睁着眼睛看地图,手指沿着路线划,嘴里同时说着"这里左转,那里右转"。 眼、手、口协同工作,效率和准确性都大幅提升。 从技术路线的角度看,业界过去几年在多模态推理上的主要投入方向是"看得更清"(更高分辨率、更多视觉Token),这篇论文提出了一个互补的方向:"指得更准"。 而且实验证明,在视觉Token用量只有其他前沿模型十分之一的情况下,光靠"指得更准"就能达到甚至超越"看得更多"的效果。 这暗示着视觉信息的利用效率还有巨大的提升空间,关键可能不在于往模型里塞多少像素,而在于怎么用好已有的信息。 从更长远的视角看,这篇论文指向了System 2多模态智能的一个重要方向。 丹尼尔卡尼曼把人类思维分为System 1(快速直觉)和System 2(慢速深思)。 当前的多模态模型在System 1层面已经很强了(看一眼图就能大致描述),但在System 2层面(需要多步推理、精确追踪、逻辑链条不断裂)还有明显短板。 论文最后一句话说得很好:通往System 2多模态智能的道路,不仅仅在于"看更多像素",更在于构建一座精确、无歧义的桥梁,连接语言与视觉世界。

译DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”,核心是让模型在推理过程中像人类一样,使用“点”和“边界框”这类视觉原语来指代图像中的具体位置,以此作为思维的最小单位,旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干,并设计了极致的视觉Token压缩流水线,将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩,模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。

向阳乔木@vista8 · 5月1日41

http://x.com/i/article/2049847033758916609 # DeepSeek VL论文(2024年) ,建议搭配最新论文一起看 昨天体验了网页端的DeepSeek的识图模式,速度超级快,质量也还行。 为了了解更多DeepSeek在视觉模型训练的方法,翻出2024年的11月的论文。 让AI解读学习了一遍。 Github地址:https://github.com/deepseek-ai/DeepSeek-VL > 论文查看 https://arxiv.org/pdf/2403.05525 ## 一句话总结 DeepSeek-VL是DeepSeek团队开源的视觉语言模型,有1.3B和7B两个版本。 核心目标只有一个:在真实场景里既能看图又能说话,同时不丢失语言能力。它从数据、架构、训练策略三个维度入手,在同等参数规模下做到了开源模型里的顶尖水平。 ## 这篇论文到底在解决什么问题? 2024年初,开源多模态模型和GPT-4V之间有一道明显的鸿沟。 很多开源模型在学术benchmark(基准测试,就是标准化的评分考试)上跑分还行,但一到真实场景就拉胯。 让它看一张网页截图、读一份PDF、识别街拍里的小字,效果就大打折扣。 DeepSeek团队总结了四个核心原因: 第一,预训练不够充分。 很多模型把大量算力花在了指令微调阶段,但真正的通用能力来自大规模预训练。 这就像一个人只刷题不读书,考试可能还行,解决实际问题就不够用了。 第二,训练数据和真实使用场景脱节。 把一堆学术数据集拼在一起做微调,benchmark分数好看,但用户实际用起来体验很差。 第三,图像分辨率太低。 大部分模型只能处理336×336或448×448像素的图片。 现实世界里的OCR(光学字符识别,就是让AI读懂图片里的文字)、小物体识别,这个分辨率根本不够用。 第四,多模态训练会"吃掉"语言能力。 很多模型在加入视觉训练后,语言能力明显下降。 这是一个很棘手的问题,也是这篇论文花了最多篇幅去解决的事情。 ## 数据构建:从真实场景出发 DeepSeek-VL的数据分两大块:预训练数据和监督微调数据。 ## 预训练数据 覆盖面非常广,按类别拆开来看: 图文交错数据(占13.1%) 就是图片和文字混合出现的内容,比如维基百科文章里图文穿插的格式。 用了MMC4、Wikipedia中英文、Wikihow,以及内部的PDF和电子书。 这类数据能让模型学会在上下文里理解多张图片,也就是所谓的"多模态上下文学习"能力。 图像描述数据(占11.1%) 高质量的图文配对数据集,包括Capsfusion、TaiSu(一个1.66亿规模的中文视觉语言数据集)和Detailed Caption。 表格和图表数据(占2.1%) 来自十多个公开数据集,涵盖各种图表、地理题、科学题、UI截图等,让模型学会理解各种结构化视觉信息。 网页代码数据(占0.4%) 这部分很有意思。团队从GitHub上抓取了146万个Jupyter Notebook,提取了其中的图表和对应的生成代码,最终筛选出110万个高质量的图文代码对。 目标是让模型能从图形界面或可视化图表反推出代码。 文档OCR数据(占2.1%) 当时市面上没有大规模的中英文文档OCR数据集,团队自己造了。 两个来源:一是从140万篇arXiv论文里提取图文对;二是从86万本英文电子书和18万本中文电子书里,用HTML渲染工具生成了配对的图片和文本。 场景文字OCR数据(占1.2%) 识别融入环境的文字,比如街道招牌、商品包装。 用了ArT、MLT-17、LSVT、UberText等十个公开数据集。 纯文本数据(占70%) 这个比例是整个训练策略的核心,后面会详细解释。用的是DeepSeek-LLM的2万亿token文本语料。 ## 监督微调数据 微调数据分四类: 内部数据(占10.5%) 这是最有价值的部分。 团队先从网上收集了GPT-4V和Gemini的真实用户测试案例,然后把这些案例整理成一套完整的分类体系,再根据这套分类体系去选图、写提示词,构建出贴近真实使用场景的微调数据。 通用多模态数据(占35.5%) 包括ShareGPT4V、LAION-GPTV、LVIS-Instruct4V等知名开源数据集。 表格图表和网页代码数据(各占4.1%和2.0%) 从预训练数据集里抽取部分用于微调。 纯文本对话数据(占47.9%) 沿用DeepSeek-LLM的文本对话数据,保住语言能力。 ## 那套分类体系长什么样? 这套分类体系是整个数据构建思路的精华,值得单独说说。 团队把多模态模型的真实使用场景分成六大类: 识别类: 全局描述(场景、风格、食物)、局部描述(位置、人物、Logo、计数)、OCR转录(印刷体、手写体)。 转换类: 图片转代码(UI转代码、图表转代码、公式转代码)、图片转文本(生成提示词、文字摘要、图片创作)。 分析类: 数据图表分析、专业图表分析(电路图、流程图、地图、乐谱、平面图)、专业图像分析(传感器图像、医学图像)、百科知识分析(艺术文化、自然环境、衣食住行)。 常识推理类: 关系推理(人际、空间、大小)、功能推理(硬件、软件)、环境推理(具身智能)、异常推理(缺陷检测、事故判断)。 逻辑推理类: 数学推理(代数、平面几何、立体几何)、其他逻辑推理(物理、化学、生物、代码、智力题)。 评估类: 真实性评估、相似度评估、美学评估。 还有多图理解和安全两个额外类别。 这套分类体系同时用于数据构建和效果评估,保证了训练和测试的一致性。 这是"从真实用户需求倒推数据构建"的典型做法,比单纯堆学术数据集高明得多。 ## 模型架构:三个模块协同工作 整个模型由三个模块组成:混合视觉编码器、视觉语言适配器、语言模型。 ## 混合视觉编码器 这是技术上最有意思的部分之一。 传统的视觉语言模型通常只用一个视觉编码器,比如CLIP系列的SigLIP(一种用图文对比训练出来的视觉编码器)。 但SigLIP有两个问题: 一是存在"CLIP盲点对"现象,视觉上明显不同的两张图片,经过SigLIP编码后可能得到非常相似的表示,导致模型分不清楚。 二是分辨率有限,最高只到512×512,处理不了需要精细识别的任务。 DeepSeek-VL用了双编码器混合方案: SigLIP-L 处理低分辨率(384×384)输入,负责提取高层语义特征,擅长理解图片"讲了什么"。 SAM-B 处理高分辨率(1024×1024)输入,负责提取低层细节特征。 SAM是 Meta 开发的"Segment Anything Model"(万物分割模型),其中的ViTDet图像编码器(一种专门为目标检测优化的视觉Transformer)特别擅长捕捉精细的局部信息,比如小字、边缘、纹理。 两个编码器输出的特征经过适配器处理后,最终融合成576个视觉token(可以理解为576个"视觉词")。 这个数字很关键,它在视觉信息量和计算成本之间找到了平衡点,既能支持多轮对话,又不会让推理成本爆炸。 为了验证这个选择,团队做了对比实验,测试了CLIP、SigLIP、SigLIP+DINO、SigLIP+SAM四种组合的训练损失曲线。 结果显示SigLIP+SAM的组合训练损失下降最快、最低,证明引入视觉自监督编码器确实有效。 ## 视觉语言适配器 这是连接视觉编码器和语言模型的桥梁,用的是两层混合MLP(多层感知机,一种基础的神经网络结构)。 具体做法:先用两个独立的单层MLP分别处理高分辨率和低分辨率特征,然后把两个特征拼接在一起,再通过一层MLP映射到语言模型的输入空间。 为什么要用两个独立的MLP而不是共享一个? 团队做了消融实验,对比了几种适配器设计: - 序列拼接(把视觉特征在序列维度上堆叠):效果一般,而且计算量更大 - 嵌入维度拼接(在特征维度上拼接):效果更好 - 共享MLP:特征融合充分,但对不同编码器的特征分布适应性差 - 独立MLP:能精准适应各自编码器的特征分布,但融合不够 - 混合MLP(先独立处理再拼接):综合了两者优点,效果最好 ## 语言模型 基于DeepSeek-LLM构建,架构上和LLaMA高度相似:用了RMSNorm(一种更高效的归一化方法)、SwiGLU激活函数(一种改进的门控线性单元)、旋转位置编码(RoPE,一种让模型理解token位置关系的方法)。 两个版本的基础: - DeepSeek-VL-1.3B 基于 DeepSeek-LLM-1B(用约5000亿文本token训练) - DeepSeek-VL-7B 基于 DeepSeek-LLM-7B(用约2万亿文本token训练) 值得注意的是,团队选的是DeepSeek预训练模型的中间检查点,而不是最终版本,然后继续做多模态预训练。 ## 训练策略:三阶段 + 模态平衡 训练分三个阶段,每个阶段解决不同的问题。 ## 第一阶段:热身视觉语言适配器 冻住视觉编码器和语言模型,只训练适配器。 数据:125万张来自ShareGPT4V的图文描述对 + 250万个文档OCR渲染对。 这个阶段的目标是在视觉和语言的嵌入空间之间建立初步的概念连接,让语言模型能"认识"视觉特征。 团队做了一个重要实验:把第一阶段的数据量从2K步扩展到80K步,然后直接做微调,看效果有没有提升。 结果是扩大数据量没有任何帮助,性能甚至略有下降。 原因很清楚:适配器(两层MLP)的参数量太少,容量有限,学到一定程度就饱和了。 再多的数据也塞不进去。这也说明了为什么必须有第二阶段。 ## 第二阶段:联合视觉语言预训练 这是最关键的阶段,也是论文最核心的贡献之一。 解冻语言模型和适配器,视觉编码器保持冻结,用大规模图文混合数据继续预训练。 团队发现了一个严峻问题:如果只用多模态数据训练,语言能力会断崖式下降。 上图展示了这个现象。 在1B模型上,用100%多模态数据训练时,MMBench(多模态理解测试)分数缓慢上升,但HellaSwag(语言理解测试)和MMLU(多学科知识测试)分数急剧崩塌。 团队分析了两个原因: 一是多模态数据本身比纯文本数据简单得多,分布差异很大,直接用来训练会"稀释"语言知识。 二是视觉模态和语言模态之间存在竞争关系,学多了视觉就会忘记语言,这是一种"灾难性遗忘"。 解决方案是联合语言多模态训练:在训练时同时混入大量纯文本数据。 实验结果非常清晰: - 混入语言数据后,语言能力下降的问题得到了大幅缓解 - 加入语言数据并不会明显损害多模态性能 - 两种模态的性能都和它们在训练数据中的比例强相关 最终选定的比例是语言70%、多模态30%。 这个比例能让模型在保住语言能力的同时,获得足够的多模态预训练效果。 除了混合比例,团队还提出了两个实用技巧: 模态分组训练 直接把语言数据和多模态数据混在同一个batch里,会有效率问题:纯文本处理很快,但要等多模态数据处理完才能更新参数,造成大量等待。 解决方法是把不同模态的数据分开组batch,每个训练步要么全是语言数据,要么全是多模态数据。 这一招让训练效率提升了20%,而且性能完全不受影响。 模态热身策略 训练初期把语言数据比例设为100%,然后逐渐降到目标比例(70%)。 这样可以避免训练初期语言能力的剧烈波动,让模型更平稳地适应多模态数据的加入。 实验证明,这个策略在训练后期也能带来更好的语言和多模态双端性能。 还有一个容易被忽略的工程细节。 团队在1.3B小模型上做实验迭代,再放大到7B。 但小模型有个问题:在标准benchmark上表现波动极大,很难准确反映改进效果。 原因是小模型虽然"知道"正确答案,但没有足够的指令跟随能力把答案"说出来"。 解决方案是双管齐下: 1. 把评估方式从"让模型生成答案"改成"比较各选项的困惑度(PPL,一种衡量模型对某段文本有多困惑的指标,越低越好)" 1. 同时在预训练阶段混入少量指令微调数据,让小模型也能稳定地跟随指令。这样小模型就能给出稳定的评估信号,大大加快了迭代速度。 ## 第三阶段:监督微调 用前面构建的指令微调数据集,训练模型的对话和指令跟随能力,最终得到DeepSeek-VL-Chat。 这个阶段同时训练语言模型、适配器和SigLIP编码器。 SAM-B因为显存限制保持冻结。只对答案和特殊token计算损失,系统提示和用户输入不参与训练。 三个阶段缺一不可:只有第一阶段+第三阶段,平均分57.4;加上第二阶段后提升到62.4。 第一阶段虽然提升有限,但也有意义,去掉它性能会略微下降。 ## 训练基础设施 使用了DeepSeek自研的HAI-LLM分布式训练框架。 DeepSeek-VL-7B用了64个节点(每个节点8块英伟达A100 GPU),训练了5天。 DeepSeek-VL-1.3B用了16个节点,训练了7天。 ## 效果评测:数字说话 ## 多模态benchmark ## 7B模型在开源模型里表现最好: - SeedBench(综合多模态理解):70.4,接近GPT-4V的71.6 - MMBench(多模态综合测试):73.2,超过所有同级开源模型 - OCRBench(OCR专项测试):456分,远超同级模型(LLaVA-1.5 13B只有331分) - POPE(幻觉测试,测模型会不会"看到"不存在的东西):88.1,同级最高 - MathVista(数学视觉推理):36.1,超过所有同级开源模型,但和GPT-4V(47.8)还有差距 - CMMMU(中文多学科多模态理解):37.9,明显优于其他开源模型 1.3B小模型更令人印象深刻:用一半不到的参数(1.3B vs 2.7B),在MMBench上超过了MobileVLM V2 2.7B(64.6 vs 63.2)。 MathVista上甚至达到31.1,和部分7B模型相当。 ## 语言benchmark 这是DeepSeek-VL最值得骄傲的地方之一。 - HellaSwag:68.4(DeepSeek-LLM-7B是68.5),几乎持平 - MMLU:52.4(DeepSeek-LLM-7B是49.4),多模态训练后反而提升了 - AGIEval:27.8(DeepSeek-LLM-7B是19.3),同样提升 - GSM8K(数学):55.0(DeepSeek-LLM-7B是63.0),有所下降 数学能力的下降说明视觉和语言模态之间的竞争关系仍然存在,7B的模型容量在这里成了瓶颈。 团队认为更大的模型可以缓解这个问题。 ## 人工评测 团队构建了100道题,覆盖七个类别,和InternLM-XComposer2-VL、CogVLM-17B、GPT-4V做对比。 结论:DeepSeek-VL-7B在识别、转换、常识推理三个维度接近GPT-4V,整体表现优于其他开源模型。 逻辑推理是所有开源模型的共同短板,和GPT-4V差距最大。 还做了GPT-4V裁判评测:把DeepSeek-VL和其他模型的回答都给GPT-4V看,让它判断哪个更好。 结果DeepSeek-VL在超过60%的情况下被GPT-4V判定为更好,甚至在和GPT-4V自身对比时也获得了相当不错的评价。 真实场景能力展示 论文里展示了大量真实案例,值得逐一看看: 处理逻辑图、网页、公式识别、科学文献、自然图像、具身智能场景的综合展示 识别图片中的细小物体(骑车人在女士手提包的左侧),并给出有条理的解释 理解Python代码截图并逐步解释算法逻辑 看懂儿童编程Scratch流程图并转换成Python代码(对比的开源模型1直接说"我无法处理图片") 1. 分析训练损失曲线图表,找出代码中的bug 识别泰国10泰铢硬币;根据图片创作七言绝句;识别米哈游游戏角色 把真实表格图片转换成Markdown格式 ## 为什么这篇论文重要? 它揭示并量化了一个关键矛盾:多模态能力和语言能力之间存在竞争关系。 70%语言数据这个比例,加上模态热身策略和分组训练,提供了一套可复制的解决方案。 它证明了"从真实场景出发"构建数据的重要性。 用分类体系指导数据收集,比随意拼凑学术数据集有效得多。 混合视觉编码器的思路很实用。 用两个互补的编码器分别处理语义和细节,比单纯堆高分辨率更高效,576个token的压缩方案在信息量和计算成本之间找到了合理平衡。 小模型迭代方法论有很强的工程参考价值。 困惑度评估 + 少量指令数据混入,让1.3B模型也能给出稳定的实验信号,大幅降低了迭代成本。 当然,局限也很清楚。 7B的模型容量限制了数学推理等复杂任务的表现。 论文结尾提到了后续会引入MoE(Mixture of Experts,混合专家模型)技术,这也是后来DeepSeek-VL2的方向。

译DeepSeek-VL旨在解决开源视觉模型在真实场景中应用效果不佳的问题。其核心方案是系统性地从数据、架构与训练三方面进行设计:数据构建强调从真实用户需求出发,并包含70%的纯文本以保留语言能力;模型架构创新性地采用SigLIP与SAM-B混合视觉编码器,兼顾高层语义与低层细节;训练策略则通过三阶段渐进式训练与模态平衡技术,有效缓解了视觉训练对语言能力的侵蚀,最终在同等规模下达到开源模型的顶尖水平。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月5日
05:49
AK@_akhaliq
68
UniVidX 一个通过扩散先验实现多功能视频生成的统一多模态框架 paper: https://huggingface.co/papers/2605.00658
Hugging Face多模态视频论文/研究
04:25
Luma@LumaLabsAI
66
创意很强大。现在请确保提案同样出色。 设定简报。定义美学。Luma Agents 构建制胜的客户提案板,让您专注于创意。 赢得提案 → http://lumalabs.ai/app
产品更新多模态
03:25
Replit ⠕@Replit
精选70
你可以在 Replit 中构建完整的商业计划书演示文稿,无需触碰任何幻灯片。 只需描述你想要的内容,在聊天中迭代修改,可视化编辑,然后导出为 PPTX、Google Slides 或 PDF(或发布实时链接)。 以下是具体操作方式👇
产品更新多模态编码

推荐理由:Replit把做pitch deck变成聊天式操作,输描述、实时改、一键导出,比传统PPT工具快不少,但真正的故事还是得你自己想清楚。
03:14
阿绎 AYi@AYi_AInotes
56
21岁大学生用AI虚拟伴侣月入数万美元,揭示"孤独经济"与伦理灰色地带

一名21岁大学生仅用四个Markdown文件和低成本AI技术栈(Claude、Flux、ElevenLabs),在宿舍创建了名为Maya的AI虚拟伴侣,一个月内获得1247名付费订阅,净赚约32700美元。其核心是利用AI提供极致的情感陪伴,满足用户幻想,成本低廉且模式已被复制并实现更高收入。这凸显了AI如何将依赖人格与情感的“孤独经济”转化为代码游戏,同时暴露出平台审核滞后、法律道德边界模糊等问题,例如用真人身份绕过OnlyFans验证。最引人深思的是用户对仅12KB数据产生的真实情感依赖。

Raytar: http://x.com/i/article/2050140624171507712

Anthropic图像生成多模态现象/趋势
02:58
Google Gemini@GeminiApp
精选67
从构想到原型,借助Gemini中的Nano Banana 2,将您独特的产品愿景变为现实。🪀
Google产品更新多模态

推荐理由:Google Gemini塞进一个Nano Banana 2创意工具,把想法转原型只需几句话,产品经理脑暴草案利器,算不上重磅但够实用。
01:58
Runway@runwayml
精选69
实时视频智能体已到来。 今天,我们将分享如何构建Runway Characters,让你能将一张图片转化为一个完全富有表现力、可对话的视频智能体,以每秒24帧的高清画质流畅播放。端到端延迟仅需1.75秒。 了解更多信息请见下文。
产品更新多模态视频

推荐理由:Runway 把 AI 视频从生成拉入实时对话时代,1.75 秒的延迟让视频代理第一次有了「对话感」,做交互设计的同学可以认真看一眼。
5月4日
21:24
小互@xiaohu
56
传谷歌I/O将发布Omni模型,Gemini或升级为全模态生产力入口

据传谷歌将在I/O大会发布名为“Omni”的新模型,旨在将Gemini从聊天助手升级为集成写作、图片、视频、长上下文记忆与复杂任务流的全模态生产力平台。该模型可能原生支持视频生成与输出,超越现有的Veo 3.1。同时,Gemini 3.2/3.5版本或专注于提升推理速度与效率,而Ultra版本则向长上下文、重记忆及多步骤工作流方向深化。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型。

TestingCatalog News 🗞: GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template....

Google多模态模型发布视频
16:46
Chubby♨️@kimmonismus
51
这个SVG在AI Studio的A/B测试窗口中浮现,很难相信它实际上是矢量生成的。很可能来自谷歌的新Flash/Pro模型。 对谷歌I/O大会超级兴奋!还有两周!

Chubby♨️: Rumors so far: - Google Gemini Flash 3.2/3.5 (already being tested) - New Omni Model, maybe even updated Veo in competit...

Google图像生成多模态行业动态
11:19
Kling AI@Kling_ai
42
经典电影。标志性时刻。 现以惊艳的Kling 4K动态呈现。 海报不再只是悬挂着了。 它们在播放。🎬
产品更新图像生成多模态视频
5月3日
22:13
Berryxia.AI@berryxia
47
据古尔曼爆料Apple正在搞一款AirPods Ultra,比AirPods Pro多了摄像头,更多的传感器和摄像头加入其中。
多模态行业动态
20:15
Chubby♨️@kimmonismus
42
目前的传闻: - Google Gemini Flash 3.2/3.5(已在测试中) - 新的Omni模型,甚至可能推出更新的Veo来与Seedance竞争 - "spark Robin"--新的视觉模型?
Google多模态行业动态视频
16:45
Chubby♨️@kimmonismus
45
据泄露信息显示,谷歌可能正在为其Gemini平台测试一款全新的Omni模型,专注于视频生成功能,其界面标语为"由Omni驱动"。该模型的内部代号接近当前基于Veo的视频工具"Toucan"。分析指出,若谷歌正式发布名为Gemini Omni的视频生成模型,其性能很可能超越现有的Veo 3.1版本。此举若成真,Gemini将成为首个具备视频输出能力的顶级Omni模型,相关进展或于即将到来的Google I/O大会上正式公布。

TestingCatalog News 🗞: GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template....

Google多模态模型发布视频
06:50
TestingCatalog News 🗞@testingcatalog
58
谷歌I/O动态:Gemini测试用于视频生成的新Omni模型

谷歌正在其Gemini平台测试一款名为“Omni”的新模型,专注于视频生成功能。泄露信息显示,该模型的界面提示用户“从一个想法开始或尝试一个模板”,并注明“由Omni驱动”。这一模型可能与内部代号“Toucan”的视频生成工具密切相关,后者目前由Veo驱动。如果谷歌计划正式发布用于视频生成的Gemini Omni,其性能很可能超越当前的Veo 3.1版本。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型,这标志着谷歌在视频生成领域的重大技术进展,并可能为未来的Google I/O 2026活动预热。此举显示了谷歌在人工智能视频生成方面的持续创新和竞争态势。

Google多模态模型发布视频
02:41
Rohan Paul@rohanpaul_ai
48
Chatly发布Omni Agent,从聊天转向工作流组装

Chatly近日发布Omni Agent,其核心理念是超越聊天,转向工作流组装。该产品采用多智能体路由机制,可将用户设定的目标自动分解,并分配给不同的专业智能体协同完成多元化任务,如邮件营销、演示文稿、落地页设计等。它具备强大的记忆层,能持续学习并复用用户的品牌信息、偏好、项目规则等上下文。通过原生工作空间集成,AI可直接在用户现有的文件、任务和活动环境中操作。产品提供Think、Pro、Ultra三个层级,旨在通过统一界面整合深度研究、多媒体生成与记忆功能,让用户从使用工具转向指挥智能体。

Chatly: Introducing "Omni Agent". The only AI you'll ever need. One ecosystem. Three tiers. Infinite possibilities. Think. Pro. ...

智能体产品更新多模态
5月2日
12:11
阿绎 AYi@AYi_AInotes
57
说个暴论,你的审美和品味就是你的提示词,并决定了你使用AI的上限。

一个零经验的开发者,仅用两周时间,通过向AI描述创意并筛选最佳结果,便独立完成了一款3D外卖配送游戏。这体现了“vibe coding”模式:AI负责所有执行层任务,人类则专注提供方向与审美判断。此举并非作弊,而是创意的民主化,将过去团队数月的工作压缩至个人短期完成。AI虽能生成一切,却无法判断何为舒适、有趣或富有灵魂,这些正是人类不可替代的价值。未来,这种模式或将开启一个属于普通人的全新创作黄金时代。

多模态现象/趋势
07:48
凡人小北@frxiaobei
精选77
吴恩达(Andrew Ng)推出新课程《人人皆可的 AI 提示技巧》,旨在帮助不同水平的用户成为 AI 高级使用者。课程教授适用于 ChatGPT、Gemini、Claude 等工具的通用提示技巧,核心内容包括:利用深度研究模式生成复杂问题的详尽报告;为 AI 提供远超常人认知的丰富文档与图像上下文;在重要决策时让 AI 进行长时间深度思考;以及使用 AI 生成图像、分析数据、构建简单游戏和网站。课程还将剖析大模型的工作原理,帮助学员判断何时可信赖 AI 的答案。

Andrew Ng: How we prompt AI is very different in 2026 than 2022 when ChatGPT came out. I'm teaching a new course, AI Prompting for ...

多模态教程/实践

推荐理由:吴恩达亲自下场教提示工程,从深度研究到让AI替你决策,覆盖了你没想到的那些用法,免费课程值得花两小时走一遍。
07:40
Elon Musk@elonmusk
61
试试 Grok Imagine 智能体模式测试版! 在 @imagine 智能体模式中,你可以在同一页面内进行头脑风暴、写作、生成和编辑图像,然后将它们转化为视频。 请在桌面端访问 http://grok.com/imagine 尝试。

Grok Imagine: Your entire creative workflow just collapsed into one infinite canvas. In @imagine Agent Mode, you can brainstorm, write...

智能体xAI产品更新多模态
03:11
阿绎 AYi@AYi_AInotes
65
AI并非取代医生,而是成为医生的"超级大脑"

针对“AI诊断超越急诊医生”的误读,作者指出相关Science论文实为概念验证,强调AI仅作为“第二意见”。实验条件苛刻:AI仅能访问纯文本病历,在此限定任务中表现优于两位资深医生。AI的核心优势在于无疲劳、无认知偏差、能快速分析海量病例统计规律,而非替代医生。人类医生在多模态感知、伦理判断和物理互动上仍不可替代。未来合理场景是人机协同——AI辅助分诊,优先筛选高危病例,让医生专注于需人类判断的环节。真正的挑战在于建立信任、明确责任及整合至现有医疗体系。

Polymarket: JUST IN: Study reveals AI now outperforms doctors at diagnosing emergency room patients.

多模态大佬观点
01:16
AK@_akhaliq
56
异构科学基础模型协作 paper: https://huggingface.co/papers/2604.27351
Hugging Face多模态论文/研究
01:13
歸藏(guizang.ai)@op7418
60
吴恩达推出新课程"AI Prompting for Everyone",指出2026年AI提示方法与2022年ChatGPT推出时已有显著不同。课程旨在帮助所有技能水平的用户成为AI高级使用者,涵盖适用于ChatGPT、Gemini、Claude等工具的通用技能,包括使用深度研究模式处理复杂问题报告、提供文档和图像等充分上下文、让AI长时间思考重要决策(如购车或择业),以及利用AI生成图像、分析数据和构建简单网站游戏。课程还讲解模型工作原理,帮助用户判断何时信任AI答案,并融入飞松鼠、创造力测试等趣味元素。详情可访问deeplearning.ai。

Andrew Ng: How we prompt AI is very different in 2026 than 2022 when ChatGPT came out. I'm teaching a new course, AI Prompting for ...

多模态教程/实践
5月1日
19:15
PixVerse@PixVerse_
49
主推文感谢了用户@TomLikesRobots分享的文本生成视频模型对比。对比在SeeDance 2.0和HappyHorse 1.0之间进行,使用了统一的提示词来生成具有低保真、温馨、赛璐珞风格动漫美学的视频。其中,HappyHorse由@PixVerse_提供,目前对会员免费。由于两个模型自带的音频效果不佳,创作者最终使用@Suno来生成背景音轨。

TomLikesRobots🤖: SeeDance 2.0 vs HappyHorse 1.0 Very quick text-to_video comparison. Which do you prefer? Universal Prompt: "Aesthetic: l...

多模态评测/基准
13:13
歸藏(guizang.ai)@op7418
45
AI将催生下一代爆款游戏类型与平台

社区驱动的小游戏和社交游戏,如Roblox,正成为趋势。过去这类游戏构建成本高、类型少,如今技术门槛已大幅降低。历史上,Dota和PUBG等爆款均从游戏Mod演变而来。同理,基于AI技术,完全有可能演化出下一个现象级游戏类型。当前的关键缺口在于,缺乏一个能够整合这些AI能力的综合性游戏创作平台与工具。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

多模态现象/趋势
11:46
meng shao@shao__meng
66
在 Codex App 中使用 GPT-5.5 和 GPT-Image-2 的实际应用体验:视觉理解 + 代码生成 + 浏览器执行 + 效果评估迭代,组成Web/App 开发全新闭环!

Codex App 结合 GPT-5.5 与 GPT-Image-2,构建了从视觉理解到代码生成、浏览器执行及效果评估的开发闭环。GPT-5.5 提升了编码细节与复杂逻辑处理能力,GPT-Image-2 擅长生成高保真UI。工作流支持输入截图或概念设计,自动分析、生成交互应用并修正设计偏差,内置结构化流程以提高实现保真度。这大幅缩短了从想法到高保真应用的迭代周期,适用于Web、移动及复杂工具开发,但复杂任务仍需人工提示与设计把关。

dominik kundel: http://x.com/i/article/2049579443216338944

OpenAI多模态教程/实践编码
11:16
Kling AI@Kling_ai
25
旧照片变得如4K般清晰。 静态影像化作动态记忆。 一段视频。胜过千言万语。🎞️
产品更新图像生成多模态视频
11:13
歸藏(guizang.ai)@op7418
40
AI参与的高品质游戏内容正快速增加,例如即将上架Steam的国风恐怖探案游戏Strange Rites。该游戏设定于1920年代,融合超自然侦探与黑色电影风格,受中国古典哥特文学启发。玩家扮演拥有鬼视能力的记者,在战争背景下调查相互关联的案件,探索人性之恶的主题。游戏完全由AI生成,提供互动式神秘剧体验,涉及犯罪现场调查、线索拼凑和道德模糊的选择。目前已在Steam开放愿望单。

Yoroll: Strange Rites - supernatural detective noir set in the 1920s, inspired by classical Chinese gothic lit. Every chapter is...

多模态现象/趋势
10:13
歸藏(guizang.ai)@op7418
63
一下午一句话,Codex帮我开发了一个完整的游戏!

开发者仅通过向Codex描述想法,便在一个下午内完成了roguelike卡牌游戏《夜巡录:荒庙篇》的开发。Codex不仅生成游戏原型,还自主构建了素材生产流水线,包括调用GPT-Image 2.0生成绿幕图并自动抠图。面对大量未命名素材,它创新性地将所有图片拼合成一张大图供多模态模型一次性识别筛选。后期还打磨了受击反馈、音效及使用Seedance 2.0生成的动画等细节,展现了其结合内置工具与强大执行力的综合能力。

智能体OpenAI多模态大佬观点
10:13
歸藏(guizang.ai)@op7418
62
Codex智能解析游戏素材包,自动拼图归类

用户让Codex处理一个包含上千张图片的游戏素材包,Codex在没有具体指令的情况下,自主将每个文件的图片拼接成一张包含图片和文件名的大图。这种方法让用户能通过单张图快速浏览文件夹内所有素材的样式,找到所需素材后,只需将文件名拖入素材库修改即可,展现了其强大的自动化处理能力。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

智能体OpenAI多模态教程/实践
09:10
Berryxia.AI@berryxia
63
Geometry成为AI建筑关键层,OpenGeometry打通文本到CAD全流程

推文指出,Geometry(几何)已成为AI在建筑领域缺失的关键层。@Bootsblac开发的OpenGeometry项目,实现了从文本或平面图到最终渲染的完整流程贯通,使得精确控制成为可能。其核心能力包括:直接从文本或平面图生成精确的BREP CAD模型;利用Three.js进行实时渲染,并由Google AI驱动,形成端到端的全流程。该项目已完整开源,可供使用。

多模态开源/仓库开源生态
08:10
Berryxia.AI@berryxia
25
苹果内部正在使用一款名为 AFM Playground 的应用程序,它看起来与 ChatGPT 非常相似,但使用的是苹果的 Foundation Models。 不知道能搞出来个啥? 【引用 @MWRevamped】:( #appleinternal )

MWR: ( #appleinternal ) Apple Internally uses an application that looks pretty similar to ChatGPT named AFM Playground, which...

产品更新多模态
08:10
Berryxia.AI@berryxia
68
利用AI工具链快速生成360度沉浸式游戏场景

推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是:首先,向图像生成AI(Agent)提供一个简单提示,例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后,将生成的全景图输入Codex,即可获得相应的3D视图,从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛,标志着一种新的内容生成时代的到来。

图像生成多模态教程/实践
08:10
Berryxia.AI@berryxia
54
Grok Image Agent网页版Beta上线,实现端到端创意制作

Grok Image Agent网页Beta版已向付费用户灰度推送。它是一个全能创意Agent,能在无限开放画布上独立完成从规划、生成、编辑到迭代的全流程创作。用户只需下达指令,即可观看其在同一无缝工作区内自动执行任务,例如生成一分钟电影短片、创作整套漫画或构建UGC产品故事。这标志着从简单提示词到端到端创意生产的真正飞跃,是Grok Imagine迄今为止最重大的升级。

X Freeze: Grok Imagine Agent Mode (Beta) just went live on Grok web It's a full creative agent working on one infinite open canvas...

智能体xAI产品更新图像生成
07:15
Luma@LumaLabsAI
58
物体是对的。比例不对。 上传你的参考图。设定尺寸。Luma Agents 会处理后续的缩放调整。 立即调整 → http://lumalabs.ai/app
产品更新多模态
04:44
Luma@LumaLabsAI
精选60
为你的网站寻找外观。同时探索每个方向。 定义目标,设定美学风格,然后让Luma Agents构建每个元素。英雄区域。文案。视觉效果。布局。所有内容都经过结构化设计,从首次滚动开始就旨在实现转化。 立即构建 → http://lumalabs.ai/app
智能体产品更新多模态

推荐理由:Luma 从视频生成跨到建站,用 Agent 一次性生成整站,描述即站点,对想快速验证品牌页面的创业者是个有趣的新工具。
03:45
Suno@suno
56
Genki 如何将一段 16 小节即兴演奏变成 2000 年代摇滚曲目
多模态教程/实践
02:39
Rohan Paul@rohanpaul_ai
61
Google DeepMind 推出实时视频AI协诊系统

Google DeepMind 近日发布 AI co-clinician 协诊系统,这是一个多模态代理系统,旨在辅助医护人员,并在医生监督下运行。系统采用双代理架构:一个模块与患者对话,另一模块实时监控交互边界,能检索并验证临床级证据。在开放式药物问答中,其表现超越前沿模型,更贴合真实医疗场景的复杂性。评估聚焦临床实际关切,如避免错误陈述或遗漏关键信息。在98项初级保健模拟查询中,医生对其偏好超过主流证据合成工具;在97例NOHARM风格评估中未出现严重错误。

Google DeepMind: AI co-clinician is our new research initiative to help explore how multimodal agents could better support healthcare wor...

DeepMind多模态论文/研究
02:15
Google Gemini@GeminiApp
31
看看 @anyma_eva 如何与 Gemini 和 @googledeepmind 合作,消弭想象与创造之间的距离。🧵
DeepMindGoogle多模态行业动态
01:45
Google AI@GoogleAI
精选69
谷歌发布首个原生多模态嵌入模型Gemini Embedding 2

谷歌上周正式向公众发布了其首个原生多模态嵌入模型Gemini Embedding 2。该模型如同“通用翻译器”,能将文本、图像、视频和音频数据转化为独特的数字向量。其核心突破在于不再依赖关键词匹配,而是基于语义将不同模态的数据映射到同一空间,从而理解内容间的深层联系。开发者已利用该模型构建视频分析工具、视觉购物助手等应用,实现通过拍照或描述场景进行智能搜索的功能。模型现可通过Gemini API或Gemini Enterprise Agent平台使用。

Google多模态搜索模型发布

推荐理由:Google 第一个原生多模态嵌入模型,把文本、图像、视频拉到同一个向量空间,做跨模态搜索的开发者可以不用再手动打标签了,但离「无感理解」还有距离。
01:39
Google AI Developers@googleaidevs
58
既然Gemini Embedding 2已正式发布,让我们探索该模型解锁的功能--从智能多模态RAG到视觉搜索--因为它能将文本、图像、视频、音频和文档映射到统一的嵌入空间。
Google检索增强多模态模型发布
00:44
向阳乔木@vista8
61
DeepSeek提出"视觉原语"多模态推理框架,用"指"的方式思考

DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”,核心是让模型在推理过程中像人类一样,使用“点”和“边界框”这类视觉原语来指代图像中的具体位置,以此作为思维的最小单位,旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干,并设计了极致的视觉Token压缩流水线,将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩,模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。

DeepSeek多模态推理论文/研究
00:44
向阳乔木@vista8
41
DeepSeek-VL:面向真实场景的视觉语言模型

DeepSeek-VL旨在解决开源视觉模型在真实场景中应用效果不佳的问题。其核心方案是系统性地从数据、架构与训练三方面进行设计:数据构建强调从真实用户需求出发,并包含70%的纯文本以保留语言能力;模型架构创新性地采用SigLIP与SAM-B混合视觉编码器,兼顾高层语义与低层细节;训练策略则通过三阶段渐进式训练与模态平衡技术,有效缓解了视觉训练对语言能力的侵蚀,最终在同等规模下达到开源模型的顶尖水平。

DeepSeek多模态教程/实践
‹ 上一页
1…1718192021…23
下一页 ›