5月29日

01:44

Chubby♨️@kimmonismus

字节跳动开源多模态模型BAGEL，单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解，采用Apache 2.0许可。引用推文显示，该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0，其在FVD基准上性能约为同等数据与算力单体模型的2倍。

bidhan: We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...

多模态开源生态模型发布

01:12

Ethan Mollick@emollick

Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过"一次性生成"（single shot）的方式，为twigl平台创建可运行的视觉shader。具体任务为：用数学生成一个"无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中"的场景。这则推文通过并列展示，体现了两个顶级大语言模型在创意编程领域的直接对比。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

Anthropic 多模态模型发布

01:06

Google AI@GoogleAI

Google用AI工具让纸板和马克笔"活起来"

Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事，创作中融合了木偶戏与3D动画。核心工具包括：Nano Banana（从原始木偶镜头和基础3D动画生成风格化首帧）、Google AI Studio（构建定制工具以大规模测试帧并确保一致性）、以及Gemini Omni和Google DeepMind的实验性模型（合并基础动画与风格化帧，提升至电影级画面）。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节，例如木偶戏的细微不完美感。

Google 多模态教程/实践视频

00:32

Berryxia.AI@berryxia

iOS 27爆料：Siri彻底重做，AI系统级整合

Mark Gurman爆料苹果iOS 27将带来重大AI升级。核心变化是Siri被彻底重做，从简单问答助手转变为能理解上下文的智能体。AI功能将大幅增强，照片编辑能力进入新维度。系统还为专业用户推出了可自定义界面的Camera App，支持调整ISO、快门等参数。此次升级的关键在于将AI能力深度整合到系统底层与日常界面中，旨在让功能对普通用户易用，同时满足专业需求，而非简单堆砌功能。

Mark Gurman: BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...

产品更新多模态语音

00:31

AYi@AYi_AInotes

Google Omni演示手部解剖，生物医学教学潜力获赞

推文回应了关于Google Omni能力的争议，展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构，被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0，强调了该技术在教育领域的独特应用价值。

Google 多模态现象/趋势

00:06

SenseTime@SenseTime_AI

同事件精选65

SenseNova信息图表生成模型升级：文本、布局与图表质量全面增强

SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于：增强了文本的准确性与可读性，减少了重复和不自然的放大；改进了布局的一致性与合理性，背景更稳定；提升了图表与示意图的渲染质量；并新增了学术内容的渲染支持。

Hugging Face 图像生成多模态模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤这个8B信息图生成模型升级了，文本和布局都更稳，对常做数据图表和学术配图的人算个实用的小迭代，没有到改变游戏规则的程度。

00:05

Google Gemini@GeminiApp

好消息：印度用户现在可以直接使用Gemini Omni上传和编辑视频了！在应用或 http://gemini.google.com 中开始使用： > 上传您的视频 > 告诉Gemini您想要进行的更改 > 享受您的新作品我们迫不及待想看到您的创作！

Google 产品更新多模态视频

5月28日

23:43

AK@_akhaliq

多模态智能体推理的探索性策略优化

智能体 arXiv 多模态推理

23:38

Xiaomi MiMo@XiaomiMiMo

同事件精选69

MiMo-V2.5现已在OpenCode上线--限时免费。🎉 【引用 @opencode】：OpenCode x MiMo V2.5 - 限时免费 1M上下文 • 推理 • 文本 • 图像

OpenCode: OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image

多模态推理模型发布

同一事件，精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s》

推荐理由：MiMo-V2.5在OpenCode免费开放，1M上下文加多模态推理，小米的模型迭代不算大新闻，但趁免费白嫖一下国产模型的机会别错过。如果你正在选型，跑个分试试。

23:12

Rohan Paul@rohanpaul_ai

Reactor推出实时世界模型基础设施

Reactor公司宣布推出实时世界模型（World Models）基础设施层，并完成了由Lightspeed领投的5900万美元种子轮与A轮融资。其核心突破是将视频生成从被动预渲染转变为根据用户行动和语音实时生成的像素流。开发者只需使用几行ReactSDK代码，即可将前沿世界模型的实时像素流集成到产品中，应用于游戏、创意工具、模拟、机器人及叙事等领域。公司核心团队成员来自Apple、Meta、Google等多家公司，目前已有众多合作伙伴与开发者在使用其平台。

reactor: Today, we're coming out of stealth with $59M in seed and Series A funding, led by Lightspeed, with Amplify Partners, Wnd...

智能体产品更新多模态行业动态

21:42

Chubby♨️@kimmonismus

一夜之间构建的AI Twitch主播：功能、情绪与潜在影响

一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动，并在做出高风险决策时感到紧张，在获胜后表现出喜悦。文中探讨了其深远影响：当AI能实现24/7不间断直播、永不倦怠时会怎样；当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么；以及当娱乐的创作门槛降至零时，对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。

Tavus: @Twitch the first ever human-like AI streamer is here. This AI streamer plays, narrates, reacts to chat, gets nervous on...

智能体多模态现象/趋势视频

19:06

小互@xiaohu

X 的自动翻译全面生效了吗现在所有的推文都会根据你使用的语言自动翻译，你现在可以浏览任何帖子和回复全部展示的是你正在使用的语言巴别塔倒塌了？

产品更新多模态

16:11

Kling AI@Kling_ai

可灵AI将在AI电影节展示20部4K原创短片

可灵AI将在全球最大AI影视会议AI on the Lot的社区日上，展示由Prompt Club的电影制作人创作的20部原创AI短片。所有短片均为原生4K分辨率，旨在探索AI电影的边界。该展示将于5月29日在加州卡尔弗市的卡尔弗剧院举行。

多模态行业动态视频

15:41

🚨 AI News | TestingCatalog@testingcatalog

如果你错过了 👀：现在，拥有 Google Genie 实验访问权限的用户可以使用 Google 地图中的地点来生成虚拟世界。 "金门大桥" 🤖

Google 产品更新图像生成多模态

12:36

PixVerse@PixVerse_

很高兴能参与阿里云在#QwenConference2026上推出的开放AI生态。期待通过Model Studio将PixVerse的AI视频生成能力带给更多创作者和开发者。🚀

Alibaba Cloud: Launched at #QwenConference2026 today: Alibaba Cloud's fully open AI ecosystem. Beyond Qwen, the world's leading models ...

产品更新多模态视频

11:37

歸藏(guizang.ai)@op7418

小红书图片生成器新Skill，图文混排痛点全解决

一款针对小红书内容的图片生成器 Skill 发布，宣称效果出色，解决了图文混排的核心痛点。该 Skill 包含 2 套主题、28 个版式、9 套配色，并适配 8 大小红书主流内容类别。其核心优势在于智能处理图片：能凸显用户提供的高质量图片、自动寻找优质图片替代，并能美化普通图片，同时主动避免使用 AI 生成图片以防止内容被标记。该工具旨在高效生成具有专业效果的小红书图文内容。

歸藏(guizang.ai): http://x.com/i/article/2059811469081141248

图像生成多模态教程/实践

10:28

Berryxia.AI@berryxia

腾讯Miora：一个AI创意Agent平台

腾讯推出Miora，一个整合图像、视频、UI/UX和3D生成的AI创意Agent平台，现已开启国际版公测。该平台允许用户在同一画布内完成全部创意工作，无需在Midjourney、Runway等多个工具间切换，避免了上下文丢失。Miora内置了品牌、故事板、插画、UI/UX、视频、3D等专业Agent，具备理解设计语境、自主推理、调用工具、局部编辑及记忆用户偏好的能力。同时，它提供官方的技能商店，支持用户创建、使用并分享自定义技能。

Tencent AI: Meet Miora ✨your AI creative agent studio, now in international beta. 💡 Here's the idea: Images, video, UI/UX, 3D - all...

智能体产品更新多模态

10:28

AYi@AYi_AInotes

一个地图截图+手绘路径，就能生成这么流畅、物理感强的无人机POV航拍视频，相比seedance、Kling，Google Omni最擅长的应该就是这种精确的相机控制，空间理解、世界模型的真实感

Google 多模态教程/实践视频

07:35

Ethan Mollick@emollick

Google拥有唯一真正的全模态模型，但各元素尚未连接。它似乎能接收和输出音频、图像、视频、歌曲、文本、代码等。但目前每种输出类型都是分离的。当你能直接访问模型，混合模式，很多事情就变得可能了。

Google 多模态大佬观点

05:52

Google Gemini@GeminiApp

同事件精选77

使用 Gemini Omni 轻松将您的视频转换为新的视觉风格。只需上传视频或照片，并要求 Gemini 为您的最终输出应用某种外观或风格。

Google 产品更新多模态视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini 终于把图像风格迁移做到视频上了，并且直接集成到 Omni 里，不需要任何剪辑软件，对短视频创作者是个小但实用的更新。

04:59

Google AI@GoogleAI

与 @NotebookLM 一起回顾上周的 I/O 发布内容。你可以收听音频概览、观看视频回顾，甚至查看我们详细的幻灯片，总结所有重大新闻和发布。在此查看：http://goo.gle/4xcgBoj

Google 多模态教程/实践

03:07

Rohan Paul@rohanpaul_ai

利用OpenAI Codex解决硬件问题实例

一位用户展示了一款从AliExpress购买的廉价MP3播放器，它存在蓝牙音频卡顿和菜单操作不便的问题。用户将设备芯片的照片提供给OpenAI的Codex进行分析。Codex随后引导用户通过Mac设备提取了播放器的完整固件文件。Codex分析了该固件的机器代码，定位到导致问题的具体代码段，并生成了一个修复了蓝牙问题并优化了菜单导航的定制固件。用户将此固件刷写回设备后，问题得到解决。此案例具体体现了AI工具在处理底层硬件调试与定制化开发任务中的潜力。

ぶんかい@AIで遊ぶ人: ぼくの着想の限界=Codexの限界。それくらいまーじでCodexでなんでもできる。これアリエクで買ったやっすいMP3プレイヤー。でもBluetoothの音飛びと操作性が悪くて放置してたんですよ。だけど昨日急にシャワーしている時にエウ...

OpenAI 多模态教程/实践

02:12

OpenCode@opencode

OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像

产品更新多模态推理编码