5月30日

20:11

StepFun@StepFun_ai

Ivan Fioravanti ᯅ: Step 3.7 Flash was another one I was really looking for! Big jump compared to 3.5, multi modal and even better than Deep...

多模态模型发布端侧

19:11

StepFun@StepFun_ai

小即是美。😌

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 - ∞): I've been waiting for this! They managed to do it before June, and they open sourced it right away! @antirez I've been s...

多模态开源/仓库模型发布端侧

12:11

向阳乔木@vista8

Codex 制作的 Suno MTV，任意一首Suno歌曲自动转成带LRC歌词同步显示的 MV。图片由Codex根据歌词内容自动生成，还挺符合意境。

图像生成多模态教程/实践

08:06

OpenRouter@OpenRouter

精选72

现在你可以直接在ComfyUI工作流中使用你的OpenRouter模型了！【引用 @ComfyUI】：ComfyUI刚刚添加了@OpenRouter支持。你不再局限于单一的大语言模型，现在可以直接在Comfy中访问20多个模型。更多灵活性，更少摩擦，同样的工作流。工作流链接在下方👇

ComfyUI: ComfyUI just added @OpenRouter support. Instead of being locked into a single LLM, you can now access 20+ models directl...

产品更新多模态开源生态

推荐理由：ComfyUI 首次直接集成 LLM 路由服务，等于给图像管线加了个「外挂大脑」，做自动化工作流的人可以直接在节点里调用 20+ 模型，省掉一堆 API tinker 环节。

05:46

Jeff Dean@JeffDean

我非常享受与@OfficialLoganK以及我的Gemini联合负责人@OriolVinyalsML、@NoamShazeer和@koraykv的这次对话。

Logan Kilpatrick: My conversation with @JeffDean, @koraykv, @NoamShazeer, and @OriolVinyalsML (the Gemini co-leads) about the current stat...

Google 多模态大佬观点

05:36

Google Gemini@GeminiApp

从屏幕到现实，只需一个提示词。看看这些令人惊叹的例子，了解 Gemini Omni 如何理解你的视频输入，应用物理规律，并生成无缝的新动作。亲自试试看，并在回复中分享你如何实验 Gemini Omni 👇

Google 产品更新多模态视频

04:50

🚨 AI News | TestingCatalog@testingcatalog

OpenAI宣布Codex的Windows版本现已支持Computer Use功能，能够直接在用户的Windows电脑上执行操作。同时，ChatGPT移动应用也新增了对Windows平台Codex的支持，允许用户在移动中启动、审查和引导任务，而任务本身可在Windows设备上持续运行。这是一项早期体验，OpenAI表示将继续开发更多功能，帮助用户随时随地高效工作。

OpenAI: Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....

智能体 OpenAI 产品更新多模态

04:19

Greg Brockman@gdb

精选76

OpenAI 实时翻译功能--使用70多种输入语言说话，翻译成13种输出语言： gpt-realtime-translate 接收任意语言的语音输入，并输出目标语言的语音。大语言模型很棒，但特定用例需要专用模型。我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI 多模态模型发布语音

推荐理由：OpenAI悄悄推出一个专门做实时语音翻译的模型，不是通用LLM，而是专用模型。这标志着AI交互从文字转向语音的第一步，做翻译硬件或AR眼镜的团队要睡不着了。

03:38

Josh Woodward@joshwoodward

用我们的 Omni 模型编辑视频 🤯 以下是过去 24 小时里吸引我注意的 10 个创意示例…… 在 @GeminiApp 和 @FlowbyGoogle 中试试看

Google 产品更新多模态视频

03:06

Google Gemini@GeminiApp

精选74

Gemini Omni甚至能将简单的草图变为新的现实。在Gemini应用中亲自尝试。上传一段有人画圆的视频，然后输入这个提示词：当我画完这个圆时，它变成了___。

Google 产品更新多模态

推荐理由：Google 把「画个圈然后说变什么」做成了真功能，创意交互的门槛又低了，普通用户随手就能玩，但本质是锦上添花，不是核心能力跃迁。