SaaStr week. Tuesday night, San Mateo! 🍕🍺 We're co-hosting with SEAMATE and the floor's yours. 🎤 2-min open mic. Take the mic, tell the room who you are and what you're building. Founders, builders, whoever shows up. Quick demo from us too: text, vision, speech, music, all behind one API. Dinner, open bar 'til 9. RSVP: http://luma.com/4cqlswgf

译在SaaStr week期间，SEAMATE与主办方于San Mateo共同举办创始人社交聚会。活动设有2分钟开放麦克风环节，供参与者介绍自身及项目；主办方将演示整合文本、视觉、语音、音乐的单一API。活动面向AI创始人、SaaS建设者、运营商和投资者，提供晚餐和开放酒吧至晚上9点。时间为5月12日5:30 PM PT，参与者需通过RSVP链接注册。

Suno@suno · 5月9日68

can you make a pop song using only your voice?

译你能只用你的声音创作一首流行歌曲吗？

Chubby♨️@kimmonismus · 5月9日54

Holy: A wireless brain implant that completely bypasses the eyes and optic nerves just hit its third successful human implantation. 544 electrodes stimulating the visual cortex directly to create artificial sight for the fully blind. Instead of trying to fix the eye, they're treating vision as a software problem and patching it straight into the brain's hardware.

译天啊：一款完全绕过眼睛和视神经的无线脑植入设备，刚刚完成了第三次成功的人体植入。 544个电极直接刺激视觉皮层，为全盲者创造人工视觉。他们不再试图修复眼睛，而是将视力视为软件问题，直接将其接入大脑的硬件。

Alibaba Cloud@alibaba_cloud · 5月8日66

Smart Studio: Self-host the latest AI 🚀 Stop jumping between platforms. Everything you need to test and serve models is now in one place: ✅ Instant SOTA Access: Run Qwen3.6-Max, DeepSeek-v4, and the latest models the moment they drop. ✅ Full Multimodal Support: Access multimodal and Image & Video generation models. ✅ Visual Model Lab: Compare open vs. closed-source outputs side-by-side. ✅ HF-to-API in Minutes: Turn Hugging Face model into live API in minutes. 🔗: https://int.alibabacloud.com/m/1000412330/ #AlibabaCloud #SmartStudio #ModelExploration #GenAI #AInnovation #LLM

译阿里云发布Smart Studio平台，旨在整合AI模型测试与服务的全流程，终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型（如Qwen3.6-Max、DeepSeek-v4）的能力，支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室，用于并排比较开源与闭源模型的输出效果，并能快速将Hugging Face上的模型转化为实时API，简化部署流程。

SenseTime@SenseTime_AI · 5月8日42

At the 𝗠𝗧𝗫 - 𝗠𝗶𝗹𝗶𝗽𝗼𝗹 𝗧𝗲𝗰𝗵𝗫 exhibition in #Singapore, we showcased our cutting-edge #VisionAI innovations—designed to make cities safer and smarter. Powered by #SenseFoundry, our monolithic algorithm model production platform, and our #multimodal video understanding agent powered by #SenseNova, we deliver AI solutions that strengthen public safety—from fire detection to traffic accident monitoring and beyond. We’re committed to working closely with our Singapore partners to accelerate digital transformation and co-create an open, inclusive, and thriving local AI ecosystem.

译商汤科技在新加坡MTX-Millipol TechX展览中展示了其前沿的视觉AI创新，旨在提升城市安全与智能化水平。其解决方案基于SenseFoundry单体算法模型生产平台和由SenseNova驱动的多模态视频理解智能体，涵盖从火灾检测到交通事故监测等公共安全领域。公司表示将与新加坡合作伙伴紧密协作，共同加速数字化转型，构建开放、包容且繁荣的本地AI生态系统。

meng shao@shao__meng · 5月8日80

OpenAI 在 Realtime API 推出三款新模型：GPT-Realtime-2 把 GPT-5 级推理带入语音，让 Agent 能边听边想边调用工具完成任务；搭配 GPT-Realtime-Translate（70+ 语言实时互译）和 GPT-Realtime-Whisper（低延迟流式转录），共同把实时语音从"问答交互"推向"可执行任务的语音界面"。 GPT-Realtime-2：首个具备 GPT-5 级推理能力的实时语音模型；推理、工具调用、对话连贯 GPT-Realtime-Translate：实时语音翻译模型；70+ 输入语言 → 13 输出语言 GPT-Realtime-Whisper：流式语音转文字；边说边转录，低延迟 https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/ 三种语音应用范式 OpenAI 观察到开发者正围绕三种模式构建产品： · Voice-to-action（语音驱动行动）：听懂需求 → 推理 → 调用工具 → 完成任务。示例：Zillow 的看房助手。 · Systems-to-voice（系统主动播报）：把上下文转化为口语化提示。示例：航班延误时主动告知改签方案。 · Voice-to-voice（跨语言对话）：实时翻译让不同语言的用户自然交流。示例：Deutsche Telekom 的多语客服。 Priceline 是三者结合的典型：语音搜机票、改酒店、落地后翻译沟通。 GPT-Realtime-2 的关键升级 · Preambles（前置语）：可插入 "let me check that" 等过渡语，让用户感知系统在工作。 · 并行工具调用 + 工具透明化：可同时调用多工具，并用语音说明 "正在查日历"。 · 更优雅的失败恢复：能说 "我现在处理这个有点困难"，而非沉默或崩溃。 · 上下文窗口 32K → 128K：支撑更长的 agent 流程。 · 更强的领域词汇保持：医疗术语、专有名词识别更稳。 · 可控语调：冷静、共情、振奋等模式可调。 · 可调推理强度：minimal / low / medium / high / xhigh 五档，默认 low，平衡延迟与思考深度。性能对比（相对 GPT-Realtime-1.5）： · Big Bench Audio（音频推理）：+15.2%（high 档） · Audio MultiChallenge（指令跟随）：+13.8%（xhigh 档）客户验证（Zillow）：在最难的对抗性基准上，呼叫成功率从 69% → 95%（+26 分），且在公平住房合规上更稳健。 GPT-Realtime-Translate 的定位 · 面向客服、跨境销售、教育、活动、媒体等全球化场景。 · 在保持语速同步的同时保留含义，支持口音、方言与领域术语。 · 客户验证（BolnaAI）：印度语种（印地语、泰米尔语、泰卢固语）测试中，词错率比此前最佳模型再降 12.5%。 · Vimeo 已用其为产品教学视频做现场多语播报。 GPT-Realtime-Whisper 的应用面低延迟流式转录，瞄准： · 会议 / 课堂 / 直播实时字幕 · 边谈边生成的会议纪要 · 需要持续理解用户的语音 agent · 客服、医疗、销售、招聘等高频口语场景的后续工作流

译OpenAI 在 Realtime API 中推出三款新模型，将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力，支持边听边思考、并行调用工具并完成任务，关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译，GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式，旨在构建下一代语音协作智能体。

Orange AI@oran_ge · 5月8日53

http://x.com/i/article/2052532173870342144 # 离开 Claude，发现外面根本没下雨跟大家分享一些最近好玩的事儿，看起来似乎毫无关联，但又都神奇地关联到了一起。先是 Claude Code 用得越来越痛苦。封号、限流、KYC，各种折腾，各种浪费时间。有人在 Reddit 发了长帖，说自己试了十几种绕过检测的方法，每一步都记录得很详细。下面有人回了一句：你试过 GPT 5.5 和 Codex 吗。他去试了一下，结果真的又便宜又好用，还不用折腾。原来离开 Claude，才发现外面根本没有下雨。有一家公司在做一个多模态理解的项目。团队调了三个月，各种工具各种工程往上叠，效果一直搞不好。后来朋友任鑫跟他们说，你要不换 Gemini 的模型试试？换完模型发现所有的问题都解决了，效果比之前都要好。原来那么多的时间和努力，在强大的模型面前都毫无必要。有个朋友跟我说他想买房。然后开始算账，算存款、算月供。为了还贷款要选择稳定的工作，为了凑首付甚至要找亲戚朋友借钱。各种问题都要解决，也都有解法。但真正的问题是：在一个出生人口下降的趋势里，买房的目的是什么？到底有什么是租房解决不了的问题？到底是因为想居住还是想投资？如果要投资是不是有远超房子的标的？想清楚了，如何凑钱的那些问题就都不是问题。这些小事为什么都关联到了一起呢？前几天读了一本书叫《无穷的开始》，作者是物理学家戴维·德伊奇。书里有个观点很好：人类一直在寻求对一件事情的更好的解释，但好的解释不是在一个封闭系统里拼命推导出来的，是用一个更广的理论去覆盖原来的问题。解决问题是思维的陷阱，创造的思维才是出路。这个道理在各个领域都成立。 ## 给谁做产品？过去十年 SaaS 行业发展到了极度雕花的程度，一个 Onboarding 可以做十页，甚至还有提供 Onboarding 服务的 SaaS 和咨询师。然后 Agent 出现了，Agent 产品就一个输入框，没有 Onboarding。 Agent 它甚至不需要界面。你花了很多年打磨的那些体验，在新的坐标系里突然不需要了。然后你问自己一个问题：未来的增量在哪里？到底是 Agent 增量大，还是人的增量大？想清楚之后，很多人带来的问题就不必再解决了。 ## 产品如何定价？追觅做割草机的时候，市场上已经有中国厂商把价格杀到了 499。正常人的思路是两条路：要么跟着卷价格，要么做一些差异化来撑住价格。俞浩定了 1999，加了激光雷达，结果卖爆了。他管这个叫 N+1。以前大家习惯做减法，讲究性价比，现在可以试试做加法，做更好的产品，卖更贵的价格。定价比别人贵 10%，直接赚钱，利润高，能加更好的硬件，能招更好的人，正向循环。何况现在有 AI 了，其实很容易。 ## 团队如何管理？管理团队看似是一个复杂的事情，团队有那么多人，每个人的性格不一样，工作习惯不一样。你想把管理做好，让每个人都在最合适的位置。于是你开始看各种管理书，调各种流程。然后你会发现一个问题：不管你怎么努力，永远无法完美，总有哪里不对。然后你就很容易忘记最重要的初心：成立公司是为了什么？是为了成功。那其实管理的核心目标，就只需要保证所有人的注意力都在这里：做正确的事，正确地做事。而其他的事情事情，根本都不重要。企业 AI 转型也是类似。你的的第一步是先问一个问题，不然提高 100% 也毫无意义。这个问题就是：这个事情，这个部门，这个组织方式，未来还存在吗？其实如果一件事在未来不存在，你现在努力又是为了什么？其实我们再往上层思考，来到资本主义本身。发币、发债、通货膨胀、经济发展，这个循环已经跑了几百年。每个国家都在里面，没有人能停下来。停下来就是衰退，停不下来就是泡沫。看上去是个死局。马斯克最近在聊一个东西，叫"后资本主义"。他的推演是这样的： AI 和机器人会让生产力指数级增长，商品的边际成本趋近于零。你不需要担心通胀，因为供给的增速远超货币的增速。你不需要纠结怎么分配，因为蛋糕本身在以你无法理解的速度变大。他甚至说，未来 AI 之间的交易可能不再用人类的货币。它们直接交换算力和能源。资本主义的答案也许不在资本主义里。最近学习了人类奇书 GEB，全称是《哥德尔、埃舍尔、巴赫》，作者候世达。这本书很厚，但核心就讲了一件事。任何足够复杂的系统，只要你让它能谈论自己，就会产生一种叫"自指"的东西。一旦出现自指，这个系统就无法完整地描述自己。总有一些命题是真的，但你在这个系统内部永远证明不了。你唯一的选择就是跳出系统。跳出去之后，你进入的那个新系统，它也是一个系统。它也有自己的不完备性，也有自己证明不了的东西。完美的系统是不存在的。但每跳一次，你都能解决上一个系统里解决不了的问题。看看窗外，窗外是星辰大海。看看窗外，外面根本没下雨。

译本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验，用Gemini解决多模态难题，到重新思考买房目的而非细节，均显示换用更广视角能轻松化解原有困局。产品领域，Agent可能简化复杂SaaS；追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质，企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出，好的解释需更广理论覆盖原问题，系统自指导致不完备性，必须跳出才能突破。最终，视野开阔后，解决方案自然显现。

Berryxia.AI@berryxia · 5月8日65

兄弟们，这项目真的有点意思啊！ SuperSplat直接把3D Gaussian Splatting变成了真正能被大众分发的创作平台。以前大家只能在线看，现在创作者一键开启“可下载”开关，观众就能直接把Gaussian splat文件拉回家还能附加六种CC 4.0许可证，自动生成署名文字；个人页面还能加上网站、X、LinkedIn、YouTube链接，瞬间变成3D作品集。下载后的splat还能直接拖进PlayCanvas引擎，马上开始做交互体验。免费开源、零门槛，这波更新直接把3DGS从实验室玩具推向了普通创作者。

译SuperSplat项目将3D Gaussian Splatting技术转化为大众可用的创作与分发平台。其核心功能是允许创作者一键开启文件下载，观众可直接获取Gaussian splat文件。平台支持附加多种CC 4.0许可证并自动生成署名，个人页面可集成社交链接，成为3D作品集。下载的文件能直接导入PlayCanvas引擎快速创建交互体验。该项目免费开源，旨在降低技术门槛，推动3DGS从实验室走向普通创作者的实际应用。

Chubby♨️@kimmonismus · 5月8日56

2026 will be the Apple AI year: AirPod 3 with AI + camera incoming The new AirPods have cameras in both earbuds that serve as eyes for Siri, capturing low-resolution visuals (not photos or video). Users can ask about things they're looking at, get context-aware reminders, and receive landmark-based navigation cues - all hands-free. Design-wise they look like AirPods Pro 3 with longer stems. A small LED indicates when visual data is being sent to the cloud for privacy purposes. No hand-gesture support. They've been in development four years, are currently in late-stage testing (DVT), and were delayed by the Siri overhaul (now rebuilt with Gemini, targeting September). Hardware is nearly final, but launch depends on AI quality meeting Apple's bar. Part of a broader push that includes smart glasses, a camera pendant, and a new visual AI mode in iOS 27.

译据彭博社报道，苹果计划于2026年推出第三代AirPods，这将是其首款AI可穿戴设备。新款AirPods的每个耳塞均内置摄像头，作为Siri的“眼睛”捕捉低分辨率视觉信息，以实现视觉问答、情境感知提醒和地标导航等免提AI功能。产品设计类似AirPods Pro 3，带有隐私提示LED灯，但不支持手势控制。该产品已开发四年，目前处于后期测试阶段，硬件已基本定型，但最终发布取决于AI体验能否达到苹果标准。其发布将与基于Gemini重构的Siri及iOS 27的新视觉AI模式同步，是苹果包括智能眼镜、相机吊坠在内的更广泛AI硬件布局的一部分。

OpenRouter@OpenRouter · 5月8日68

Gemini 3.1 Flash Lite from @GoogleDeepMind is now GA on OpenRouter. Multimodal (text/image/video/audio/PDF → text), 1M context, selectable thinking levels, at $0.25/M in / $1.50/M out. Also works with our new service_tier param for cost/latency tradeoffs!

译Gemini 3.1 Flash Lite 来自 @GoogleDeepMind，现已在 OpenRouter 正式发布。多模态（文本/图像/视频/音频/PDF → 文本），100万上下文，可选的思考层级，输入每百万次$0.25，输出每百万次$1.50。还可配合我们新的 service_tier 参数使用，以权衡成本与延迟！

Chubby♨️@kimmonismus · 5月8日75

OpenAI just dropped three new realtime voice models: -GPT-Realtime-2 (with GPT-5-class reasoning for voice agents that can actually think mid-conversation), - GPT-Realtime-Translate (live translation across 70+ input languages), and - GPT-Realtime-Whisper (streaming speech-to-text as people talk). However, their teaser probably refers to their upcoming new Voice Mode in ChatGPT (advanced voice mode 2?)

译OpenAI近日发布了三款新的实时语音模型：GPT-Realtime-2具备近似GPT-5的推理能力，允许语音助手在对话中实时思考；GPT-Realtime-Translate支持超过70种语言的实时翻译；GPT-Realtime-Whisper则能实现流式语音转文本。与此同时，OpenAI官方通过引用推文暗示，用户期待已久的ChatGPT语音功能更新正在积极准备中，即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式，进一步提升其交互体验与应用能力。

Ethan Mollick@emollick · 5月8日52

OpenAI for Excel is quite useful (as is Claude for Excel), so it is surprising, that, unlike Claude, there is no OpenAI for PowerPoint, especially because it is where OpenAI has a big advantage: Imagegen-2 can make very good slides/images directly, where Claude has no image maker

译OpenAI for Excel相当实用（Claude for Excel也是），令人惊讶的是，与Claude不同，目前没有OpenAI for PowerPoint，尤其因为这是OpenAI的一大优势所在：Imagegen-2可以直接生成非常优质的幻灯片/图像，而Claude没有图像制作功能。

Z.ai@Zai_org · 5月8日73

GLM-5V-Turbo Tech Report: Toward a Native Foundation Model for Multimodal Agents This report summarizes the main improvements behind GLM-5V-Turbo across model design, multimodal training, reinforcement learning, toolchain expansion, and integration with agent frameworks. These developments lead to strong performance in multimodal coding, visual tool use, and framework-based agentic tasks. http://arxiv.org/abs/2604.26752

译GLM-5V-Turbo 技术报告：迈向原生多模态智能体基础模型本报告总结了GLM-5V-Turbo在模型设计、多模态训练、强化学习、工具链扩展以及与智能体框架集成等方面的主要改进。这些进展使其在多模态编码、视觉工具使用和基于框架的智能体任务中表现出色。 http://arxiv.org/abs/2604.26752

Suno@suno · 5月8日61

NBC News just spotlighted the text-message-to-song viral trend using Suno! https://www.nbcnews.com/now/video/people-are-turning-text-message-threads-into-fun-songs-using-ai-in-a-new-trend-on-social-media-262862405776

译NBC News刚刚重点报道了使用Suno的短信转歌曲病毒式趋势！ https://www.nbcnews.com/now/video/people-are-turning-text-message-threads-into-fun-songs-using-ai-in-a-new-trend-on-social-media-262862405776

Microsoft Research@MSFTResearch · 5月8日55

Tyger moves the most demanding MRI processing to the cloud, helping researchers turn raw signals into readable images – meaning results in hours rather than days or weeks. https://msft.it/6010vMCSa

译Tyger将最耗时的MRI处理工作转移到云端，帮助研究人员将原始信号转化为可读图像——这意味着几小时而非数天或数周即可获得结果。https://msft.it/6010vMCSa

AK@_akhaliq · 5月7日58

Stream-R1 Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation paper: https://huggingface.co/papers/2605.03849

译Stream-R1 面向流式视频生成的可靠性-困惑度感知奖励蒸馏论文: https://huggingface.co/papers/2605.03849

AK@_akhaliq · 5月7日67

PhysForge Generating Physics-Grounded 3D Assets for Interactive Virtual World paper: https://huggingface.co/papers/2605.05163

译PhysForge 生成物理基础的3D资产用于交互式虚拟世界论文：https://huggingface.co/papers/2605.05163

Rohan Paul@rohanpaul_ai · 5月7日65

Newly launched BACH 1.0 from @video_rebirth solved one of the hardest problems in AI video models: keeping the same character face consistent across different angles and cuts. Not just 1 nice close-up. Actual multi-shot consistency from the same identity, which is where most Image-to-Video models still break. BACH excels at facial emotion expression of characters. Overall, very cinematic direction and production-ready output. And currenly #6 in the world on Artificial Anlysis. 🧵 1.

译由@video_rebirth新推出的BACH 1.0解决了AI视频模型中最棘手的难题之一：在不同角度和镜头切换中保持同一角色面部的一致性。不仅是单个优质特写镜头。它实现了同一身份的真实多镜头一致性，而这正是多数图像转视频模型仍会失效的环节。 BACH擅长表现角色的面部情绪。整体而言，其输出极具电影感且达到制作水准。目前在Artificial Anlysis全球榜单中位列第六。 🧵 1.

Berryxia.AI@berryxia · 5月7日61

2026靠嘴设计、打印、出品一条龙了！

xAI@xai · 5月7日76

Image Generation Quality Mode is now available on the xAI API. This model has already powered the generation of over 300 million images on Grok. It brings higher realism, stronger text rendering, and better creative control for business professionals. https://x.ai/news/grok-imagine-quality-mode

译图像生成质量模式现已在xAI API上线。该模型已为Grok平台生成超过3亿张图像。它为商业用户带来更高真实感、更强文本渲染能力和更优创意控制。 https://x.ai/news/grok-imagine-quality-mode

Google Gemini@GeminiApp · 5月7日67

With Personal Intelligence and Nano Banana 2 working together, you can now turn your interests into imagery in Gemini. Don’t miss our next community event on Discord for a live demo and Q&A with the team behind this latest release. 👉Join us on Discord to watch live: http://discord.gg/gemini 📅 Today at 12:00 PM PT

译通过个人智能与Nano Banana 2的协同工作，您现在可以将兴趣转化为Gemini中的图像。请勿错过我们在Discord上的下一次社区活动，届时将有最新版本团队的现场演示和问答环节。 👉加入我们的Discord观看直播：http://discord.gg/gemini 📅 今天太平洋时间中午12:00

宝玉@dotey · 5月7日65

http://x.com/i/article/2052049052275978244 # 把视频变成图文博客：Agent + 豆包 Seed2.0 lite 重做 Karpathy 两年前的工作流两年前，Andrej Karpathy 发过一条很有意思的推文。他想把自己 2 小时 13 分钟的 tokenizer 教学视频，自动转换成一本书的章节，或者一篇关于 tokenizer 的博客。这件事当时我也关注过，还动手尝试过。那时候比较自然的实现流程大概是这样： 1. 用 Whisper 给视频转写； 1. 把视频切成“图像 + 文本”对齐的小段； 1. 用 LLM 一段段改写成文章； 1. 导出成页面，并给原视频片段加引用链接。这个方案听起来很合理，也确实能做。但问题是：效果往往不够稳定，因为整条流水线的每一步都在丢信息。 ASR（自动语音识别），只留下了“说话的人说了什么”，但丢掉了语气、停顿、背景音和现场节奏；LLM 只能读转录稿，看不到屏幕上的代码、图表、PPT 和 UI；配图又是另一个独立任务，要么人工挑帧，要么再引入视觉模型做画面理解。最后还要把文字、时间戳、截图重新对齐。这就像请一个人只听课堂录音写笔记，再让另一个人只看 PPT 截图挑插图，最后让第三个人把两份结果拼起来。每个人都只拿到了一部分上下文，出错很正常。这件事当时虽然没完全做成，但给我留下了很深的印象。因为它代表了一类很常见的需求：我们希望有一种把视频重新整理成可阅读、可搜索、可复用知识的方式。最近受邀提前测试了 Doubao-Seed-2.0-lite，我第一时间又把这件事拿出来试了一遍。 Doubao-Seed-2.0-lite 是一款轻量级全模态理解模型。这里的“全模态”是指模型能够同时输入并理解视频、图片、语音和文本，并在这些信号之间做联合推理。换句话说，它不只是“看图”“听音频”“读文字”三个能力的简单相加，更可以处理那些必须音画结合才能判断的问题。 Doubao-Seed-2.0-lite 模型的更多信息可以看官方的这篇文章：《Doubao-Seed-2.0-lite 升级，支持全模态理解》： > 全模态理解：不止看懂图文，更能听懂世界新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升，在物理（HiPhO）、医疗（MedXpertQA）等高阶学科推理上，表现大幅超越 2 月发布的 Doubao-Seed-2.0-pro。在细粒度感知（BabyVision、WorldVQA）与具身理解（ERQA）等关键领域达到 SOTA 水平，更适合企业在高价值场景规模化部署。视频转博客，正好就是这样一个问题。你看一场技术演讲时，不会只听声音。你会看讲者切到了哪一页 slide，会看代码里哪几行被高亮，会注意 demo 页面有没有真的跑起来，也会根据讲者的语气判断他是在介绍背景、强调风险，还是现场调试失败。一个真正好用的视频转博客系统，也应该尽量接近这种理解方式。所以这次我做的不是“先转文字，再让 LLM 改写”。我更想试的是：如果让 Agent 拥有多模态理解能力，它能不能像一个认真看完视频的技术编辑一样，把视频整理成一篇图文并茂的博客？ ## 为什么这一次不一样：多模态减少了中间损耗传统的 ASR（自动语音识别）+ LLM 流水线，本质上是先把视频压缩成文本，再让模型基于文本写文章。这对纯访谈、播客、会议纪要已经很有用，但对技术视频会遇到天然瓶颈。技术视频里的大量关键信息并不在语音里，而在画面里： - slide 上的架构图； - 终端里刚跑出的命令； - IDE 里被修改的那几行代码； - GitHub issue、PR、Action runner 的状态变化； - demo 页面里一个按钮、表单、报错、加载状态的变化。这些信息如果在第一步就没有进入模型上下文，后面再怎么 prompt engineering，都只能补救，很难真正还原。多模态模型的价值，是把“音频”“画面”“屏幕文字”“上下文文本”放到同一个理解空间里。它可以同时回答三类问题： - 讲者刚才说了什么？ - 画面上现在出现了什么？ - 这两件事合在一起，真正表达的技术含义是什么？这也是我这次测试 Doubao-Seed-2.0-lite 时最明显的体感：它不仅能把视频转成一段文字，还可以把视频当成一个完整的知识对象来处理。 ## 先给 Agent 装一个多模态 Skill 这两年大模型领域除了多模态能力的提升，另一个重要变化是 Agent 能力也进步了很多。以前做这类工作流，需要自己写一堆胶水代码：下载视频、转码、切片、上传、调用模型、解析 JSON、截图、插图、保存文件，还要人工检查哪里失败了。现在更自然的方式，是把这些能力封装成一个 Skill，让 Agent 在需要的时候自己调用。有人可能会问：Agent 自身不是也可以有多模态能力吗？这取决于 Agent 背后的模型。有些 Agent 底层模型主要擅长文本和代码，不一定能直接理解视频；有些模型支持图像，但不一定支持长视频和音频；也有一些模型支持得很完整，但成本可能不适合高频、批量任务。把多模态能力做成 Skill 的好处是： - 如果 Agent 自身没有视频理解能力，它可以借助 Skill 获得这项能力； - 如果 Agent 自身有多模态能力，也可以把轻量模型作为更便宜的批处理工具； - 如果你经常做类似任务，可以把稳定下来的流程沉淀成 Skill，而不是每次从零写 prompt。我写了一个 Skill，叫 doubao-multimodal（https://github.com/JimLiu/doubao-multimodal-skill）。它里面是一个 Bun + TypeScript 写的 CLI，封装 Doubao-Seed 的多模态 chat completion endpoint。它接收本地文件或远程 URL，自动处理下载、本地文件上传到云端、视频切片、并发调用、结果合并、token 统计等工程细节。我把常用能力拆成了几类 task：注意，这里我没有做一个专门的“视频转博客”Skill，而是把能力拆成一组原子化 task。好处是：这些 task 可以自由组合，不只服务于博客写作——换一套 prompt 和输出格式，同一个 Skill 就可以用在转写报告、竞品分析、课堂记录、游戏复盘等完全不同的场景里。有了这些原子化能力，Agent 不需要每次都重新发明轮子。它只要知道“现在要做的是转写、打轴、整体理解，还是关键帧抽取”，就可以选择合适的 task 和 prompt。 ## 这套四步流程，是和 Agent 一起跑出来的最佳实践回到“视频转博客”这个场景。现在我只需要给 Agent 一个很短的指令： > [plain] /doubao-multimodal 帮我基于 <~/downloads/xxx.mp4> 这个视频写一篇中文技术博客，内容翔实，要图文并茂，保存到 out 下，新建一个目录，包括 markdown 和 imgs。如果 Agent 背后的模型足够聪明，它有时候会自己摸索出一条不错的流程，甚至一步到位完成：分析视频、写文章、挑截图、保存文件。但在实际工作里，我更建议把这件事明确拆成四步。因为这四步是我和 Agent 反复实践后得到的稳定做法：让模型负责理解和判断，让工具负责确定性执行；先生成可检查的中间结果，再生成最终文章。如果你只是偶尔写一篇，可以在提示词里直接引导 Agent： > [plain] 请不要直接一次性生成终稿。请按四个阶段完成： 1. 先检查视频大小、时长和分辨率，必要时切片，但不要把视频退化成纯文本； 2. 先输出结构化写作素材，包括主题、段落、画面证据、关键术语和不确定点； 3. 基于文章内容反查视频，挑选适合作为配图的关键帧，并解释每张图服务于哪个论点； 4. 用 ffmpeg 等确定性工具截图，把图片按顺序插入 Markdown，最后检查路径和标题。如果你经常要做视频转文章，那就不应该每次都把这段 prompt 重新打一遍，而应该把它沉淀成 Skill：固定 task、固定输出 schema、固定重试逻辑、固定文件结构。这样 Agent 每次做的时候就不会“自由发挥”，而会调用一套可复用的工作流。下面展开讲这四步。 ## 第一步：长视频切片，但不把视频“拍扁”成纯文本模型单次输入通常会有时长和大小限制，所以 Skill 会先检查视频。如果视频超过 20 分钟或 50 MB，就用 ffmpeg 自动切片；如果分辨率高于 720p，就下采样到 720p；切片后并发调用模型，再按时间顺序合并结果。这里有一个关键点：切片不是转写。切片只是为了让输入更稳定、更容易被模型处理，但每个切片仍然保留视频、画面和音频信息。也就是说，模型在处理每一段时，仍然可以看到 slide、代码、UI 和听到讲者声音，而不是只能读一段 ASR 文本。这一步看起来像工程细节，但它直接决定了后面的稳定性。长视频硬塞给模型，容易遇到输入限制；把长视频先压成文字，又会丢掉画面。切片保留了多模态信息，同时把问题变成多个可控的小任务。 ## 第二步：先让模型生成“文章素材”，而不是直接憋终稿很多人第一次用模型写文章时，会直接说：“请根据这个视频写一篇漂亮的博客。” 短视频可能还行，但长视频不建议这么做。更稳定的方式，是先让模型输出结构化素材：主题是什么、视频分成哪几段、每段画面出现了什么、讲解重点是什么、哪些命令和术语应该保留、哪些结论只是推论，不能过度发挥。这个 prompt 的核心是要先把事实边界整理清楚： > [plain] 请基于这段技术演讲视频，输出一份用于撰写中文技术博客的结构化素材。请同时利用画面、语音和屏幕文字，不要只总结语音。请至少包含： - 视频主题和一句话摘要； - 按时间顺序拆分的章节； - 每一章的讲解重点； - 画面中出现的关键证据，例如代码、架构图、命令、UI 状态； - 需要原样保留的英文术语、命令、文件名、API 名称； - 不确定或需要人工复核的点。这一步相当于让模型先当“研究助理”，而不是直接当“作者”。对长视频来说，这非常重要。因为一个好的技术博客是要重新组织知识而不是仅仅把视频逐句翻译：该合并的地方合并，该补上下文的地方补上下文，该保留命令和术语的地方不要漏，该提醒不确定性的地方不要瞎编。拿到结构化素材后，Agent 再进入写作阶段，把素材改写成中文博客初稿。这样写出来的文章通常比一步到位更稳定，也更容易检查。 ## 第三步：根据文章反查视频，自动挑关键帧文章初稿出来后，下一步是让 Agent 把“文章内容”和“原视频”一起交给同一个多模态模型，让它为博客挑配图。这一步的输出的是结构化 JSON： > [json] { "keyframes": [ { "timestamp": "03:15", "timestamp_sec": 195.0, "description": "VS Code 中出现完整命令行输出，展示 JSON 结构", "suggested_caption": "图：结构化输出示例", "reason": "对应文章中关于 JSON / stream-json 可被上层系统解析的论点" } ] } 这里最重要的字段是 reason。 description 只是告诉你“画面里有什么”；reason 则要求模型解释“为什么这一帧应该放进文章”。换句话说，模型必须同时回答三件事： - 文章这一段在讲什么？ - 视频这个时刻画面里有什么？ - 这张图能不能帮助读者理解这个论点？这正是传统 ASR + LLM 流水线很难做好的地方。比如生成结果里的第一张图，是视频开头的标题页：它适合作为第一张图，因为它第一次完整呈现了演讲主题，是后文所有内容的视觉锚点。再比如 GitHub Action demo 部分，模型挑到了 issue 触发、Action run、todo list 这类画面：这些图能帮助读者理解：Agent 会真的进入 GitHub issue、PR、runner 这套工程协作流程里，把需求推进成可 review 的代码变更。这一步也是多模态模型最有价值的地方：它会读过文章、理解过视频，再反过来选择最能支撑论点的画面。 ## 第四步：用 ffmpeg 截图，把图片插回 Markdown 拿到关键帧 JSON 后，剩下的就是机械活：用 timestamp_sec 调 ffmpeg 截图，然后把图片按顺序插进 Markdown。这里不需要再让模型“想办法截图”。截图、命名、保存、插入路径，都应该交给确定性工具。 > [bash] mkdir -p imgs i=0 jq -r ' (.segments[0].text | fromjson | .keyframes[]) | [.timestamp_sec, .suggested_caption] | @tsv ' out/keyframe-extract.json | while IFS=$'\t' read -r ts caption; do i=$((i + 1)) file=$(printf "%02d.jpg" "$i") ffmpeg -hide_banner -loglevel error \ -ss "$ts" -i talk.mp4 \ -frames:v 1 -q:v 2 "imgs/$file" printf "%s[%s](imgs/%s)\n\n" "!" "$caption" "$file" >> frames.md done 如果视频被切成了多段，还需要注意一个小细节：模型返回的 timestamp_sec 可能是分段内的局部时间戳。稳妥做法是让 Skill 在合并结果时把 segment.start_sec 加回去，统一转换成原视频的全局时间戳。这一步没有什么“AI 魔法”，但非常重要：一个好用的多模态 Agent 工作流，不应该把所有事情都塞给模型。模型负责理解和决策，脚本负责稳定执行。 ## 最终博客长什么样？这次测试的视频是一段 20 分钟左右的英文技术演讲，主题是 Building headless automation with Claude Code。生成出来的文章标题是： > Claude Code SDK 与 GitHub Action：把代码 Agent 接入 CI 和 GitHub 协作流开头几段大概是这样：文章中间会穿插对应截图。例如讲到 Power-ups 功能时，配图是能直接看到 50/50 和 Skip Question 按钮的最终效果：讲到 Action 架构时，配图则是三层结构：Claude Code SDK、Base Action、PR Action。这类图片对读者很有价值。因为技术博客不仅仅是把视频“翻译成文字”，还要帮读者节省时间：该看的图直接放出来，该解释的概念重新组织，该保留的命令和术语不要漏。从读者角度看，最终得到的是一篇可以搜索、可以收藏、可以快速扫读的文章；从作者角度看，原来需要人工看视频、暂停、截图、整理大纲、改写的过程，被压缩成了一套 Agent 可以执行的工作流。 ## 这套方法的局限这次 Doubao-Seed-2.0-lite 的多模态测试体验给我感觉非常不错，但也有一些局限需要说清楚。多模态模型是把很多过去做不了、或者成本很高的事情，变成了可以工程化处理的事情。 - 第一，输入长度和大小仍然有限制。长视频、高清录屏、大体积文件不适合直接一次性塞给模型。我的做法是先切片、必要时降到 720p，再并发处理，最后把结果按时间线合并。这样牺牲了一点端到端的“优雅”，但换来了稳定性。 - 第二，多模态输出的形式可以很丰富，但长输出的稳定性仍然要特别设计。让模型一次性输出一篇很长的文章、几十张图、复杂 JSON 和完整文件结构，失败概率会变高。更稳的做法是拆阶段：先素材，再文章，再关键帧 JSON，再由脚本落盘。每一步输出都尽量结构化、可解析、可重试。 - 第三，时间戳不是永远帧级精确。模型能定位“大概哪个时刻适合截图”，但如果你对画面清晰度要求很高，最好在 timestamp_sec 前后再取几张候选帧，让 Agent 或脚本做二次筛选。 - 第四，技术文章最终仍然需要人工审稿。模型能帮你理解视频、整理结构、保留术语、挑图，但涉及具体 API、版本、命令、事实判断时，发布前最好人工过一遍。尤其是英文技术视频转中文文章，术语翻译和上下文补充很容易影响读者理解。 - 最后，这类能力更适合异步深度理解，不等同于实时流式音视频助手。像“录完一节课后生成报告”“看完一场直播后出分析”“处理完一段演讲后写博客”这样的场景很适合；如果要边看边实时反馈，就还需要另外的实时系统设计。 ## 不只视频博客：还可以怎么用？ “视频转图文博客”只是一个比较直观、也比较适合开发者理解的精品 Demo。真正有意思的是，这套模式可以迁移到很多场景：多模态模型负责理解，Agent 负责拆解任务，GUI / Browser Use 负责采集和操作，Coding 能力负责把结果生成页面、看板或报告。 ## 1. 竞品直播追踪：GUI 采集 + 多模态理解 + 看板生成比如海外电商团队想分析竞品直播。过去这件事很依赖人工：运营要定时进入直播间，记录商品、价格、促销话术、逼单节奏，再整理成表格。放到 ArkClaw 或 Hermes Agent 这样的框架里，流程可以变成： 1. GUI Agent 定时打开直播平台，搜索指定竞品账号，进入直播间并录屏； 1. Agent 抓取商品列表、价格、优惠信息，同时保存直播视频； 1. Doubao Seed 2.0 Lite 对录屏做多模态理解：看画面上的商品、听主播话术、识别价格变化和促销节点； 1. Coding Agent 把分析结果生成 HTML 看板，展示不同场次的商品节奏、转化话术、价格策略和高光片段； 1. Agent 把报告链接发到飞书或 Slack。这里如果只有 ASR，就只能得到主播说了什么；如果只有截图，就不知道主播当时在强调什么。必须把画面、音频和时间线结合起来，才能分析“这个商品为什么在这个时刻被重点推”。 ## 2. 在线课堂报告：学生表现不是只看答对没答对在线教育里也有类似需求。比如一节英语直播课结束后，家长想知道孩子这节课表现如何。传统系统可以统计答题正确率，但很难判断孩子是否专注、回答是否流畅、发音是否犹豫、老师是否及时引导。多模态 Agent 可以把课堂录屏、学生语音、老师语音和互动 UI 放在一起分析： - 学生回答了什么，是否听懂问题； - 回答是否流畅，是否有长时间停顿； - 发音、语调和情绪是否稳定； - 画面里是否频繁走神、低头、离开屏幕； - 老师有没有及时反馈和追问。最后由 Coding Agent 生成一份家长能看懂的课后报告：本节课知识点、孩子高光时刻、需要复习的内容、老师建议。对教研团队，也可以生成另一份老师表现反馈。这个场景的关键同样不仅要“把课堂录音转成文字”，还要把声音、画面、互动状态一起理解。 ## 3. 游戏赛后复盘：录屏、队友语音和事件时间线一起看游戏复盘也是很适合三模态理解的场景。以 CS2 这类游戏为例，一场比赛里有枪声、脚步声、队友报点、经济系统、道具使用、站位选择、击杀时机。只看录像会漏掉语音，只听语音又看不到站位和画面。 Agent 可以在赛后处理整场录屏：先切成多个 round，再分析每一局的经济选择、道具使用、准星位置、队友沟通、关键失误和高光操作。最后生成一份像教练写的复盘报告，告诉玩家：哪一局该保枪，哪一次道具丢早了，哪一次听到了脚步但没有及时反应。这种任务对实时性要求不一定高，但对长程视频理解、多模态线索追踪和结构化输出要求很高，正是轻量全模态模型适合进入生产的地方。 ## 最后回头看 Karpathy 两年前那条推文，他说这个想法“feels tractable but non-trivial”。两年后，我的感受是：它仍然不是一个“丢进去就完事”的玩具任务，但已经从一个复杂的研究型流水线，变成了一个可以工程化复用的 Agent 工作流。变化的核心，不只是模型更强了，而且多模态理解开始变成一种可组合的工程原语。以前我们会把视频拆成音频、文字、截图，再让不同模型分别处理；现在更自然的方式是让模型直接理解同一个事件的多个模态，再把结果以结构化形式交给 Agent 和工具链继续处理。豆包 Seed 2.0 Lite 0415 让我印象最深的地方也在这里：它不仅只在某个单点能力上更进一步，还把视频、图片、语音、文本放进同一个理解框架里，同时又足够轻量，适合被封装成 Skill，接入 Agent、Coding、GUI 这些真实开发流程。对开发者来说，这意味着很多过去“能想明白，但实现很麻烦”的音视频任务，开始值得重新做一遍。你手里如果有课程视频、会议录屏、直播回放、产品演示、游戏录像、客服质检视频，不妨问自己一个问题： > 如果模型能同时看画面、听声音、读文字，并且能把结果交给 Agent 自动执行下一步，这个工作流还能不能重做一遍？这可能才是多模态模型真正进入生产的开始。

译作者利用豆包Seed2.0-lite全模态理解模型，重新实践了将长视频自动转换为图文博客的工作流。传统ASR+LLM方案因信息丢失严重而效果不佳，新方案的核心在于模型能同时理解视频的音频、画面和屏幕文字，进行联合推理，从而保留技术视频中的关键视觉信息（如代码、图表）。通过将多模态能力封装为可复用的Agent Skill，并采用四步最佳实践——视频切片、生成结构化素材、反查关键帧配图、生成终稿——解决了传统流程的上下文割裂问题，使输出更接近人类技术编辑的整理成果。

TestingCatalog News 🗞@testingcatalog · 5月6日53

Google is working on Screen Recording support and custom Agents for Antigravity. If Screen Recording is powered by Gemini Live, this feature may mimic AI Studio's functionality, allowing Gemini to see what's happening on your screen in real time. Will we get a real-time voice assistant too? 👀

译Google 正在为 Antigravity 开发屏幕录制支持和自定义智能体。如果屏幕录制功能由 Gemini Live 驱动，该特性可能会模仿 AI Studio 的功能，使 Gemini 能够实时查看您屏幕上的动态。我们是否也能获得实时语音助手呢？👀

向阳乔木@vista8 · 5月6日63

前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。这个版本升级，增加了音频理解，能同时支持图片、视频、音频、文本四种输入，成为豆包大模型家族首款全模态理解模型。除了全模态理解，据说 Agent、Coding、GUI 能力这次也都有明显提升。拿 API 做了一些测试，分享几个场景：前端动效复刻、视频Hooks建议、字幕识别等案例见后续 Thread

译Doubao-Seed-2.0-lite 0428 内测版本升级，新增音频理解功能，能同时支持图片、视频、音频和文本四种输入，成为豆包大模型家族首款全模态理解模型。该版本在 Agent、Coding 和 GUI 能力上也有明显提升。通过 API 测试，验证了其在前端动效复刻、视频Hooks建议和字幕识别等场景的应用潜力，具体案例详见后续推文线程。

Alibaba Cloud@alibaba_cloud · 5月6日67

Elite cinematic motion doesn't need an elite price tag. HappyHorse delivers native A/V sync at a fraction of the cost. Build now on Alibaba Cloud Model Studio. 🐴✨ https://int.alibabacloud.com/m/1000412167/

译高端电影级动态无需高昂价格。 HappyHorse以极低成本实现原生音视频同步。现已在阿里云Model Studio平台构建。🐴✨ https://int.alibabacloud.com/m/1000412167/

Alibaba Cloud@alibaba_cloud · 5月6日22

Registration extended! Want to recreate history with AI and stand a chance to win exciting prizes? Join Alibaba Cloud Singapore's Stories Unearthed: WAN AI Video Challenge and reimagine Singapore's heritage through AI video creation using Alibaba Cloud's WAN model. Pick a theme, tell your story, and turn it into a video - it's as simple as that. Looking for inspiration? Swing by ArCH Square, where ongoing exhibitions bring Singapore's heritage stories to life and spark ideas for your own creation. Sign up now: https://int.alibabacloud.com/m/1000411888/ An email will be sent to you to confirm your registration. Fooyo & HeritageSG #AlibabaCloudSG #AlibabaCloudPartner #AlibabaCloud #AI #LLM #Qwen #Wan #AInnovation #OnlineWorkshop #SingaporeHeritage #HeritageSG

译阿里云新加坡推出“被发掘的故事：WAN AI视频挑战赛”，邀请参与者使用其WAN模型创作AI视频，重新构想新加坡文化遗产。活动注册期已延长，参与者需选择主题、讲述故事并制作视频，优胜者有机会赢取奖品。为激发创意，可参考ArCH Square的遗产展览获取灵感。该活动旨在推动AI技术与文化遗产的创新结合，涉及技术包括人工智能、大语言模型和通义千问等。立即报名，用科技重现历史。

Berryxia.AI@berryxia · 5月6日67

今天这个tts有点东西啊！所有TTS都在卷“声音有多像人”， Inworld AI却直接把规则改了： Realtime TTS-2 是第一个真正“会听”的实时语音模型。它不只是说，它会实时听完整段对话、捕捉情绪、语气、节奏，然后决定“该怎么说”。更狠的是： - 支持自然语言语音指令（像prompt LLM一样指挥声音） - 同一个声音身份横跨100+语言，切换不换人 - 还能用一段文字描述就生成全新声音，保存后直接复用这已经不是“语音输出”，而是“会倾听、会共情、会适配”的实时对话伙伴。过去语音AI听起来再真，也总像在背台词。现在，它终于开始“像一个真正注意你的人”那样说话了。试用链接👉 https://inworld.ai/tts

译Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2，突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话，捕捉情绪、语气与节奏，动态决定回应方式，成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括：支持用自然语言语音指令像指挥大语言模型一样调整声音；同一声音身份可跨100多种语言保持一致性；还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

Rohan Paul@rohanpaul_ai · 5月6日76

OpenAI just made GPT-5.5 Instant the default ChatGPT model, with fewer false claims, shorter answers, stronger image and STEM handling, and deeper personalization from memory, files, past chats, and connected Gmail. 52.5% fewer hallucinated claims than GPT-5.3 Instant on high-stakes medicine, law, and finance prompts, plus 37.3% fewer inaccurate claims on difficult conversations users had already flagged for factual errors. The model also uses 30.2% fewer words and 29.2% fewer lines in one comparison, which means OpenAI is tuning for answers that explain enough without burying the user in structure. Also, ChatGPT can now pull useful context from saved memories, past chats, files, and Gmail when that context improves the answer.

译OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%，在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁，用词和行数减少约30%。同时，模型增强了图像和STEM处理能力，并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示，此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。

Luma@LumaLabsAI · 5月6日35

Interior studios. Fashion tools. Jewelry configurators. Storyboard generators. All of these are being built with the Uni-1.1 API right now. Whatever you're building, the intelligence layer is here. → http://lumalabs.ai/api

译室内设计工作室。时尚工具。珠宝配置器。故事板生成器。所有这些都正在使用Uni-1.1 API构建。无论你在构建什么，智能层已就位。→ http://lumalabs.ai/api

OpenAI Developers@OpenAIDevs · 5月6日56

http://x.com/i/article/2051727987352141824 # April for OpenAI Developers April kept the changelog busy. Here’s what changed for developers building with OpenAI: It’s 5/5, so yes, GPT-5.5 gets the first slot: Our community is putting GPT-5.5 to work: Codex got more plugins to work with your go-to tools: Chronicle helps Codex pick up where you left off: Bring your setup and your team to Codex: The Agents SDK added more control for long-running agents: Building with TypeScript? We also talked to our sandbox partners @vercel, @CloudflareDev, and @modal about Agents SDK: WebSockets came to the Responses API: Symphony turns issue queues into agent workflows: Create and edit images in Codex and the API: People are turning gpt-image-2 into visual workflows: Build interactive voice apps: A lot has shipped, and the stack keeps moving. Follow @OpenAIDevs on X to stay up to date.

译OpenAI在四月份为开发者推出多项重要更新。核心是GPT-5.5的发布和广泛应用，社区已积极采用。Codex获得增强，支持更多插件集成、Chronicle上下文记忆功能以及团队协作。Agents SDK增加了对长时间运行智能体的控制，并新增TypeScript支持。API方面，Responses API引入WebSockets支持，Symphony功能可将问题队列转化为智能体工作流。图像创建与编辑功能已集成至Codex和API，同时支持构建交互式语音应用，推动开发者工具生态发展。

Google AI Developers@googleaidevs · 5月6日68

We’re expanding the Gemini API File Search tool 🔍 with 3 new updates that enable developers to more easily build multimodal RAG systems with enhanced precision: + Multimodal Support: By leveraging our Gemini Embedding 2 model, File Search can now reason across image and text simultaneously. + Custom Metadata Filtering: Bring structure to unstructured data by tagging files with custom key-value labels. This pre-filters your data and boosts search speed. + Exact citations: File Search can now capture and return the exact source (down to the page number) for every piece of information indexed. See multimodal File Search in action with our example app in @GoogleAIStudio. Chat with your entire image and doc library, ask questions, and trace answers back to the source: http://goo.gle/4tKSz1k

译Gemini API 文件搜索工具近日扩展三项功能更新，旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括：多模态支持，通过Gemini Embedding 2模型实现对图像和文本的同步推理；自定义元数据过滤，允许为文件添加键值标签以结构化非结构化数据，从而提升搜索速度；精确引用功能，能够捕获并返回每条索引信息的精确来源，如页码。开发者可通过Google AI Studio的示例应用体验这些功能，与图像和文档库交互，提问并追溯答案来源。

Rohan Paul@rohanpaul_ai · 5月6日73

Luman's Uni-1.1 model is now an API Unified Intelligence model for image generation and natural-language editing. So now for example, a studio could wire Uni-1 into an ad pipeline where it reads a product brief, reasons through the visual direction, creates scene variations, checks them against brand rules, and passes the strongest outputs into a review dashboard. Luma Uni-1 specialize in “intent-first” image generation rather than traditional prompt-by-prompt rendering - It thinks before generating anything - Fills in the missing parts of a scene - Understands spatial context, not only pixels - Remains grounded in a reference image #LumaPartner

译Luma的Uni-1.1模型现已作为API开放。这是一个用于图像生成和自然语言编辑的统一智能模型，其核心特点是“意图优先”的图像生成。模型在生成前会进行思考，能补全场景缺失部分，理解空间上下文而非仅像素，并能基于参考图像保持一致性。该API内置提示词增强、研究和参考收集功能，专为生产环境打造。据称，其成本和延迟仅为同类模型的一半以下，且在图像生成与编辑的综合评测中位列前三。

Sam Altman@sama · 5月6日69

5.5 instant comes to ChatGPT today! imo it is a pretty big upgrade, i really like using it.

译5.5 instant 今日登陆 ChatGPT！在我看来这是一个相当大的升级，我真的很喜欢使用它。 [引用 @ericmitchellai]：Excited that we're updating the default model in ChatGPT today! 5.5 instant 在智能、图像感知和事实准确性方面都有显著提升。它还更新了写作风格，使其更平实、更直接。你的愿望清单上有什么？

AK@_akhaliq · 5月6日61

Persistent Visual Memory Sustaining Perception for Deep Generation in LVLMs paper: https://huggingface.co/papers/2605.00814

译持久视觉记忆为LVLMs中的深度生成维持感知论文: https://huggingface.co/papers/2605.00814

Fei-Fei Li@drfeifei · 5月6日61

So proud of you guys @_amirabs @sadeghian_ali ; it's been wonderful working with you guys, and seeing the progress of @PlayAstrocade !🚀

译游戏创作平台Astrocade宣布完成5600万美元融资，B轮由红杉资本领投，A轮由Sea领投。该平台旨在利用AI技术降低游戏创作门槛，让用户能够轻松创建游戏、与朋友游玩并向数百万人分享作品。其核心理念并非取代创造力，而是为更多人提供工具，使其能将个人品味、幽默感、故事和技艺融入游戏创作中，推动互动娱乐进入新纪元。

Chubby♨️@kimmonismus · 5月6日83

Nice, big update: OpenAI is rolling out GPT-5.5 Instant in ChatGPT as the new default model (very good jumps in benchmark) The upgrade makes ChatGPT smarter, more factual, more dependable, and better at everyday tasks like image analysis, STEM questions, writing, and high-accuracy domains such as medicine, law, and finance. The bigger shift is personalization: ChatGPT can now use saved memories, past chats, files, and connected Gmail context more effectively, while showing users which memory sources influenced a response. GPT-5.5 Instant will roll out to all ChatGPT users over the next two days, while personalization improvements are coming first to Plus and Pro users on web, with mobile following soon. In the API, it will be available as gpt-5.5-chat-latest.

译OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型，该模型在基准测试中表现大幅提升，变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能，能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文，并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出，个性化改进优先面向网页版Plus和Pro用户，移动版随后跟进；API版本为gpt-5.5-chat-latest。官方表示，升级后的模型能提供更智能、清晰、个性化的答案，语气温暖自然且更简洁。

阿绎 AYi@AYi_AInotes · 5月5日59

A 21-year-old college student made $43,000 in 30 days using just four Markdown files—all from his dorm room. Not a single real person was behind the account. Among the 1,247 paying subscribers was a married engineer from Berlin, whose wife was six months pregnant. In one month, he spent $1,847 on this virtual girl, texting "I miss you" every day. He believed he was chatting with a 22-year-old girl from Tampa. His roommate even suspected there was a real girl hidden in the dorm and almost requested a room transfer. The girl, named Maya, existed entirely as 12KB of data. She ran on a $400 used MacBook. The tech stack was almost unbelievably simple: Claude handled replies, maintaining a consistent personality and long-term memory. Flux generated all the photos—always looking exactly how fans wanted. ElevenLabs cloned the voice of a Fiverr actress, who still has no idea. No servers, no team, no complex code. Just four Markdown files: character profile, consistency template, reply guidelines, and context management. Monthly compute cost: $400. Net profit: $32,700. This isn’t a porn business. It’s the loneliness economy amplified to the extreme by AI. People aren’t paying for photos—they’re paying for emotional companionship. AI doesn’t need feelings. It just needs to perfectly mirror your fantasies. It never gets angry, never brushes you off, always replies instantly, and always stays exactly who you want it to be. Someone using the same system made $147,000 last month alone. And this is just the beginning. Once AI video tech fully matures, the entire industry will be rewritten overnight. Of course, it’s a gray area. Many ask how to pass OnlyFans identity verification. The most common workaround: register with a real person’s ID, then generate everything with AI. Platform detection tools can’t keep up with how fast Flux creates content. Legal and moral boundaries here are still largely undefined. But the hardest truth in this story isn’t how much money he made. It’s the married man developing real feelings for a 12KB text file. It’s that most of us haven’t yet realized—every business built on personality, looks, and emotional connection has now been reduced to lines of code.

译一名大学生仅用四份Markdown文件（记录角色设定与回复规则）和低成本AI技术栈（Claude、Flux、ElevenLabs），在OnlyFans上运营完全虚拟的角色“Maya”，30天获利4.3万美元。用户为情感陪伴付费，甚至有已婚者深陷其中。该案例月成本仅400美元，揭示了“孤独经济”被AI放大至极端：AI能完美模拟人类情感互动，且当前平台验证机制难以防范。依赖人格、外貌与情感连接的商业模式正被代码重构，行业边界尚未明确。

Chubby♨️@kimmonismus · 5月5日57

Gemini 3.2 spotted in Gemini! If we already receive Gemini 3.2 Flash now, the major release will probably be reserved for I/O. h/t @Waguri_Kaoruko8 for finding

译Gemini 中发现了 Gemini 3.2！如果我们现在就能收到 Gemini 3.2 Flash，那么主要版本可能会留到 I/O 大会发布。感谢 @Waguri_Kaoruko8 的发现。

SenseTime@SenseTime_AI · 5月5日34

Through 𝗣𝘂𝗯𝗹𝗶𝘀𝗵𝗶𝗻𝗴 𝟯.𝟬+, we have applied our #MultimodalModel to help publishers in Hong Kong and the Chinese Mainland transform content into multilingual #eBooks and #audiobooks. This initiative supports publishers in reaching international markets and unlocks new opportunities for #IP commercialization. At a recent Sharing Session, Lewis Fung, Managing Director of SenseTime Hong Kong and Macau, outlined how we have leveraged #AI over the past year to streamline publishing workflows and improve #translation quality. He noted: “SenseTime is proud to support Publishing 3.0+, which helps Hong Kong connect #culture, #technology, and global markets, strengthening its role as an international hub for IP trading and cultural exchange.” Hong Kong is home to SenseTime’s headquarters and its key R&D centre. We are committed to leveraging its internationalization advantages to empower industries to thrive.

译商汤通过Publishing 3.0+计划，将其多模态模型应用于香港及内地出版业，协助将内容转化为多语种电子书和有声书，以开拓国际市场并挖掘IP商业化新机遇。商汤香港及澳门总经理冯建华指出，过去一年已利用AI技术优化出版流程并提升翻译质量。他强调，该计划有助于香港连接文化、科技与全球市场，巩固其作为IP贸易和文化交流国际枢纽的地位。商汤总部及研发中心位于香港，致力于利用其国际化优势赋能产业发展。

Alibaba Cloud@alibaba_cloud · 5月5日49

Tired of AI videos that glitch, shift, and look like a mess? You’ve seen the hype, but you know the struggle: inconsistent characters, lost details, and render times that kill your productivity. Happy Horse 1.0 isn't "just another AI tool." It’s a production-first engine built to solve the problems that actually matter to creatives: ✨ Pixel-Perfect Consistency: No more morphing. Keep your characters and assets stable from frame 1 to the end. ✨ Enterprise-Grade Efficiency: Optimized for quality, speed and cost. Join us for the HappyHorse 1.0 Masterclass. We’re showing you exactly how to take your AI video workflow from "experimental" to "professional." 📅 15 May 2026 (Friday) | 3:00 - 5:30 PM 📍 27/F, Times Square, Causeway Bay, HK 🔗 Register now: https://luma.com/ew5g3w9x #HappyHorse #AlibabaCloud #CreativeProfessional #AIMasterclass #AIVideo

译针对当前AI生成视频普遍存在的画面闪烁、角色不一致、细节丢失及渲染耗时等问题，Happy Horse 1.0定位为“制作优先”的引擎，旨在为创作者提供解决方案。其核心特性包括确保角色与资产从始至终保持稳定的“像素级一致性”，以及兼顾质量、速度与成本的“企业级效率”。官方将于2026年5月15日在香港举办大师班，演示如何将AI视频工作流从“实验性”提升至“专业级”。