前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

译前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入，并实时思考与响应，而非通过Agent串联多个独立模型。其架构分为两部分：前台交互模型以200毫秒为节点处理输入并维持用户“在场感”，支持随时打断；后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作，最终呈现为一个既能实时交互又能处理重度任务的统一界面。

elvis@omarsar0 · 5月12日43

Early days but what’s most impressive is how natural the interactions are becoming with these omnimodels. Real-time, low-latency interactive AI models unlock applications that are very hard to imagine today. Brace yourselves!

译尽管处于早期阶段，但最令人印象深刻的是与这些全能模型（omnimodels）的交互正变得极为自然。实时、低延迟的交互式AI模型将解锁当今难以想象的应用场景。其核心在于，AI能够像人类一样，同时进行交谈、倾听、观察、思考和协作，实现与人的实时同步工作模式。这种交互模型的突破，预示着人机协作将进入一个全新的阶段。

Berryxia.AI@berryxia · 5月12日57

Apple 一直其实在赌端侧模型的应用！统一架构内存就是端侧模型的天然温床！统一内存也就是，内存即显存。也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了，我看完觉得现在小模型在边缘设备上真的越来越能打。它重点做了高分辨率视觉处理，专门针对消费级硬件和手机优化。他们用了 LLaVA-UHD v4 的新技术，直接把视觉编码成本砍了 55%，让模型能在普通手机和电脑上原生跑起来，效率高得离谱。实际测下来，它在几个关键多模态基准上超过了 Gemma4-E2B-it 和Qwen3.5-0.8B，而且用的 token 只有后者的 2.5%。速度方面也特别能看：在 RTX 4090 上处理 3136² 高清图片时，首 token 时间只要 75.7ms，比 Qwen3.5-0.8B 快 2.2 倍，token 吞吐量还高出 1.5 倍左右。技术上他们玩了 Intra-ViT 早期压缩和混合 4x/16x 视觉压缩，基本把分辨率和延迟的曲线拉平了，想象一下以后手机上直接跑高分辨率视觉任务都不会卡。对开发者来说也特别友好：iOS、Android、HarmonyOS 部署代码全开源，几步就能跑起来。消费级 GPU 上就能 fine-tuning，还原生支持 SGLang、vLLM、llama.cpp、Ollama，GGUF、BNB、AWQ、GPTQ 各种量化格式都有，直接就能用。 Hugging Face、GitHub、Modelscope、网页 demo 和 App demo 都放出来了，想玩的同学可以直接去试。我改天搞个demo看看😂

译推文指出Apple的统一内存架构是端侧AI的理想平台。同时，OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型，且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时，首token延迟仅75.7ms，速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩，有效平衡了分辨率与延迟。其部署友好，支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式，相关资源已在各大平台开源。

Ethan Mollick@emollick · 5月12日65

gpt-realtime-2 is a great voice model (with a typically bad OpenAI name). Voice models are natively processing speech, not transcribing it, so the intelligence of the model matters. The old voice model was GPT-4o level, this is much smarter (how smart? OpenAI gave no benchmarks)

译gpt-realtime-2 是一个出色的语音模型（名字却沿袭了OpenAI一贯的糟糕风格）。语音模型本质上是处理语音，而非转录语音，因此模型的智能程度至关重要。旧版语音模型是 GPT-4o 级别，而新版则智能得多（有多智能？OpenAI未提供基准测试数据）。

Ethan Mollick@emollick · 5月12日52

Haven’t tried this but it seems very neat… Yet all of the demos (except maybe one) are the model being fun and/or annoying by correcting or reminding in real time. There are obvious uses for this sort of model in meetings, education, training, etc. Why not demo valuable cases?

译当前多数AI实时交互演示侧重于模型的趣味性纠正功能，但评论指出此类模型在会议、教育和培训等领域具有明确实用价值。被引用的研究团队强调其AI设计能像人类一样同步实现交谈、倾听、观察、思考与协作，这种多模态实时交互能力正是支撑会议记录、协作培训等核心应用场景的技术基础。

Nathan Lambert@natolambert · 5月12日46

This is the demo that hits me as being genuinely different -- both model and user talking at once! Great stuff. Congrats on the release @thinkymachines

译这是那个让我感到真正不同的演示——模型和用户同时说话！太棒了。祝贺发布 @thinkymachines

Artificial Analysis@ArtificialAnlys · 5月12日62

OpenBMB, a Tsinghua University / ModelBest open weights collaboration, has released MiniCPM-V 4.6 1.3B Instruct, a tiny, non-reasoning model that scores 13 on the Artificial Analysis Intelligence Index This model sits 3 points ahead of Qwen3.5 0.8B (Non-reasoning, 10) and 2 points behind Qwen3.5 2B (Non-reasoning, 15) on the Intelligence Index, establishing a new Pareto-optimal point on our Intelligence vs. Total Parameters chart. Tiny models are useful for efficient inference and on-device use cases. MiniCPM-V 4.6 1.3B Instruct is a vision-language model that supports text, image, and video input with text output. @OpenBMB is a China-based lab jointly founded in 2022 by Tsinghua University’s NLP Lab and ModelBest Inc. The model’s weights have been released under an Apache 2.0 license on Hugging Face. Key results: ➤ At 1.3B parameters, MiniCPM-V 4.6 1.3B Instruct scores 13 on the Artificial Analysis Intelligence Index, the highest for any open weights model under 2B parameters. The next-most-intelligent open weights model at comparable scale is Qwen3.5 0.8B (Reasoning, 11) and used 43x as many tokens to run the Intelligence Index; Qwen3.5 2B which scores 16 (Reasoning) and 15 (Non-reasoning) requires 1.7x as many parameters (2.27B). MiniCPM-V 4.6 1.3B Instruct also tops sub-2B open weights on MMMU-Pro, scoring 38%. ➤ MiniCPM-V 4.6 1.3B Instruct extends the open weights Pareto frontier for Intelligence vs. Total Parameters. Because the model is dense, total and active parameter counts are both 1.3B, so it pushes both frontiers. The next-most-intelligent sub-2B model (Qwen3.5 0.8B (Reasoning), 11) lands 2 points behind, despite also using a reasoning mode. ➤ MiniCPM-V 4.6 1.3B Instruct is highly token efficient, and used just 5.4M output tokens to run the Intelligence Index, ~19x fewer than Qwen3.5 0.8B (Non-reasoning, 101M) and ~43x fewer than Qwen3.5 0.8B (Reasoning, 233M). This is the lowest output token count measured for any open weights model under 4B total parameters scoring 10 or above on the Index (next-lowest is Ministral 3 3B at 15.5M). ➤ MiniCPM-V 4.6 1.3B Instruct supports native multimodal input, including text, image, and video, and scores 38% on MMMU-Pro. This is the highest visual reasoning score measured for any open weights model under 2B parameters, ahead of LFM2.5-VL-1.6B (27%) and Qwen3.5 0.8B (Non-reasoning, 26%). Video input at this parameter scale is uncommon. ➤ Knowledge recall is low, in line with other sub-2B models. AA-Omniscience is -85, in the typical range for sub-2B non-reasoning models (Qwen3.5 0.8B (Non-reasoning) at -89, Exaone 4.0 1.2B (Non-reasoning) at -83), and 2 points behind Qwen3.5 2B (Non-reasoning) at -83 (1.7x the parameter count). Additional model details: ➤ Size: 1.3B total parameters (dense) ➤ Context window: 262K ➤ Precision: BF16 ➤ License: Apache 2.0 ➤ Providers: No confirmed providers on release

译清华大学与ModelBest合作的OpenBMB发布了MiniCPM-V 4.6 1.3B Instruct模型。这款仅13亿参数的多模态小模型在Artificial Analysis智能指数上获得13分，成为2B参数以下开源模型中得分最高的，刷新了该规模模型的帕累托前沿。它在MMMU-Pro视觉推理基准上也达到38%，领先同类小模型。模型支持文本、图像和视频输入，并具有极高的令牌效率，运行测试仅需540万输出令牌，远低于对比模型。其权重已在Hugging Face以Apache 2.0许可证开源。知识回忆能力与其他2B以下模型相当，处于较低水平。

Berryxia.AI@berryxia · 5月12日58

没错，未来AI协作的形态应该就是这样！真正的实时AI协作，从来不是等你说完再回答，更像是像人一样同时说话、听、想、看、协作。 Thinking Machines 今天把这个被所有人忽略的真相直接干出来了。他们设计了一个全新的交互模型，能在真实对话里自然地插话、跟踪对方思考、自纠错、邀请回应。还能边听你说话边搜索、边回应边画图，完全没有死板的轮流对话机制。视频里那些场景太真实了：AI 陪人讲故事时知道什么时候该插嘴。帮父母管住孩子奇葩想法，团队玩 trivia 时悄悄搜索答案却不让对方察觉…… 这已经不是“语音助手”，而是真正能一起共事的伙伴。大多数语音AI还在玩“说完我再回”的老把戏，这家直接把人类协作的 messy 本质还原了。技术报告和演示值得立刻看👉 https://thinkingmachines.ai/blog/interaction-models/ 你觉得未来AI真正的突破，是模型更聪明，还是交互方式终于像人了？

译Thinking Machines公司突破传统AI轮流对话模式，提出并实现了一种模拟人类实时协作的交互模型。该模型允许AI在对话中自然插话、跟踪对方思考、自我纠错并邀请回应，同时能并行执行听、说、搜索、绘图等多任务。演示显示，AI能在陪伴讲故事、团队知识竞赛等场景中进行实时且隐蔽的协作。其核心在于还原人类协作“混乱”并发的本质，推动AI从被动助手转向真正的工作伙伴，标志着交互方式的重大进步。

swyx 🌉@swyx · 5月12日64

I believe the kids call this "@thinkymachines just brutally framemogged gdm and oai". basically everyone's definition of "realtime" just got a massive frciking upgrade

译我相信年轻人会这样形容：“@thinkymachines 刚刚残酷碾压了gdm和oai”。基本上所有人的“实时”定义都得到了巨大升级。

swyx 🌉@swyx · 5月12日62

lowkey the funniest videos of the batch. thinky has some comedians!! congrats to @thinkymachines on reviving the omnimodel dream that others could not

译低调地说，这批视频中最有趣的。thinky 有一些喜剧演员！！祝贺 @thinkymachines 复活了其他人未能实现的 omnimodel 梦想。

Chubby♨️@kimmonismus · 5月12日64

I think this is bigger than it sounds at first glance. Thinking Machines hasn't just unveiled "ChatGPT, but better." Instead, they've introduced something that addresses a much deeper issue: the very way we interact with AI. So far, AI often feels like email with very clever replies. I say something. Then the model waits. Then it replies. Then I wait. Thinking Machines' new Interaction Model attempts to break down precisely this barrier. It can simultaneously listen, see, speak, interrupt, react, think in the background, and use tools. Not as a cobbled-together pipeline of speech-to-text, turn detection, and agent hacks, but as a native model capability! Good collaboration doesn't happen because someone gives a perfect answer in the end. It happens because someone is present in the moment. If this works, AI shifts from "prompt in, answer out" to something that feels more like collaborative work. A model that notices when you hesitate. That jumps in when it sees something. That anticipates your next move while you speak. That not only gets smarter, but also better at maintaining a flow of conversation with people. ngl really impressed by their examples.

译Thinking Machines公司发布的新型交互模型，旨在从根本上改变人机协作模式。该模型能够原生地同时实现聆听、观看、说话、打断、反应、后台思考和使用工具，而非依赖语音转文本等拼接技术。其目标是将AI从被动的“一问一答”工具，转变为能感知用户犹豫、主动介入、预测下一步并维持流畅对话的实时协作伙伴。这标志着AI交互范式从提供最终答案，转向在协作过程中保持“在场”的根本性转变。

Lilian Weng@lilianweng · 5月12日68

In the past few months, we had a lot of fun (and stress 😅) to produce 12 versions (+ many subversions) and 137 pages in our training run log book. Turns out human-human collaboration is important to improving human-AI collaboration. 😊

译团队通过数月高强度工作，完成了12个主要版本及137页的训练运行日志。这一过程揭示，有效的人与人协作是提升人-AI协作质量的关键。受此启发，团队借鉴人类实时交谈、倾听、观察、思考与协作的并行模式，设计了一种能以此方式与人协同工作的新型AI。相关博客文章分享了该方法、早期成果及模型的实际运行演示。

🚨 AI News | TestingCatalog@testingcatalog · 5月12日52

Google keeps preparing its upcoming Gemini Omni models for the release. > Gemini Omni model will be available on APIs as well > The model will be considered as Agent, similarly to Deep Research on AI Studio Soon? 👀 P. S. Just a reminder that Nano Banana 1 wasn’t better than Imagen v4

译谷歌持续为其即将推出的Gemini Omni模型做发布准备。 > Gemini Omni模型也将通过API提供 > 该模型将被视为智能体，类似于AI Studio上的深度研究功能快了吗？👀 附：提醒一下，Nano Banana 1并未优于Imagen v4

阿绎 AYi@AYi_AInotes · 5月12日71

Damn，Karpathy这条帖子直接把我过去半年的AI工作流全推翻了🤯 大家都在死等更强的模型，死等更大的上下文窗口，但Karpathy说，你们全搞错方向了，现在AI最大的瓶颈，根本不是模型不够聪明，是我们还在用文本这种最低带宽的方式，跟它沟通。他推荐了一个所有人今天就能用的trick，在任何query的最后加一句： "structure your response as HTML" 然后让Claude直接帮你打开，出来的效果好到离谱，不仅仅是多了点颜色和排版，更像是你终于给AI打开了大脑里那片10车道的视觉超级高速公路，同样的内容，HTML的阅读效率和理解深度，是Markdown的10倍以上，这简直就是人机交互的真正下一代范式，因为人类的输入和输出偏好，天生就是完全不对称的，输入最自然的是音频，说话比打字快4倍，思考也更连贯，输出最擅长的是视觉，我们大脑1/3的皮层，全用来处理视觉信息，而我们现在，却在用文本这种单车道的土路，双向跑所有的流量， Karpathy画了一条清晰的演进路线：原始文本 → Markdown → HTML → 交互式神经视频，我们现在正站在Markdown到HTML的转折点上，最令人兴奋的是，很多人说HTML费token，生成慢，但你算一笔账就懂了，多花2倍的token，换你10倍的阅读速度和理解深度，这是全世界最划算的交易了吧哈哈，可惜我们早就被省token的思维绑架了，却忘了人类的时间才是真正的稀缺资源，还有一个更扎心的认知， Markdown是给AI看的格式， HTML是给人用的格式， AI代理之间沟通，用Markdown甚至JSON都没问题，但所有最终要给人类消费的东西，都应该切成HTML，这才是最优的分工，现在我已经把所有prompt的结尾，都加上了那行字，做对比用并排表格，做分析用彩色标注，做原型用交互式滑块， AI不再是给我甩一大段干巴巴的文字让我啃，它直接给我造了一个可交互的视觉思考空间， Karpathy说，人机的心智融合才刚刚开始，我们根本不用等Neuralink那种脑机接口，先把HTML用起来，就是当下能摘到的最大最甜的低垂果实🍒 #AI #Karpathy

译Andrej Karpathy指出，当前AI发展的核心瓶颈并非模型能力，而是低带宽的文本交互方式。他建议在向大模型提问时要求“以HTML格式构建回答”，并在浏览器中查看结果。由于人类大脑约三分之一皮层专司视觉处理，HTML提供的丰富视觉呈现能带来远超Markdown的阅读效率与理解深度。他认为人机交互正从Markdown向HTML演进，虽然后者消耗更多token，但用少量成本换取人类时间效率是值得的交易。最终，给人消费的内容应优先采用HTML格式，而AI代理间则可用Markdown或JSON沟通。

Andrej Karpathy@karpathy · 5月12日73

This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the generated file in your browser. I've also had some success asking the LLM to present its output as slideshows, etc. More generally, imo audio is the human-preferred input to AIs but vision (images/animations/video) is the preferred output from them. Around a ~third of our brains are a massively parallel processor dedicated to vision, it is the 10-lane superhighway of information into brain. As AI improves, I think we'll see a progression that takes advantage: 1) raw text (hard/effortful to read) 2) markdown (bold, italic, headings, tables, a bit easier on the eyes) <-- current default 3) HTML (still procedural with underlying code, but a lot more flexibility on the graphics, layout, even interactivity) <-- early but forming new good default ...4,5,6,... n) interactive neural videos/simulations Imo the extrapolation (though the technology doesn't exist just yet) ends in some kind of interactive videos generated directly by a diffusion neural net. Many open questions as to how exact/procedural "Software 1.0" artifacts (e.g. interactive simulations) may be woven together with neural artifacts (diffusion grids), but generally something in the direction of the recently viral https://x.com/zan2434/status/2046982383430496444 There are also improvements necessary and pending at the input. Audio nor text nor video alone are not enough, e.g. I feel a need to point/gesture to things on the screen, similar to all the things you would do with a person physically next to you and your computer screen. TLDR The input/output mind meld between humans and AIs is ongoing and there is a lot of work to do and significant progress to be made, way before jumping all the way into neuralink-esque BCIs and all that. For what's worth exploring at the current stage, hot tip try ask for HTML.

译作者认为，AI的人机交互界面正从当前的Markdown默认输出向更丰富的HTML格式演进，后者能提供更好的图形、布局和交互性。长远看，由扩散神经网络直接生成的交互式神经视频或模拟将是终极输出形式，但其如何与精确的传统软件结合仍是开放问题。在输入侧，仅靠音频、文本或视频并不足够，需整合如手势指点等更自然的交互方式。总体而言，在迈向脑机接口之前，人机输入输出的融合仍有大量工作要做。现阶段的一个实用建议是尝试让大语言模型以HTML格式结构化其回复。

🚨 AI News | TestingCatalog@testingcatalog · 5月11日55

GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model, including a Pro variant. And I assume what we see isn't Pro? Anime sample 👀

译谷歌即将推出的Gemini Omni视频模型在视频编辑方面预计将显著进步，能够完成去除水印、替换视频中物体等复杂任务。该模型可能发布两个版本，包括一个Pro变体。引用推文展示了该模型的实际编辑效果，对比了原始视频与编辑后的视频，并证实其在去除水印方面表现优异。

凡人小北@frxiaobei · 5月11日49

Tesla 的 FSD 的对比还是挺震撼的，左边人眼看到的完全是一片白茫茫的眩光，右边AI重建出来的画面却清晰可辨。简单科普一下这个技术：你手机拍太阳方向会一片白对吧？这是因为相机要把光信号处理成人看得懂的照片，亮的地方直接爆掉了。但传感器本身其实记录了每个像素接收到多少光子，这些数据还在，只是被 ISP 直接给扔掉了。 Tesla的做法是跳过ISP，把传感器的原始光子计数直接喂给神经网络。光子计数保留了完整的光强信息，AI从中重建出场景细节，所以右图能在一片白里看到路、树、车。一个不恰当的比喻，把一本学术论文改写成通俗读物，普通人更容易读了，但专家反而觉得关键细节被删了。

译Tesla FSD通过跳过图像信号处理器，直接处理传感器记录的原始光子计数数据，而非传统相机处理后的人眼可见RGB图像。光子计数保留了完整的光强信息，神经网络据此重建出细节清晰的场景。这使得FSD在夜间或强眩光等极端视觉条件下，能超越人眼感知，从一片白茫茫中识别出路、树、车辆等关键信息，实现更优的视觉感知能力。

向阳乔木@vista8 · 5月11日56

本周Huggingface暂时第一名的论文：MACE 用MoE构架做音乐驱动舞蹈视频。哈哈哈，感觉抖音AI跳舞视频估计要更真了。 https://blog.qiaomu.ai/ai-dancing-to-music

译本周Huggingface排行榜上，MACE论文暂时位列第一。该研究采用混合专家（MoE）架构，实现了根据音乐生成舞蹈视频的任务。这一技术进展被认为将显著提升类似抖音平台上AI舞蹈视频的真实感与表现力。

Alibaba Cloud@alibaba_cloud · 5月11日30

Join the AInnovation Summit at VivaTech! Explore how AI drives real business impact with Qwen, Wan, HappyHorse & HappyOyster. 📅 June 17, 15:00 CEST 📍 Paris Expo Porte de Versailles #VivaTech #AlibabaCloud #AInnovationSummit

译加入VivaTech的AInnovation峰会！探索AI如何通过Qwen、Wan、HappyHorse与HappyOyster驱动实际商业影响。 📅 6月17日中欧夏令时15:00 📍 巴黎凡尔赛门展览中心 #VivaTech #AlibabaCloud #AInnovationSummit

AK@_akhaliq · 5月11日58

MACE-Dance Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

译MACE-Dance 用于音乐驱动舞蹈视频生成的运动-外观级联专家模型

🚨 AI News | TestingCatalog@testingcatalog · 5月11日61

GOOGLE I/O 🔥: New evidence of the upcoming Gemini Omni vide model has been spotted on the Gemini mobile app. A video sample below 👀 > "Meet our new video model. Remix your videos, edit directly in chat, try a template, and more." > Based on the description, we might be really talking about the true "Omni" model based on Gemini, rather than Veo. > It also seems to be quickly consuming usage limits, based on early tests. "Usage" is a new tab that will be available on both the web and mobile.

译在Google I/O期间，Gemini移动应用中发现了即将推出的Gemini Omni视频模型的新证据。该模型被描述为“我们的新视频模型”，功能包括混剪视频、在聊天中直接编辑以及使用模板等。分析指出，这可能是基于Gemini的真正“Omni”模型，而非Veo。早期测试显示，该模型会快速消耗使用额度，且网络和移动端应用都将新增一个“使用情况”标签页来追踪用量。

Berryxia.AI@berryxia · 5月11日68

兄弟们。手撸3D 拆解图，指日可待啊！本来以为AR 3D拆解教学早就走到瓶颈了没想到突然被AI重新盘活！很多人不知道英国公司JigSpace 很早就在iPad上用3D+ARkit做各类立体模型飞机发动机、电脑主机这类硬核拆解早就做成熟了我刚亲自实测用Cursor里的Claude opus 4.7 直接做出了手表、冰箱柜的AR拆解教学能直观3D拆解每一个部件每一步还有详细文字标注整个演示流程已经完全跑通后续还有很大优化空间最让人惊喜的是可以服用给小孩科普生物细胞、植物光合作用都能用这套方式直观教学有现成模型就直接用开源资源没有模型也能用极低成本快速搭建未来科普教学真的要换一种方式了如果你们觉得有价值，可以一键八连啊！我可以将其开源给大家免费使用啊！！！！！

译AI技术正重新激活AR 3D拆解教学领域。利用Cursor中的Claude opus模型，可快速生成手表、冰箱等物体的AR拆解教学演示，实现部件3D可视化与步骤标注，流程已跑通且成本低。该方案未来可广泛应用于硬核设备拆解及生物细胞等科普教学。对于精度要求不高的展示，可直接利用Apple官方免费3D模型库或KhronosGroup等开源资源快速搭建，JigSpace则是成熟的教学互动应用范例。这预示着科普教学方式将迎来新的变革。

StepFun@StepFun_ai · 5月11日29

Google I/O week pulls the AI builder world into the Bay Area. We're powering SEAMATE x Linkloud's Front Row meetup on May 16, a builder-only room of ~500 founders & devs working on agents, multimodal, and AI-native infra. Our team is on the "Apps That Agents Actually Use" panel with Principle and Google. Plug and Play, Sunnyvale. May 16, 3pm. If you're in town, come say hi! http://luma.com/ai-native-developers-io-week?tk=fpHHGw

译谷歌I/O周将AI构建者聚集至湾区。我们为SEAMATE x Linkloud的Front Row聚会提供支持，这场仅限构建者参与的活动将于5月16日举行，约500名专注于智能体、多模态和AI原生基础设施的创始人及开发者将齐聚一堂。我们的团队将参与"智能体实际应用"专题讨论，与Principle和谷歌同台交流。地点：Plug and Play，桑尼维尔。5月16日下午3点。若您身在当地，欢迎前来交流！ http://luma.com/ai-native-developers-io-week?tk=fpHHGw

elvis@omarsar0 · 5月11日66

This is just mindblowing stuff! I couldn't resist replicating this workflow to generate 3D biological structures. In a few minutes, I designed an artifact specifically built to generate these for any topic. Stack: - HTML Artifact to view diagrams - Gemini Nano Pro for concept generation - Tripo for generative 3D - Codex for assembling everything AI will exponentially accelerate learning and democratize high-quality education. Stay tuned! We have a few releases on this front.

译作者受启发复现了一个利用AI工具栈快速生成3D生物结构的工作流。该流程整合了Gemini Nano Pro生成概念、Tripo进行3D生成、Codex组装代码，并通过HTML构件实现交互式查看。作者认为，此类AI应用将指数级加速学习过程，并推动高质量教育的民主化。其灵感来源于@DilumSanjaya展示的利用GPT生成UI、Gemini编写代码来创建交互式科学探索应用的概念。

小互@xiaohu · 5月10日58

兄弟们这个创意牛P啊 3D 趣味互动科学应用用GPT生成图像，然后使用Gemini 3.1 Pro生成，可以将任何知识的内容制作成3D可交互的效果展示！效果炸裂！

小互@xiaohu · 5月10日53

搞个售卖机器人的未来网站效果也不错 GPT 生图 → Tripo 3D

译创建一个售卖机器人的未来网站效果也不错 GPT 生成图像 → Tripo 3D

向阳乔木@vista8 · 5月10日60

GPT-Image-2 给文章配图太爽了。选中一个段落，直接生成视觉化的解释，这比读枯燥的文字体验好不少。 https://blog.qiaomu.ai/what-are-diffusion-models

译GPT-Image-2能够根据选中的文章段落直接生成视觉化的解释，极大地改善了阅读体验，使其不再枯燥。这一功能展示了AI在将文本内容转化为直观图像方面的应用潜力，为理解和消化复杂信息提供了新的辅助工具。

Berryxia.AI@berryxia · 5月10日40

抢先体验Grok iOS应用上的Imagine Agent模式！用户将能通过移动端优化的原生界面使用Imagine Agent，生成需要更复杂工作流程的图像和视频。 SpaceXAI在这方面真是遥遥领先啊！现在就差Imagine v2版本了👀 另外，移动端的Skills功能也即将上线。

译Grok iOS应用推出Imagine Agent模式，用户可通过移动端优化的原生界面，执行复杂工作流以生成图像和视频。SpaceXAI在此领域被认为领先于其他竞争者。同时，移动端的Skills功能也即将上线。推文还提及了对下一代Imagine v2版本的期待。

Berryxia.AI@berryxia · 5月10日48

从此告别无聊的课堂教学！自己开发趣味互动科学应用创意～现在使用GPT-image-2 + Gemini 尝试生成3D生物结构，并开发了一款能交互探索这些结构的应用！

🚨 AI News | TestingCatalog@testingcatalog · 5月10日42

Early look at Imagine Agent Mode on Grok app for iOS! Users will be able to use Imagine Agent via a mobile optimised native UI to generate images and videos that require more complex workflows. SpaceXAI is getting quite ahead of everyone else on this front! We just need Imagine v2 now 👀 Additionally, Skills are coming soon on mobile as well.

译抢先体验iOS版Grok应用中的Imagine Agent模式！用户将能通过移动端优化的原生界面使用Imagine Agent，生成需要更复杂工作流程的图像和视频。在这方面SpaceXAI正大幅领先其他公司！我们现在只需要Imagine v2了👀 此外，移动端的Skills功能也即将推出。

Yuchen Jin@Yuchenj_UW · 5月10日62

Claude Opus 4.7 is over-trained on the Anthropic website. Every HTML page it designs has that unmistakable Anthropic flavor. GPT-5.5 is still weirdly weak at frontend. It designs frontend like it learned CSS from a backend engineer. OpenAI urgently needs an MTS with taste.

译Claude Opus 4.7 在 Anthropic 官网上训练过度。它设计的每个 HTML 页面都带有明显的 Anthropic 风格。 GPT-5.5 在前端方面仍然出奇地弱。它设计前端的样子就像是从后端工程师那里学的 CSS。 OpenAI 急需有品味的 MTS。

AK@_akhaliq · 5月10日56

MiniCPM-o 4.5 Towards Real-Time Full-Duplex Omni-Modal Interaction paper: https://huggingface.co/papers/2604.27393

译MiniCPM-o 4.5 迈向实时全双工全模态交互论文: https://huggingface.co/papers/2604.27393

Alibaba Cloud@alibaba_cloud · 5月10日69

Ranked No. 1 in benchmarks. Lightning speed. Native A/V sync. The era of waiting in line for AI video is over. HappyHorse is now live on Alibaba Cloud Model Studio. Done while others are still rendering. Build now: https://int.alibabacloud.com/m/1000412167/

译基准测试排名第一。闪电速度。原生音视频同步。排队等待AI视频的时代结束了。HappyHorse现已在阿里云Model Studio上线。当别人还在渲染时，你已完成。立即构建：https://int.alibabacloud.com/m/1000412167/

Elon Musk@elonmusk · 5月9日71

Tesla AI Vision

译Tesla通过分析真实车队碰撞数据，结合视觉系统与传感器，实现了安全系统的突破。传统碰撞传感器需要时间确认，降低阈值可能导致误触发。而视觉系统能提前“看到”即将发生的碰撞，与传感器协同，使约束控制器能更早、更准确地启动安全气囊和安全带预紧器。通过仿真重放碰撞并测量人体模型受力，团队发现提前部署能优化保护时机。这一改进使预测伤害严重程度整体显著下移，并通过OTA更新实现，是前所未有的安全提升。

Greg Brockman@gdb · 5月9日66

GPT-Realtime-2 for instantly translating audio in realtime

译开发者利用GPT-Realtime-2模型，在Chrome浏览器扩展中实现了实时AI音频翻译功能。该功能适用于YouTube视频、直播、会议和演示等所有浏览器内音频场景，能实时显示翻译后的语音。用户可在音视频播放或会议进行的同时，基于实时上下文调用AI进行摘要提取、要点归纳、笔记整理和内容解释等交互操作。这标志着浏览器正演变为实时AI操作系统，推动互联网语言壁垒趋于消失。

SiliconFlow@SiliconFlowAI · 5月9日61

Think small. Build big🔥 @Alibaba_Qwen 3.5 & Qwen3.6 series now live on SiliconFlow 🎉 9B to 397B · MoE & Dense · Native Multimodal ✅ Qwen3.6-35B-A3B · Qwen3.6-27B ✅ Qwen3.5-397B-A17B · Qwen3.5-122B-A10B ✅ Qwen3.5-35B-A3B · Qwen3.5-27B · Qwen3.5-9B Smaller models. Bigger results. Community's favorite. Now, pick your size and start building 👇 https://cloud.siliconflow.com/

译思小建大🔥 @Alibaba_Qwen 3.5 和 Qwen3.6 系列现已在 SiliconFlow 上线 🎉 9B 到 397B · MoE 与 Dense · 原生多模态 ✅ Qwen3.6-35B-A3B · Qwen3.6-27B ✅ Qwen3.5-397B-A17B · Qwen3.5-122B-A10B ✅ Qwen3.5-35B-A3B · Qwen3.5-27B · Qwen3.5-9B 更小的模型。更大的成果。社区的最爱。现在，选择你的尺寸并开始构建 👇 https://cloud.siliconflow.com/

宝玉@dotey · 5月9日71

GPT Image 2 Prompt：水墨风格 Slides/PPT 可以把下面的提示词模板发给 Agent，让 Agent 帮你生成每一页 Slides 的画图 Prompt，Codex 这样有画图能力的直接出图。 --- 提示词模板 --- Title: [在此输入幻灯片标题] Key Points: - [要点 1：简洁的描述] - [要点 2：核心数据或事实] - [要点 3：关键结论] Visual Elements: [描述视觉元素，例如：纹理宣纸背景 (Textured rice paper background)、水墨山水 (Ink-wash motifs)、简约的圆圈 (Enso circle)、红色印章 (Red seal mark)、雾气效果 (Mist-grey effects)]。整体风格应保持 [Quiet / Restrained / Wabi-Sabi / Contemporary East-Asian Luxury]。 Layout Preference: [布局说明，例如：左右分割 (Split layout)、居中对齐 (Centered layout)、文字居左且右侧留白 (Left-aligned text with negative space)]。 Text Hierarchy: [文字层级，例如：标题使用大号衬线字体 (Large Display Serif)，正文使用易读的衬线字体 (Body Serif)，确保视觉平衡和清晰的阅读顺序]。 Continuity Note: [延续性说明，例如：保持与前一页相同的背景纹理和色调 (#F5F0E8, #2C3E2D)，使用相似的印章位置以维持视觉一致性]。 ----- 示例 ------ Title: Agent Loop 深度解析: 揭秘 AI 智能体的心脏. Key Points: 核心定义、主要职责、设计目标。 Visual Elements: 大号优雅标题，背景为宣纸纹理，带有淡淡的水墨山水和圆圈笔触，角落处有红色小印章。 Layout: 干净的布局，大量留白（Open Sky）。 Text Hierarchy: 标题最为突出，下方是较小的正文。

译本文介绍一个用于生成水墨风格幻灯片画图提示词的模板。该模板结构清晰，包含标题、关键要点、视觉元素、布局偏好、文字层级和延续性说明，旨在指导AI（如Codex）生成具有统一美学风格的幻灯片图像。视觉元素强调宣纸背景、水墨山水等东方元素，整体风格追求静谧、克制、侘寂或当代东亚奢华。通过应用此模板，用户可以简化AI驱动的设计流程，快速获得视觉一致且富有美感的水墨风格PPT素材。文末提供了一个简短的应用示例。

Elon Musk@elonmusk · 5月9日45

Tesla AI Vision deploys airbags before impact, which greatly reduces risk of injury or death. This comes for free on all new cars.

译特斯拉AI视觉系统可在碰撞前部署气囊，大幅降低伤亡风险。该功能将免费提供给所有新车。 [引用 @Tesla]：Tesla Vision allows us to deploy airbags up to 70 milliseconds earlier if your Tesla detects an unavoidable collision This can be the difference between serious injury & walking away from a crash

Artificial Analysis@ArtificialAnlys · 5月9日62

StepFun’s new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld’s Realtime TTS 1.5 Max and Google’s Gemini 3.1 Flash TTS StepAudio 2.5 TTS represents a significant step forward for StepFun from previous TTS models, with notably increased naturalness of speech samples. The model now edges out Eleven v3 on our current prompt set with an Elo score of 1,187. Key takeaways: ➤ Quality: StepAudio 2.5 TTS has an Elo of 1,187 based on 834 arena appearances, placing it 28 points behind the leading model (Inworld TTS 1.5 Max at 1,215) and 8 points ahead of Eleven v3 at 1,179 ➤ Pricing: Model is priced at $85/1M characters, a premium to leading frontier models, Inworld TTS 1.5 Max at $35/1M and Gemini 3.1 Flash TTS at $36.6/1M ➤ Speed: Model generates characters 37.6 characters per second, compared to 220.5 chars/s for Inworld TTS 1.5 Max and 30.1 chars/s for Gemini 3.1 Flash TTS ➤ Prompting: StepAudio 2.5 TTS offers two paths to control delivery of speech: 1. Global context prompt for overall style, 2. Inline contextual tags for more granular emotion and prosody See more details and listen to samples below ⬇️

译StepFun 推出的 StepAudio 2.5 TTS 模型在 Artificial Analysis 语音竞技场排行榜中位列第三，仅次于 Inworld Realtime TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。该模型语音自然度显著提升，以 1187 的 Elo 评分超越 Eleven v3。其定价为每百万字符 85 美元，高于领先模型；生成速度为每秒 37.6 字符，介于竞品之间。模型提供全局上下文提示和行内情感标签两种控制语音表现的方式。

Berryxia.AI@berryxia · 5月9日65

Geoffrey Hinton直接把AI思考的本质讲透了！ “语言只是思考的工具之一，不是全部。” 他说，人类和AI都能用文字建模几乎任何东西，但真正的思考远远超出文字，它还包括图像、空间感、物理运动这些更丰富的形式。最聪明的系统，就是那个能把所有这些模态全部用起来的系统。这才是下一个大突破的方向：不再是单纯把语言玩得更溜，而是让AI真正学会像人类一样，用多感官、多维度的方式去理解世界。当AI开始同时掌握文字、图像、空间和动作的时候，智能的边界会彻底被打破。所以多模态才是最终的出路？那么，文本的基础肯定也不能丢失，基石打好才有更好的发效果。

译Geoffrey Hinton指出语言只是思考的工具之一，AI推理可以是真正的思考，因为语言本身就是一种思考形式。人类和AI能用文字建模，但真正思考超越文字，涵盖图像、空间感和物理运动等多模态。最聪明的系统是能整合所有模态的AI，这代表下一个大突破方向：让AI像人类一样通过多感官、多维度理解世界，从而打破智能边界。多模态是最终出路，但文本基础仍需巩固以确保发展效果。