MulTaBench Benchmarking Multimodal Tabular Learning with Text and Image

译MulTaBench 基于文本和图像的多模态表格学习基准测试

HappyHorse Promotion is LIVE! 🐎✨ Our official promotion page is now live. Get 20% OFF for a limited time! Create cinematic AI visuals with synced audio—optimized for ads, e-commerce, and social media. 🚀 Join the promotion: https://int.alibabacloud.com/m/1000412936/

译HappyHorse 促销活动现已上线！🐎✨ 我们的官方促销页面已正式开放。限时享受八折优惠！创建带同步音频的电影级AI视觉效果——专为广告、电商和社交媒体优化。 🚀 加入促销活动：https://int.alibabacloud.com/m/1000412936/

PixVerse@PixVerse_ · 5月14日52

Appreciate the shoutout！ With PixVerse V6, we wanted motion, sound, camera behavior, and impact to feel like they belong in the same physical world.

译PixVerse V6 的发布旨在让AI生成视频中的动态、音效、镜头行为与物理冲击感高度统一，使其如同存在于同一个真实的物理世界。该版本引入了原生音频、定向电影摄影技术和逼真的物理模拟，显著提升了动作、冲击、镜头行为与环境反应的拟真度与沉浸感。这一进展正开始模糊AI生成内容与真实电影摄影之间的界限，将AI动作场景的生成质量推向了全新的层级。

SenseTime@SenseTime_AI · 5月14日40

🚀 Huge thanks to Bijan Bowany for his strong recognition of 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭’s strengths, proven through hands‑on testing on 𝗖𝗼𝗺𝗳𝘆𝗨𝗜. ✅ 𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰: “𝘉𝘪𝘤𝘦𝘱 𝘤𝘶𝘳𝘭 𝘱𝘰𝘸𝘦𝘳𝘦𝘥 𝘤𝘰𝘮𝘱𝘶𝘵𝘦𝘳” → 𝗰𝗼𝗺𝗽𝗹𝗲𝘅 𝗶𝗱𝗲𝗮, 𝗰𝗹𝗲𝗮𝗻 𝘃𝗶𝘀𝘂𝗮𝗹𝘀 ✅ 𝗜𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝘁𝗲𝘅𝘁 𝗶𝗺𝗮𝗴𝗲: 𝘉𝘢𝘤𝘬 𝘵𝘰 𝘵𝘩𝘦 𝘍𝘶𝘵𝘶𝘳𝘦 𝘵𝘦𝘤𝘩 𝘳𝘦𝘷𝘪𝘦𝘸 → 𝗹𝗼𝗴𝗶𝗰𝗮𝗹 𝗰𝗼𝗵𝗲𝗿𝗲𝗻𝗰𝗲 + 𝘀𝗲𝗹𝗳 𝗿𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻 ✅ 𝗖𝗼𝗺𝗶𝗰: “𝘏𝘶𝘮𝘢𝘯 𝘵𝘶𝘳𝘯𝘴 𝘪𝘯𝘵𝘰 𝘩𝘦𝘭𝘪𝘤𝘰𝘱𝘵𝘦𝘳” → 𝘄𝗶𝗹𝗱 𝗽𝗿𝗼𝗺𝗽𝘁𝘀 𝗵𝗮𝗻𝗱𝗹𝗲𝗱 𝘄𝗶𝘁𝗵 𝗲𝗮𝘀𝗲 🎥 Watch the video https://www.youtube.com/watch?v=-jFXywLgKwo 👉 Try it: Hugging Face / GitHub

译SenseNova U1 在 ComfyUI 上的实际测试获得了 Bijan Bowany 的强烈认可，证明了其处理复杂任务的能力。测试显示，模型能清晰呈现复杂概念的视觉内容，在交织文本图像中保持逻辑连贯和自我反思，并能轻松应对如人类变直升机等疯狂提示。视频演示和试用资源可通过 Hugging Face 和 GitHub 获取。

向阳乔木@vista8 · 5月14日64

我觉得Get笔记的价值比远远低估了。无论小宇宙、B站、抖音、Youtube、TikTok等，只需要提供链接就能解读。促销时买的会员，一年只要99元，太超值了。还提供Skill和Cli，让Codex分析接入了自己的网站。有URL就能解读，还能获取原始转写文本。官网和Skill见评论区

译Get笔记的价值被严重低估，其会员年费仅99元，性价比极高。核心功能在于用户只需提供链接，即可解读来自小宇宙、B站、抖音、YouTube、TikTok等多个平台的内容，并能获取原始转写文本。此外，它还通过提供Skill和Cli工具，允许用户将Codex分析功能接入自己的网站，实现了服务的深度集成与扩展。

向阳乔木@vista8 · 5月14日49

这个模型还是挺不错的。就是现在基本上所有第三方AI Chat客户端都不支持音视频上传解析。无论CherryStuido、Chatwise还是其他，不知道现在有没有了。

译用户认为某模型表现不错，但指出当前多数第三方AI Chat客户端（如CherryStuido、Chatwise）尚不支持音视频上传解析功能。同时，豆包大模型的Doubao-Seed-2.0-lite 0428版本已完成重要升级，新增音频理解能力，成为其家族首款支持图片、视频、音频、文本四种输入的全模态理解模型，且Agent、Coding和GUI能力据称也有显著提升。

Berryxia.AI@berryxia · 5月14日56

Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。每次都是这几个Case 真的烦了，能不能整点炸裂一点的Case。据说是就近期要发布，但是看着样子也是赶鸭子上架，应该放鸽子啥的也是常有的事儿。

ginobefun@hongming731 · 5月14日72

使用 Claude 进行计算机和浏览器操作的最佳实践 Anthropic 针对 Claude 4.6 系列和 Opus 4.7 发布了 Computer Use 的官方最佳实践指南。如果你正在构建任何需要控制浏览器或桌面的 AI Agent，这篇是目前最权威的第一手资料。核心问题是一个几乎所有人都踩过却不知道原因的坑。把截图发给 Computer Use API 的时候，API 有内部尺寸上限：Claude 4.6 系列是最长边不超过 1568 像素、总像素不超过 1.15 兆；Opus 4.7 是最长边不超过 2576 像素、总像素不超过 3.75 兆。超过上限之后，API 会在把图片交给模型之前静默压缩，但返回的坐标仍然是按原始分辨率计算的，结果就是点击位置系统性偏移。这个失败是静默的，没有任何报错提示，单纯表现为点击总是差那么一点。解法直接：在发送截图之前，先在客户端把截图缩放到 1280x720（使用 Opus 4.7 可以从 1080p 起步）。这个分辨率既在两个限制之内，也是模型在训练中大量见过的标准分辨率，实测对现代 Web 界面和传统桌面应用都能良好支持。还有一个容易忽略的细节：macOS 上的截图默认是 2x 分辨率（Retina 屏幕），看起来正常但实际像素数是双倍，同样会触发压缩陷阱。 API 调用格式也有讲究：把文字指令放在截图之前（而不是之后）发送，模型先接收指令再处理图片，点击精度会有明显提升。在模型选择上，Claude Sonnet 4.6 的机械点击精度更高，在需要大量降分辨率的场景下表现更稳；Opus 4.7 支持更高分辨率预算，点击精度差距大幅收窄，适合需要更多视觉信息量的复杂任务。多 Agent 组合方案可以让推理模型负责规划、让 Sonnet 或 Haiku 负责具体点击操作。安全架构这部分原则非常清晰：任何 Computer Use 集成都必须运行在专用虚拟机或容器里，绝不能把有价值的主机数据暴露给 Agent 可以访问的范围。高风险操作（表单提交、文件删除、付款确认）应该设置人工确认门控，在 Agent 循环中暂停等待用户确认后再继续。场景选型上，Browser Use（通过 Playwright 等 API 控制浏览器）适合结构化的 Web 任务，精度高、可靠性强；Computer Use（截图加点击控制整个屏幕）则适合没有结构化 API 可用的桌面应用、遗留系统或跨应用工作流。两种方式并不互斥，复杂任务可以组合使用。

译Anthropic发布了Claude计算机操作官方指南，核心解决了截图发送至API时因静默压缩导致的点击坐标偏移问题。关键在于客户端预先将截图缩放至1280x720等标准分辨率，并将指令置于截图前发送以提高精度。模型方面，Sonnet 4.6机械点击精度更高，Opus 4.7则支持更高分辨率。安全上必须在隔离环境中运行并设置高风险操作人工确认。Browser Use适合结构化Web任务，Computer Use则适用于桌面应用等非结构化场景。

MiniMax (official)@MiniMax_AI · 5月14日48

We're heading to AI Engineer Singapore this weekend (May 15–17)! 🇸🇬 Two things to know: 1️⃣ Vincent Wu, our Solutions Engineer, will be speaking on Building Agentic, Multimodal Systems with MiniMax. 2️⃣ We're co-hosting a side event with @zocomputer on May 15 evening. Come build with us → https://luma.com/qatufzkn Thanks @aiDotEngineer @swyx @SherryYanJiang for making this happen!

译本周末我们将前往新加坡AI工程师大会（5月15-17日）！🇸🇬 两个重要信息： 1️⃣ 我们的解决方案工程师Vincent Wu将发表演讲，主题为《使用MiniMax构建智能体多模态系统》。 2️⃣ 5月15日晚我们将与@zocomputer联合举办周边活动，欢迎来共同创作 → https://luma.com/qatufzkn 感谢@aiDotEngineer @swyx @SherryYanJiang促成此次活动！

Runway@runwayml · 5月14日65

Meet Runway Agent. Your new AI creative partner that helps you ideate and execute fully finished, sound designed and edited videos. All with just a simple conversation. From ads to shorts to content for social, Runway Agent makes it easy to make more of what you need. Get started on web at the link below.

译认识Runway Agent。您的新AI创意伙伴，帮助您构思并制作完整的、经过音效设计和剪辑的视频。一切只需简单的对话。从广告到短片再到社交媒体内容，Runway Agent让您轻松制作更多所需内容。点击下方链接在网页版开始体验。

向阳乔木@vista8 · 5月14日64

昨晚上偶然测了 @Ethan_Yang_AI 团队开发的knowly。试着解读Youtube视频和arXiv论文，效果惊艳。除免费额度稍微有点少，向量处理稍慢外。无论产品交互、还是解读效果，丝毫不逊色于NotebookLM。配套Chrome插件还没几个用户，就已经被谷歌列入精选，实力可见一斑。官网见评论

译测试Ethan_Yang_AI团队开发的Knowly，其解读YouTube视频和arXiv论文的效果令人惊艳。尽管存在免费额度略少、向量处理稍慢的不足，但其产品交互和解读效果均不逊色于NotebookLM。其配套的Chrome插件在用户数尚少时即被谷歌列入精选，彰显了产品实力。

SenseTime@SenseTime_AI · 5月13日72

🔥 New week, New 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 Drop — and this one goes Deep!🔥 📄 𝗧𝗵𝗲 𝗳𝘂𝗹𝗹 𝗧𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗥𝗲𝗽𝗼𝗿𝘁 𝗶𝘀 𝗢𝗨𝗧 — the most detailed disclosure yet of how to build a frontier Native Multimodal Model. Inside: ✨ Near-lossless visual interface (no VEs, no VAEs) ✨ Native Multimodal Unified Modeling ✨ Joint AR + pixel-space flow matching training ✨ Native Mixture-of-Transformers backbone ✨ 6-stage training recipe + RL post-training + distillation If you work on NMM, this is the playbook. 🤗 One more thing: 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝗔𝟯𝗕-𝗠𝗼𝗧 (𝟯𝟴𝗕-𝗔𝟯𝗕 𝗠𝗼𝗘) 𝘄𝗲𝗶𝗴𝗵𝘁𝘀 𝗮𝗿𝗲 𝗻𝗼𝘄 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 — a RARE native unified model on an MoE backbone (Only 3B active! Lightning Fast⚡) 📄 Tech Report: https://arxiv.org/abs/2605.12500 🤗 Daily Papers (Vote & Discuss): https://huggingface.co/papers/2605.12500 🤗 Models: https://huggingface.co/collections/sensenova/sensenova-u1 💻 Code: https://github.com/OpenSenseNova/SenseNova-U1 🎮 Demo: https://unify.light-ai.top 👾 Discord: https://discord.com/invite/BuTXPHmQub

译SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法，核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构，仅激活30亿参数，实现了高效快速的性能。相关资源已全面开放，涵盖技术报告、模型权重、代码和演示平台。

歸藏(guizang.ai)@op7418 · 5月13日36

前几天去天津玩，去五大道的时候，无意间问了一下 AI 这里的历史，发现还是挺复杂的。基本上近代好多名人和好多事件都与住在这儿的人有关系。所以我就试了一下，用我的这个 PPT Skills 讲一下这些人的故事。新增了一个排版： 1. 左侧是卡片 2. 右边是地图（这个地图是可以交互的，内嵌在了 PPT 里面）后面会做更多这种尝试，让你的 PPT 内容更丰富，嵌入更多更详细的信息。

译作者在游览天津五大道时，尝试利用AI查询该区域复杂的历史背景，发现众多近代名人事件与此地相关。为此，他创新了PPT制作方式，将历史人物的故事卡片与可交互的嵌入式地图相结合进行展示。这种新排版旨在让演示内容更丰富、信息更详实，并计划在未来进行更多类似尝试，以提升PPT的信息承载与呈现能力。

Berryxia.AI@berryxia · 5月13日76

最近我鼓吹苹果的端侧模型和统一内存的优势！前有MLX ，现在不断拓展的格式都出来比如之前也分享过的oMLX又有更新！ Apple Silicon上的本地AI已经把云端大模型的很多优势直接干掉了。 oMLX 0.3.9.dev2直接把Gemma 4的MTP视觉路径、DFlash引擎、ParoQuant全塞了进来，图文解码速度大幅提升；还新增了omlx launch copilot，一键接入Claude / Codex / OpenClaw等顶级工具； oQ自动建proxy解决显存不够的问题；管理界面也加了重启服务器按钮。以前本地AI总觉得“差点意思”，现在它在速度、集成度、易用性上越来越离谱地强。这才是真正把AI从云端拉回你自己电脑的节奏。项目地址：https://github.com/jundot/omlx

译oMLX项目更新至0.3.9.dev2版本，集成了Gemma 4的MTP视觉路径、DFlash引擎和ParoQuant技术，显著提升了图文处理速度。新增一键启动copilot功能，可便捷接入Claude等工具，并通过oQ自动代理解决显存瓶颈。这些改进大幅增强了本地AI在速度、集成与易用性上的表现，正推动AI能力从云端向个人电脑回归。

Deedy@deedydas · 5月13日58

This is the single best read on World Models and one of the most important reads in AI. $10B has flowed into "world models" in the last 18mos, from Yann LeCun to FeiFei Li. The promise is, like LLMs, world models will provide the data it takes to scale robotics foundation models, and solve robotics. ..but the word has been abused to mean one of many things. This post unpacks: – What 5 traits makes a world model? – How do the different approaches stack up? – What is it used for within and beyond robotics? – Where is the opportunity? – Citations to research, news and blog posts Companies / products in the space include: – BigCo products: Google Genie, Tesla Optimus, Nvidia DreamDojo, DreamZero, Microsoft Muse – Pure world model: AMI Labs, World Labs, Runway, Rhoda, Decart, Spaitial, Odyssey, Embo, Dream Labs, OneWorld – Robot foundation model cos: Skild, Physical Intelligence, Figure, Mind Very likely one of the seminal technologies of the next decade.

译世界模型被视为AI继大语言模型后的关键新范式，过去18个月已获百亿美元投资，其核心承诺是通过规模化数据推动机器人基础模型发展。然而，该术语目前被广泛滥用，含义模糊。本文系统阐述了世界模型的五大特质，对比了不同技术路径，探讨了其在机器人及其他领域的应用与未来机遇。领域参与者包括谷歌Genie、特斯拉Optimus等巨头产品，以及众多专注世界模型或机器人基础模型的初创公司。它很可能成为未来十年的奠基性技术之一。

歸藏(guizang.ai)@op7418 · 5月13日62

谷歌昨天安卓 I/O 大会最大的跟 AI 相关的发布，是发布了 Gemini Intelligence 会先在三星 Galaxy 和 Pixel 手机上推出，后面会拓展到其他所有类型的安卓设备。具体功能上，首先它可以帮你自动完成在多个 App 上操作的繁琐任务，而且可以跨多个软件去操作。比如你备忘录里有一堆购物清单，然后你可以让它直接把这些清单加到购物车里。安卓的 Chrome 浏览器可以自动帮你操作浏览器去检索内容和总结内容，也可以帮你填写表单之类的。他们在新推出了一个语音输入功能，叫 Rambler，它可以自动将你的口语转换成文本语言，去掉一些语气词并重新排版，而且支持多语言混用。最显眼的是它支持你通过自然语言去生成你想要的任何桌面小组件。比如说你可以让它生成一个每周推荐食谱的小组件，它就会自定义 AI 帮你生成，然后固定到你的桌面上。或者说你只关心某些天气的属性，比如说风速和降雨，然后它就会自动生成一个只有这些数据的桌面组件。这个功能我在去年六七月的时候跟一个 AI 创业者提过，结果到现在谷歌自己出了。而且他们这次还发布了 Material 3 Expressive 的设计语言，跟苹果的液态玻璃区别挺大的。它会在没有交互的时候是实体的边界，非常明显的分隔线，就是组件边界。在 AI 开始交互的时候，组件的边界会发生虚化和高斯模糊，非常的漂亮。

译谷歌在I/O大会上发布Gemini Intelligence，将AI深度集成至安卓系统。该功能将率先登陆三星Galaxy和Pixel手机，并逐步覆盖所有安卓设备。其核心能力包括跨应用自动执行复杂任务（如在备忘录与购物应用间同步清单），以及使Chrome浏览器能自动检索、总结内容及填写表单。新推出的Rambler语音输入功能可将口语转化为精炼文本，并支持多语言混用。用户还能通过自然语言指令生成个性化桌面小组件，如定制食谱或特定天气数据组件。此外，全新的Material 3 Expressive设计语言会在AI交互时使组件边界呈现虚化与模糊效果，提升视觉体验。

ginobefun@hongming731 · 5月13日76

Codex 的 computer use 演示视频：OpenAI 展示新的 AI 队友能力 OpenAI 为 Codex 引入了 Computer Use 能力，让这个 Agent 从操作代码文件，扩展到操作本地 GUI 应用。这个挺值得关注的：AI Agent 的行动空间，延伸到了开发者日常使用的所有桌面软件。这次演示最突出的一个设计决策，是 Codex 拥有自己的独立光标。它在后台运行，不会接管用户的鼠标或键盘，用户可以继续自己的工作，同时 Codex 在旁边完成配置虚拟机、播放 Spotify、添加日历提醒等任务。过去的 GUI 自动化工具通常会独占整个显示器，这个设计让 AI 助手真正成为并行工作的「队友」而不是「接手者」。技术架构采用了两种模态的混合方案。视觉模态通过截图让模型「看见」界面，以坐标为单位点击；无障碍框架则通过系统 API 提取 UI 元素的文字描述，包括当前滚动出屏幕的内容。对速度敏感的任务，Spark 模型只依赖无障碍数据而不做图像处理，可以达到「超人速度」完成消息发送或调试操作。安全层面，Codex 采用了逐应用的权限授权机制。在用户明确允许之前，Codex 对任何应用都完全不可见，无法访问、无法操作。这个设计让敏感数据的隐私得到了结构性保护。目前 Computer Use for Codex 已在 Mac 上可用，Windows 支持即将推出。 https://youtu.be/D_FCYsshMI4

译OpenAI为Codex引入Computer Use能力，使其从操作代码扩展到本地GUI应用。Codex拥有独立光标，不接管用户输入，允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API，Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权，在用户允许前无法访问任何应用，保护隐私。目前该功能已在Mac上可用，Windows支持即将推出。

Berryxia.AI@berryxia · 5月13日69

终于看到了点Google的新东西啊！就在昨晚👇🏻 Google DeepMind 把 50 年鼠标指针彻底 AI 化了实验演示：用户现在用手势 + 语音 + 自然简写，直接在屏幕任意位置指挥 Gemini，无需切换 App 或写长 prompt。体验入口：Google AI Studio ：（http://aistudio.google.com/apps/bundled/ai-pointer-create 和 ai-pointer-find），已集成 Chrome Gemini，未来或进 Googlebook。核心能力拆解： • 指向 PDF 说“生成邮件 bullet points” → 即时输出要点 • 悬停表格说“转成 pie chart” → 自动可视化 • 高亮食谱说“double these ingredients” → 食材翻倍 • 指向涂鸦笔记说“转成 to-do list” 或视频帧说“生成 booking link” 技术细节：Gemini 多模态驱动，指针实时“看见”光标下文字/图片/代码块语义内容，结合 gesture（point/hover）+ speech + shorthand 实现上下文理解。把 pixels 转成 actionable entities，无需精确指令，模型自动懂“This/That”意图。输出直接作用当前界面。对 Agent 开发者、UI 设计师和 Gemini 重度用户最友好，标志交互范式从“坐标”到“意图”的升级。

译Google DeepMind近日发布了一项创新功能，将传统鼠标指针AI化。用户可通过手势（如指向、悬停）、语音及自然简写，在屏幕任意位置直接指挥Gemini模型，无需切换应用或编写复杂指令。该功能已集成于Google AI Studio和Chrome Gemini，能实时识别光标下的文字、图片、代码等内容语义，结合上下文理解用户意图，实现如将PDF内容转为邮件要点、表格转为图表等智能操作。这标志着人机交互从基于“坐标”的操控向基于“意图”的理解迈出了重要一步，尤其便于Agent开发者、UI设计师等用户提升效率。

Berryxia.AI@berryxia · 5月13日65

兄弟们！Jina 今天直来了个大的！ Jina-embeddings-v5-omni 来了！这是他们首个真正支持 text + image + audio + video 的统一 Embedding 模型！（多模态的EMB~！）两个尺寸： Small（1.57B，1024维，32K 上下文） Nano（0.95B，768维，8K 上下文）还支持 Matryoshka 截断到 32 维，超级灵活。最爽的是完全向后兼容：你原来的 v5-text 索引不用动，直接换成 omni 就能开始搜图片、音频、视频了！同一向量空间，无需 reindexing。性能也很猛，小模型就打平甚至超越好几个参数量大几倍的开源模型。现在已经在 Hugging Face、Jina API、Elastic Inference Service 上架了。这波多模态 embedding 真的要爽了兄弟们！你们已经在做多模态 RAG 或者多媒体搜索了吗？😂

译Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni，能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸，分别具有1.57B和0.95B参数，并支持Matryoshka截断技术。关键优势在于完全向后兼容：现有jina-embeddings-v5-text的索引无需重新构建，可直接替换为v5-omni，在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲，小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Berryxia.AI@berryxia · 5月13日56

兄弟们！ Meta 今天把实时语音 + 视觉 AI 直接干成了！ Muse Spark 驱动的 Meta AI Voice Conversations：！可以打断、换话题、边聊边生成图、拉内容，还支持实时看世界问问题（相机对准就行）。马上就要上 Ray-Ban Meta 眼镜了！

译Meta发布了由Muse Spark驱动的Meta AI Voice Conversations，实现实时语音与视觉交互。该功能支持打断对话、切换话题，在聊天过程中生成图像和拉取内容，并能通过相机对准现实世界进行实时视觉问答。这一技术即将集成到Ray-Ban Meta智能眼镜中，提升穿戴设备的AI体验。

meng shao@shao__meng · 5月13日65

Gemini Intelligence 登陆 Android Google 不再把 Android 仅描述为承载 App 的平台，而是定位为主动型 AI 系统：自动化任务、智能浏览、智能填表、口语成稿、生成式 widget。设备会"先你一步"完成事务，而非被动等待指令。 https://blog.google/products-and-platforms/platforms/android/gemini-intelligence/ 新能力以软硬件深度绑定的方式发布： · 首发设备：今年夏季登陆最新 Samsung Galaxy 与 Google Pixel 手机。 · 后续扩展：年内陆续覆盖 Wear OS 手表、Android Auto、智能眼镜、笔记本。 # 五大核心能力 1. 跨 App 多步任务自动化（App Automation） · 已在 Galaxy S26 与 Pixel 10 上对外卖、打车类 App 做了数月调优。 · 典型场景：抢动感单车前排座位；从 Gmail 找出课程大纲后自动把教材加入购物车。 · 视觉上下文加成：长按电源键即可让 Gemini 读取屏幕内容（例如把笔记里的购物清单一键变成下单），或拍下酒店宣传册说"在 Expedia 找 6 人团类似行程"。 · 控制权设计：仅在用户指令下执行，任务完成即停止，最终下单需用户确认。 2. Chrome 内的 Gemini（6 月下旬上线） · 浏览器助手负责研究、摘要、跨页对比。 · Chrome auto browse 可代办预约、车位预订等流程化操作。 3. 升级版 Autofill（Personal Intelligence 驱动） · 自动填写从"基础便利"升级为"理解上下文"——可跨应用调用相关信息填表，覆盖 Chrome。 · 严格 opt-in：用户主动连接 Gemini，设置中随时可断开。 4. Rambler——语音转"成稿" · 解决 Gboard 语音输入的痛点：口语中的"嗯/啊/重复"。 · 用 Gemini 抓取重点，整理为简洁书面表达。 · 多语种混说：支持单条消息内英语+印地语等混合切换，理解语境。 · 隐私：开启时有明确指示，音频仅实时转写、不存储。 5. Create My Widget——生成式 UI 第一步 · 用自然语言描述即可生成自定义 widget，并可在主屏调整尺寸。 · 例：每周自动生成 3 道高蛋白备餐食谱的 dashboard；只显示风速和降雨的天气卡。 · 同步覆盖 Wear OS 手表。

译Google将Android重新定位为主动型AI系统，推出Gemini Intelligence。其核心在于深度软硬件结合，首发于三星Galaxy和Google Pixel手机，后续将扩展至手表、汽车等设备。五大核心能力包括：跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能，以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行，并注重隐私与控制权。

小互@xiaohu · 5月13日59

Google发布 Gemini Intelligence 把 Gemini 从“聊天机器人”，彻底升级成 Android 的“系统级大脑” 它更像 Google 对下一代 Android 的总架构定义：过去 Android 是：“App + 系统” 现在开始变成：“AI 理解层 + 系统 + App” Gemini 开始主动理解： • 你正在做什么 • 你可能想做什么 • 哪些 App 可以协同 • 下一步应该自动完成什么 Google 官方甚至直接用了：“proactive AI features”。也就是：主动式 AI。以前的手机逻辑，本质上还是“人操作 App”。你需要自己打开软件、复制信息、切换页面、一步一步完成任务。现在 Google 想做的，是让 AI 直接理解你正在做什么，然后替你跨 App 执行。

译Google将Gemini从聊天机器人升级为Android的“系统级大脑”，重新定义了下一代Android的架构。新架构从过去的“App + 系统”转变为“AI理解层 + 系统 + App”。Gemini作为主动式AI，能主动理解用户当前行为、潜在意图、可协同的App，并自动执行下一步任务。其核心目标是改变“人操作App”的传统手机逻辑，让AI直接理解用户意图并实现跨App的自动执行。

Chubby♨️@kimmonismus · 5月13日55

Thinking Machines created the andvanced voice mode we were promised by openAI 1.5 years ago. There, I said it.

译Thinking Machines创造了OpenAI一年半前承诺我们的先进语音模式。就这样，我说出来了。

小互@xiaohu · 5月13日60

Google 刚刚发布了一个新东西：Googlebook 根据Google 自己的表述：他们想做的已经不再是传统意义上的“操作系统”，而是一个以 Gemini 为核心的 AI Laptop 平台。 Gemini 被塞进了“鼠标指针”：你晃一下光标，它会主动理解你当前屏幕内容，然后直接给动作建议。比如： • 指向邮件里的日期 → 自动创建会议 • 选两张图 → 自动生成搭配效果 • 指向内容 → 自动总结 / 改写 / 操作这其实已经不是传统 OS 思维了。以前电脑逻辑：人打开 App → 人操作功能。现在开始变成： AI 理解上下文 → AI 主动组织操作。

译Google推出新平台Googlebook，这是一个以Gemini AI为核心的笔记本电脑系统，旨在超越传统操作系统概念。Gemini被集成到鼠标指针中，能主动理解用户当前屏幕内容，并提供智能动作建议，如自动创建会议、生成图像搭配效果或总结改写内容。这标志着电脑操作逻辑的根本转变：从用户手动打开应用执行功能，变为AI基于上下文主动组织并执行操作，体现了向AI驱动平台的演进。

Demis Hassabis@demishassabis · 5月13日81

Really cool work from the team reimagining the mouse pointer to be intelligent! Try the prototype in @GoogleAIStudio it's pretty magical.

译团队正在用AI重新构想鼠标指针，成果非常酷！在@GoogleAIStudio尝试原型版本，体验相当神奇。 [引用 @GoogleDeepMind]：我们正用AI重新构想这个存在50年的界面——鼠标指针。🖱️ 这些实验演示展示了人们如何通过动作、语音和自然简写，在屏幕上直观操控Gemini完成任务🧵

🚨 AI News | TestingCatalog@testingcatalog · 5月13日63

META 🔥: Muse Spark will be available within a new Voice Mode and a Live Camera view on the Meta AI app. There, it can generate images, show places on the map, pull data from Reels, and more. Additionally, new features were added to Shopping Mode, including the ability to search Facebook Marketplace. > Muse Spark is starting to gradually roll out on Ray-Ban Meta and Oakley Meta glasses in the US and Canada over the next few weeks, and on Meta Ray-Ban Display this summer. > Muse Spark is starting to bring the same intelligence to Meta AI across WhatsApp, Instagram, Facebook, Messenger, and Threads — in places like search bars, group chats, posts, and more.

译Meta宣布推出由Muse Spark驱动的AI语音对话功能，支持自然语言交流、实时生成图像及从Reels、地图等多源获取信息。该功能将整合至Meta AI应用的新语音模式和实时摄像头视图中，用户可通过摄像头对现实世界进行实时问答。购物模式新增了搜索Facebook Marketplace等能力。Muse Spark将逐步在Ray-Ban Meta等智能眼镜上于美加推出，并于今夏登陆Meta Ray-Ban Display，其智能能力也将扩展至WhatsApp、Instagram等全平台的多类场景中。

StepFun@StepFun_ai · 5月13日72

🚀 Step Image Edit 2 is live!! A 3.5B-parameter image model that ranks #1 on KRIS-Bench —the leading benchmark for instruction-based image editing —across overall, factual, and conceptual categories. It outperforms models at 5–6x the parameter count. Performance - 0.7s text-to-image - 1.6s per edit - $0.003 per image Capabilities → Text-to-image generation → Instruction-based image editing → Bilingual text rendering (accurate Chinese + English characters) → Style transfer with subject consistency Get started Model ID: `step-image-edit-2` Available now on the Stepfun open platform. docs→https://platform.stepfun.ai/docs/en/guides/models/step-image-edit-2

译Step Image Edit 2模型正式发布。这是一个35亿参数的图像模型，在指令式图像编辑的权威基准KRIS-Bench中，于综合、事实和概念类别均排名第一，性能超越参数量为其5-6倍的模型。其核心能力包括文生图、基于指令的图像编辑、精准的中英双语文字渲染以及保持主体一致性的风格迁移。该模型生成速度快，单次编辑成本低，目前已上线Stepfun开放平台。

🚨 AI News | TestingCatalog@testingcatalog · 5月13日70

GOOGLE 🔥: A new Android Intelligence has been introduced during Android Show 2026! - A whole new sleek design! - Automated multi-step tasks across Android apps - Gemini in Chrome gets Browser Use - Automated form filling - "Rambler" to turn voice notes into text - Custom Gen UI Widgets I need a Pixel now 👀

译GOOGLE 🔥: 在Android Show 2026上推出了全新的Android Intelligence！ - 全新的时尚设计！ - 跨安卓应用的自动化多步骤任务 - Chrome中的Gemini获得浏览器使用功能 - 自动表单填写 - "Rambler"可将语音笔记转为文本 - 自定义Gen UI小组件我现在就需要一台Pixel 👀

Chubby♨️@kimmonismus · 5月13日64

Google DeepMind just reinvented the mouse pointer. Since Doug Engelbart's demo in 1968, the little arrow on your screen has barely changed. Until now. The new AI pointer sees what you're pointing at, understands the context, and responds to your voice. You point at an image of a building, say "show me the route," and that's it. No copy-paste, no chat window, no prompt gymnastics.Powered by Gemini. First demos are live in Chrome and Google AI Studio. This might be the beginning of the end for the classic chatbot interface. really really cool! Im using wispr flow right now but this is literally the next step

译Google DeepMind基于Gemini模型，对沿用五十余年的鼠标指针进行了AI化革新。新的智能指针能实时识别屏幕内容、理解上下文，并响应语音指令，用户通过指向和自然语言即可直接操作，无需复制粘贴或与聊天窗口交互。该技术已推出实验性演示，集成于Chrome和Google AI Studio，旨在提供更直观的交互方式，可能推动传统聊天机器人界面的变革。

Google DeepMind@GoogleDeepMind · 5月13日52

We’re reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️ These experimental demos show how people can intuitively direct Gemini on their screens using motion, speech, and natural shorthand to get things done 🧵

译我们正用AI重新构想一个存在50年的界面——鼠标指针。🖱️ 这些实验演示展示了人们如何通过动作、语音和自然简写直观地指挥屏幕上的Gemini完成任务 🧵

OpenRouter@OpenRouter · 5月13日69

Perceptron Mk1 is live on OpenRouter, built by @perceptroninc. Frontier video and embodied reasoning in a vision-language model. Analyzes video at a dynamic frame rate (up to 2 FPS) across a 32k multimodal context, with hybrid reasoning and structured spatial primitives (points, boxes, polygons, clips) as first-class outputs.

译Perceptron Mk1已在OpenRouter上线，由@perceptroninc开发。前沿视频与具身推理的视觉语言模型。以动态帧率（最高2 FPS）分析视频，具备32k多模态上下文，采用混合推理和结构化空间基元（点、框、多边形、片段）作为首要输出。

Artificial Analysis@ArtificialAnlys · 5月13日62

Announcing agentic performance benchmarking for Speech to Speech models on Artificial Analysis. We use 𝜏-Voice to measure tool calling and customer interaction voice agent capabilities in realistic customer service scenarios Even the strongest Speech to Speech (S2S) models today resolve only about half of realistic customer service scenarios end-to-end - a meaningful gap relative to frontier text-based agents on the same tasks. Voice channels introduce significant complexity: challenging accents, background noise, and packet loss, all while requiring fast responses, consistency across long multi-turn conversations, and reliable tool use. Performance also varies considerably by audio condition: in clean audio some models perform notably better, but realistic conditions continue to pose a challenge. Conversation duration also varies meaningfully across models, with implications for both customer experience and operational cost. About 𝜏-Voice: Our Agentic Performance benchmark is based on 𝜏-Voice (Ray, Dhandhania, Barres & Narasimhan, 2026), which extends 𝜏²-bench into the voice modality to evaluate S2S models on realistic customer service tasks. It measures multi-turn instruction following, support of a simulated customer through a complete interaction, and tool use against simulated customer service systems. The simulated user combines an LLM-driven decision model with realistic audio synthesis: diverse accents, background noise, and packet loss modelled on real network conditions. This complements our Big Bench Audio benchmark measuring intelligence and Conversational Dynamics (Full Duplex Bench subset) benchmark measuring conversational naturalness. Scores are the average of three independent pass@1 trials. We evaluate under realistic audio conditions using the 𝜏²-bench base task split across three domains: ➤ Airline (50 scenarios): e.g., changing a flight, rebooking under policy constraints ➤ Retail (114 scenarios): e.g., disputing a charge, processing a return ➤ Telecom (114 scenarios): e.g., resolving a billing issue, troubleshooting a service problem Task success is determined by deterministic checks against expected actions and final database state, consistent with the 𝜏²-bench evaluator. Key results: xAI's Grok Voice Think Fast 1.0 is the clear leader at 52.1%, averaging 5.6 minutes per conversation, the second-longest overall. OpenAI's GPT-Realtime-2 (High) (39.8%, 3.0 min) and GPT-Realtime-1.5 (38.8%, 4.8 min) follow, with Gemini 3.1 Flash Live Preview - High close behind at 37.7% (3.8 min). Speech to Speech is a fast evolving modality and we expect movement in rankings as we continue to add new models with these capabilities, and model robustness improves. Congratulations @xAI @elonmusk! See below for further detail ⬇️

译Artificial Analysis推出语音智能体基准测试𝜏-Voice，用于评估客服场景中的工具调用与多轮对话能力。测试显示，当前最强语音到语音模型仅能端到端解决约一半的真实任务，与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下，xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

🚨 AI News | TestingCatalog@testingcatalog · 5月12日45

GOOGLE 🔥: A new Gemini Omni banner has been added to the web build recently. > Gemini Omni will be an Agent that can combine text, images, and videos. > Users will be able to add themselves to different scenes. As we know, AI Avatars (Likeness) are coming to Gemini as well, and Gemini Omni will likely be connected to that. > "Likeness" feature will likely be highly coupled to mobile apps (as it used to work on Sora). What's the chance we will get it today during the Android show? h/t @Thomas16937378

译谷歌在网页版中新增了Gemini Omni横幅，预示其将成为一个能整合文本、图像和视频的多模态AI代理。关键功能是允许用户将自身形象添加到不同场景中，这与即将登陆Gemini的AI数字形象功能高度关联。该“Likeness”功能很可能深度集成于移动应用，其运作方式曾应用于Sora。外界猜测它可能在今日的Android活动中亮相。

AK@_akhaliq · 5月12日56

Qwen-Image-2.0 Technical Report

译Qwen-Image-2.0 技术报告

Kling AI@Kling_ai · 5月12日63

Imagine what you could create, templates ready in Kling AI! 🟢

译用户利用GPT image 2与Kling AI，根据详细提示词生成了一张模拟电视转播视角的超写实F1赛事直播截图。画面聚焦于一位在VIP围场/车队车库中的年轻女性，其身份特征从参考图像中被精确保留。她佩戴专业赛车耳机，神情紧张专注，画面包含“FINAL LAP”横幅、计时塔、直播标识等完整的转播图形元素。作品特别注重广播级细节，如压缩伪影、自然肤质和8K画质，旨在完美呈现如同真实电视截图的视觉效果。

AK@_akhaliq · 5月12日58

Pixal3D Pixel-Aligned 3D Generation from Images

译Pixal3D 从图像生成像素对齐的三维模型

Berryxia.AI@berryxia · 5月12日53

大家说Google 最近疯狂降智的时候，是不是要有大的要来了。依稀的记得当时Gemini3.1 还没有来之前的鬼佬的疯狂吹捧，但是过了后，似乎都没有多少人真正使用。这一波我觉得时候也要搞点东西出来了吧~~~

译大家说Google 最近疯狂降智的时候，是不是要有大的要来了。依稀记得Gemini3.1 发布前海外疯狂吹捧，但过后似乎没多少人真正使用。这一波我觉得也该搞点东西出来了吧~~~ [引用 @testingcatalog]：Google keeps preparing its upcoming Gemini Omni models for the release. > Gemini Omni model will be available on APIs as well > The model will be considered as Agent, similarly to Deep Research on AI Studio Soon? 👀 P. S. Just a reminder that Nano Banana 1 wasn’t better than Imagen v4

SenseTime@SenseTime_AI · 5月12日62

Thank you for the warm reception from the developer community — it means a great deal to us. 👐 SenseNova U1 efficiently unifies language and vision in a single model — semantic understanding, pixel-level generation, and complex infographic creation. Excited to see what you build! @HuggingModels

译SenseNova U1是一款高效统一语言与视觉的单模型，具备语义理解、像素级生成和复杂信息图创作能力。该模型被描述为能够阅读文本、生成图像、编辑照片及处理图文交错任务的“任意到任意”Transformer，如同集成了创意工作室功能，重新定义了多模态AI。开发者社区对其反响热烈。

Rohan Paul@rohanpaul_ai · 5月12日62

Thinking Machines is replacing turn-taking AI with always-present AI. They just announced TML-Interaction-Small, a 276B-parameter MoE model with 12B active parameters that treats conversation as a live stream instead of a stop-start chat box. Most AI voice systems still behave like walkie-talkies: you speak, they wait, they answer, then their view of the world freezes while they talk. Thinking Machines changes that by slicing audio, video, and text into 200ms micro-turns, so the model can listen, watch, speak, draw, search, and call tools while the interaction is still happening. This is why the demos feel different: the model can interrupt when context demands it, keep talking while listening, react to visual cues, track elapsed time, and hand harder work to a background model without vanishing from the conversation. The architecture is also cleaner than many current real-time systems because interactivity is trained into the model itself rather than patched together with voice detectors, turn detectors, separate speech models, and timing rules. The early numbers are strong: 0.40s turn-taking latency, 77.8 on FD-bench V1.5 interaction quality, and 43.4% on Audio MultiChallenge, which means it is not just fast, it still retains useful reasoning and instruction-following ability. The model can notice timing, silence, overlap, gestures, screen changes, and uncertainty as part of the same context.

译Thinking Machines公司发布了TML-Interaction-Small模型，旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构，将音频、视频和文本流切分为200毫秒的微轮次，使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟（0.40秒）的同时，保留了强大的推理与指令遵循能力，且交互性直接内建于模型架构，而非依赖外部组件拼凑实现。

SiliconFlow@SiliconFlowAI · 5月12日74

Sometimes it’s not just about the answer itself. How information is structured and presented is becoming part of the intelligence layer🧐

译信息的结构与呈现方式本身正成为AI智能层的关键。当前，让大语言模型以HTML格式输出，能提供比默认Markdown更丰富的视觉布局与交互性，是值得尝试的技巧。长远来看，人类虽偏好用音频输入，但视觉（图像/动画/视频）才是更理想的AI输出形式，因为大脑约三分之一皮层专司视觉处理。AI输出形态将沿“原始文本→Markdown→HTML→交互式神经视频/模拟”的路径演进，最终可能由扩散神经网络直接生成交互视频。同时，输入方式也需融合音频、文本、视频及手势等多模态交互。在人机输入输出深度融合方面，仍有巨大发展空间。