AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 906 条
全部一手资讯X论文
标签「多模态」清除
MiniMax (official)@MiniMax_AI · 6月10日46

MiniMax is live on @RespanAI Gateway Developers now have another easy way to access our models. as more teams ship AI products across text, speech, image, video, and music, we want our models right there when you need them. link in comments 👇 #MiniMax #Respan #AIGateway #MultimodalAI #AIModels #Developers #BuildWithAI

译MiniMax 在 @RespanAI Gateway 上线 开发者现在有了另一种便捷方式访问我们的模型。 随着更多团队在文本、语音、图像、视频和音乐领域推出 AI 产品,我们希望在你需要时,我们的模型就在那里。 链接在评论区 👇 #MiniMax #Respan #AIGateway #MultimodalAI #AIModels #Developers #BuildWithAI

Chubby♨️@kimmonismus · 6月10日81

Claude 5 Fable live, even in germany. Insane evals. Tessting time

译Fable 5 在几乎所有测试基准上均达到业界领先水平,在软件工程、知识工作、科学研究和视觉方面表现尤为出色。任务越长越复杂,Fable 5 相对其他模型的领先幅度就越大。已在德国上线,测试中。

OpenAI Developers@OpenAIDevs · 6月10日76

Your app can now search the web for images. Web search in the Responses API now supports image results in addition to text results, so you can build apps that surface products, places, visual references, and source links for inspiration.

译你的应用现在可以搜索网页上的图片。 Responses API 中的网页搜索现在除了文本结果外,还支持图片结果,因此你可以构建能展示商品、地点、视觉参考和来源链接以激发灵感的应用。

Fei-Fei Li@drfeifei · 6月10日78

The creativity and imagination is out of the world! So grateful that @theworldlabs got to partner with the amazing talents @withloreco to translate their incredible ideas into an interactive experiences for users to enjoy!🤩

译创意和想象力无与伦比!非常感谢@theworldlabs能与@withloreco的优秀人才合作,将他们不可思议的想法转化为用户可以享受的互动体验!🤩

fofr@fofrAI · 6月10日70

Gemini 3.5 Live translate: Stream in speech, and stream out the spoken translation. It also magically works with multiple speakers. It does not work with Klingon (I tried). Try it on AI Studio: https://aistudio.google.com/live?model=gemini-3.5-live-translate-preview

译Gemini 3.5 Live translate:流式输入语音,并流式输出口语翻译。 它还能神奇地支持多人说话。 它不支持克林贡语(我试过)。 在AI Studio上试试: https://aistudio.google.com/live?model=gemini-3.5-live-translate-preview

AK@_akhaliq · 6月10日66

Latent Spatial Memory for Video World Models

译视频世界模型的潜在空间记忆

Google Gemini@GeminiApp · 6月10日51

Gemini 3.5 Flash can process complex visual data and translate it into functional, interactive code. Watch Gemini analyze lighting from a reference image, and build an interactive 3D visualizer to preview the setup.

译Gemini 3.5 Flash 能处理复杂视觉数据,并将其转化为功能性的交互式代码。 观看 Gemini 分析参考图像中的光照,并构建一个交互式 3D 可视化器来预览该设置。

AK@_akhaliq · 6月10日51

SpatialWorld Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

译SpatialWorld 评测多模态智能体在真实世界任务中的交互式空间推理能力

Rohan Paul@rohanpaul_ai · 6月10日76

Fascinating. Google just released Gemini 3.5 Live Translate. A live speech-to-speech translation model that starts speaking in another language while the original speaker is still talking. Older translation systems often wait for a full sentence, because early words can be misleading until later words reveal tense, intent, or context. Gemini 3.5 instead runs streaming translation, where the model listens, interprets partial meaning, predicts what can safely be translated, and keeps updating as new speech arrives. supports 70+ languages, stays only a few seconds behind the speaker, and can preserve pacing, pitch, and intonation across longer sessions. Rolling out to Gemini Live API, businesses through Google Meet preview, and regular users through Google Translate on Android and iOS.

译Google 推出 Gemini 3.5 Live Translate,一款实时语音转语音翻译模型。它在原说话者尚未说完时即开始翻译,无需等待完整句子。模型采用流式翻译,边听边更新结果,支持 70 多种语言,延迟仅数秒,并能保持语速、音高和语调。该功能通过 Gemini Live API、Google Meet 预览版以及 iOS/Android 版 Google Translate 应用推出。

Logan Kilpatrick@OfficialLoganK · 6月10日79

Introducing Gemini 3.5 Flash Live Translate, our real time speech to speech translation model which supports more than 70 languages (both in and out), and is so natural. It is available in the Gemini API, AI Studio, & Google Translate right now + coming soon to Google Meet!!

译Introducing Gemini 3.5 Flash Live Translate,我们的实时语音到语音翻译模型,支持超过 70 种语言(输入和输出),并且非常自然。 现在已在 Gemini API、AI Studio 和 Google 翻译中可用,并即将登陆 Google Meet!

Google AI Developers@googleaidevs · 6月9日76

Our latest audio model, Gemini 3.5 Live Translate, takes real-time speech translation to the next level for developers by delivering low-latency translation across 70+ languages. By processing speech as it streams in near real time, the model enables devs to build low-latency audio experiences with: — Multilingual input: Understands multiple languages in a single session without needing to adjust settings. — Auto-detection: Identifies the spoken language and begins translation instantly. — Native audio processing: Generates more natural-sounding speech that preserves speakers' intonation, pacing, and pitch. — Noise robustness: Filters out ambient noise for clearer conversation in loud environments.

译Google AI 推出音频模型 Gemini 3.5 Live Translate,为开发者提供低延迟实时语音翻译,支持 70+ 种语言。模型具备多语言输入(同会话无需切换)、自动语言检测、原生音频处理(保留说话者语调、语速和音高)以及噪声鲁棒性(过滤环境噪音),可直接处理流式语音。

Google AI@GoogleAI · 6月9日85

Today, we released Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation. It supports over 70 languages and starts translating as soon as you start talking, streaming translations while listening to what you say next. No awkward pauses or choppy audio, just real connection without language barriers. So, how does it work? 🤔 The model is able to make split-second decisions to juggle speed and translation quality so conversations actually feel fluid, human, and natural. In order to do this, the model must receive and contextualize the input while simultaneously outputting the translated speech. Through this process, Gemini 3.5 Live Translate manages to stay mere seconds behind each speaker and can even maintain pacing, pitch, and intonation across extended sessions. See it in action below, or try it yourself in the Google Translate app on iOS & Android.

译Google AI 推出 Gemini 3.5 Live Translate,一款面向实时语音到语音翻译的音频模型。该模型支持 70 多种语言,可在用户说话的同时开始翻译并流式输出译文,避免尴尬停顿或断续。模型通过毫秒级决策平衡速度与翻译质量,使对话流畅自然。它可边接收输入边输出翻译语音,延迟仅比说话者慢几秒,并能在长对话中维持语速、音高和语调。目前已在 iOS 和 Android 版 Google Translate 应用中上线。

OpenAI Developers@OpenAIDevs · 6月9日60

23,000+ ChinaRxiv papers are now freely available with more complete English translations after one developer replaced a complex OCR pipeline with GPT‑5.5. https://x.com/seconds_0/status/2059829527199592899

译23,000+ 篇 ChinaRxiv 论文现已免费提供,并带有更完整的英文翻译,源于一位开发者用 GPT-5.5 替换了复杂的 OCR 管道。

小互@xiaohu · 6月9日74

http://x.com/i/article/2064329494736011265 # 揭秘苹果全新 Siri AI 背后模型:苹果如何将 200 亿参数的模型塞进手机里 苹果在 WWDC 2026 上发布了全新的 Apple Intelligence(苹果智能)和独立的 Siri AI。 本次更新背后,都是由它的第三代 Apple Foundation Models(苹果基础模型,下面简称 AFM 3)驱动。 Apple Foundation Models 是苹果给自家 Apple Intelligence 做的一整套自研基础模型,从能跑在手机上的小模型,到跑在云端的大模型都有。这次一口气来了五个。 本次最大的看点是,苹果把一个 200 亿参数的大模型真的塞进了你的手机里,用了一套挺巧的工程办法。 这篇文章一次讲清楚: - 五个模型分别是谁、各管什么 - 手机装不下大模型这个老难题,苹果这次怎么绕过去的 - 这些模型到底能让你用上哪些新功能 - 苹果公布的评测数据该怎么看 - 一个反常的点:最在意隐私和自研的苹果,这次最强的算力全靠 Google 和 NVIDIA ## 先看看本次 WWDC 都更新了什么 ## Siri AI 新在哪:它终于像个 AI 助手了 旧 Siri 的能力基本停在“听一句指令、做一件事”。这次的 Siri AI 由 Apple Intelligence 驱动,补上了过去几年最被人诟病的几块短板。 - 能正经对话。 可以开放式提问、帮你头脑风暴、来回多轮地聊,而不是说错一个词就得重来。 - 懂你的个人上下文。 翻几年前的某张照片、找埋在收件箱深处的某封邮件、调出之前随手记的某条笔记,一句话的事。 - 能在 App 里替你动手。 基于你当下在做的事,直接在 Messages、Music、Reminders 等 App 里操作:把刚发出去的消息改一下,把车里听到的歌加进健身歌单。 - 有了世界知识。 能联网查最新信息,问事实、问菜谱、问旅行建议都行。关键变化是:过去 Siri 答不上来就把你甩去网页搜索,现在它自己答,并标注信息来源。 - 有了独立的 Siri App。 所有对话集中一处,iPhone 上问一半、换 iPad 接着聊,常用对话还能 pin 住。这是苹果第一次把 Siri 做成一个像 ChatGPT 那样的“目的地 App”,而不只是个唤醒词。 - CarPlay 里也能用。 开车时直接问“朋友推荐的那个登山口在哪”,不用手离方向盘。 - 声音能自己调。 音高、语速、语气、口音都能调到顺耳为止。不过表现力声音这类完整体验,需要 iPhone 17 Pro、17 Pro Max 或 iPhone Air。 ## Visual Intelligence:看到什么就能问什么 过去只在 iPhone 上的视觉识别能力 Visual Intelligence,这次扩展到了 iPad、Mac 和 Apple Vision Pro。 - 相机里的 Siri 模式。 抬手一拍,就能问眼前这东西是什么、有什么营养。 - 新的智能操作。 吃完饭对着账单分账、查面前菜品的营养信息、把一张卡片导入 Apple Wallet,都能一步完成。 - 各设备的用法。 Mac 上截屏后直接搜索或操作;iPad 上截屏后用手指点、或用 Apple Pencil 圈出想问的东西;Apple Vision Pro 上看着某个真实物体就能问。 ## Apple Intelligence 这一轮还更新了什么 这批功能大多随秋季系统一起来,跟 Siri AI 本体的时间表不一样。 - 照片编辑更强:拍完之后还能用 Spatial Reframing 重新构图、用 Extend 把画面往外扩、用增强版 Clean Up 抹掉更大的物体。 - Image Playground 能出写实图了:支持照片级写实在内的几乎任何风格。配套的 Image Wand 能在备忘录里把草图直接变成图(已上线)。 - 随处可写、边写边校:Write with Siri 能在几乎任何输入框里从零起草或帮你改稿,在 Messages 和 Mail 里还会模仿你的文风、标点和语气;Proofread 则随时检查语法拼写。 - Safari 更聪明:标签页能按主题自动分组;Notify Me 帮你盯着某个页面的降价、补货,到点提醒;还能做扩展来自定义网页内容。 - 密码一键修:Passwords App 发现弱密码或已泄露的密码,能直接替你改掉。 - 描述一句就能办事:用大白话说需求,Shortcuts 自动把跨 App 的动作串成一条快捷指令;日历也能“把午餐会改成喝咖啡”这样直接改。 - 几个先出英文的功能:Messages/Mail 的快捷建议 Suggestions、打商户电话时自动递确认码的 Call Context、以及精度更高的听写 Dictation,都标注“先出英文”。 - 已经上线的部分:实时翻译 Live Translation(Messages、FaceTime 字幕、电话、AirPods 对话)现已可用;家庭 App 的 AI、健身搭子 Workout Buddy 等也有增强。 ## 再把五个模型说清楚 五个模型和 Google 合作定制开发,按跑在哪里分成两组。 端侧(直接在你设备上跑)两个: - AFM 3 Core:上一代那个 30 亿参数稠密模型的升级版,主要是质量更好了。 - AFM 3 Core Advanced:苹果最强的端侧模型,原生支持多模态。200 亿参数,属于 MoE(Mixture of Experts,混合专家模型),每次根据任务只激活其中 10 到 40 亿。 服务器(跑在苹果的 Private Cloud Compute 上)三个: - AFM 3 Cloud:服务端的主力,主打快和稳。 - ADM 3 Cloud(图像):专门做图像生成和编辑的模型,注意名字是 ADM 不是 AFM,单独一条线。 - AFM 3 Cloud Pro:最强的服务器模型,专门接 Agent 工具调用、复杂推理这种最吃性能的活。 一句话记住分工:日常的、轻的、要保护隐私的,尽量在手机上用 Core 系列解决;真正难的、重的,才送到云端的 Cloud 系列。 ## 核心看点:手机装不下大模型,苹果怎么解决 先说普通人能懂的痛点。你希望手机上的 Siri 又聪明又快,但有个硬约束:手机的内存(就是那块动不动 8GB、16GB 的 RAM,业内叫 DRAM)就那么大。模型越大、参数越多,占的内存就越多,一个真正大的模型,根本塞不进手机内存。 ## 先说为什么装不下:内存太小 手机里有两种存数据的地方,性格正好相反。 一种是内存(DRAM),读写极快,但容量小又贵,iPhone 上通常就几 GB,还得分给系统和所有 app。 另一种是闪存(NAND),就是平时存照片、装应用的那块,容量大得多也便宜得多,但读写慢,尤其往内存里搬数据时,那条通道的带宽远远不够快。 模型要跑起来,它的权重(也就是模型里那几百亿个数字)必须待在内存里,芯片才能随时取用。 传统大模型不管什么架构,都默认把全部权重一次性塞进内存。一个 200 亿参数的模型,光权重就要占十几 GB,手机内存根本放不下。这就是过去端侧模型普遍只做到二三十亿参数的原因,再大就溢出了。 这就像,想把一整座图书馆的书全摊在一张小书桌上,桌子太小,摊不开。 ## 业界省内存的常规思路,在手机上偏偏行不通 这个常规思路叫混合专家(Mixture-of-Experts,MoE)。它把一个大模型拆成很多个“专家”,可以理解成一堆各有所长的小网络;回答某个问题时只挑其中几个上场,其余的歇着。这样每次计算只动用一小部分参数,又快又省算力。 但 MoE 省的是“每次算多少”,没省“总共要放多少”。标准 MoE 仍然要求全部专家都待在内存里随时待命,因为它每生成一个字(token)就要重新挑一批专家。换得这么勤,专家就必须近在手边。这在数据中心的 GPU 上不是问题,显存大、专家又都连在一起;可搬到手机上就卡死了:要是专家存在慢速的闪存里,每吐一个字都得去闪存搬一批权重进内存,那条慢通道根本喂不动,模型会卡到没法用。 ## 苹果的解法:换个地方放,换个频率取 苹果的解法分两步。 第一步,把完整模型挪出内存,存到闪存里。 完整模型不放 DRAM 内存,而是存到闪存(NAND)里,就是平时存照片、存 App 的那块,空间大得多(一般 256GB 起步)。需要哪几个专家,再从闪存搬进 DRAM 来用,就像书放在图书馆的书架里,用哪本取哪本。 第二步,把路由决策从“按 Token”改成“按 Prompt”。 这步是整套设计的关键,它得先解决一个绕不开的硬约束:闪存到内存的搬运带宽,远远跟不上模型逐字生成的速度。要是照搬普通 MoE“每个 Token 换一批专家”的做法,光等专家从闪存搬进内存,就慢到没法用了。 为此苹果自研了一套 Instruction-Following Pruning(指令跟随剪枝,简称 IFP)技术,解决两件事:权重放在哪、以及多久换一次。 它是一个轻量的稠密小模块,在开始处理你这条问题时就一次性选定一批专家,整段生成里只周期性地再调整,而不是每个字都重选。专家搬运的次数因此被压到很低。落到画面上就是:你问一句话,模型先用极短的时间判断这题归哪几支专家管,把它们调进内存,接下来这一整段回答基本就靠这批专家了。 专家本身还分两类,进一步省搬运: - 共享专家(shared experts):不管什么任务都常驻在内存里; - 路由专家(routed experts):只在跟当前任务相关时才临时搬进来。 打个比方:一个手艺人有几千件工具,工作台(内存)小得只摆得下几件,于是他把全套工具锁进隔壁又大又慢的仓库(闪存),工作台上只留当前这单活真正要用的那几件。麻烦在于仓库远、取一趟慢,没法每拧一颗螺丝就跑一趟换工具,那样活儿没法干。他改了两条规矩,正对应苹果的两个设计: - 按整单活备料,不按每颗螺丝。 每接一单活(一次完整的 prompt),开工前先看一眼整张工单,一次性把这单大概率用得上的工具搬上工作台,干的过程中隔一阵再补一次。对应到模型,就是那个轻量模块在开始处理时一次性选定一组专家,生成过程中周期性重选,而不是像标准 MoE 那样每个字都重挑。 - 常用工具一直摆台上。 有些工具几乎每单活都用,干脆固定放在工作台不收回去,对应常驻内存的共享专家;少量按需调入的,才是路由专家。 合起来就是:完整的 200 亿参数躺在闪存里,当模型的“账面身家”;内存里任何时刻只装当前激活的那 10 到 40 亿参数。模型的规模可以做得很大,跑起来却只占一小块内存。 这套设计还白捡一个好处:按难度伸缩。 苹果把它叫推理时弹性(inference-time elasticity)。既然专家是按需调入的,那激活多少参数就也能随任务难度变:简单的问题少调几个专家、少激活参数,复杂的多调几个。前面说的 10 到 40 亿参数不是一个固定值,而是按每次请求的难度临时定的。于是同一个模型,既能轻快地应付日常小事,又能在难题上把参数顶上去,延迟还都压得住。在我看来,这才是这代端侧模型真正的工程突破,比 200 亿这个数字本身更重要。 ## 那它还解决不了什么? 端侧再巧,单次激活的规模终归有上限。真正复杂的推理、Agent 多步操作这类重活,还是得交给云端的 Cloud Pro 大模型来处理。 ## 那么 Google 到底参与了多少? 这是整件事的关键,也是外界误读最深的地方。 Subramanya(苹果 AI 副总裁)在发布会上称:上面四个为 Apple 芯片定制的模型,是用苹果自研数据训练,再“从 Google 的 Gemini 前沿模型蒸馏(distillation)精炼”而来。蒸馏的意思是,用一个更强的模型当老师,把它的能力压缩进自己更小的学生模型里,Gemini 只在训练环节出现,不进入成品。 Federighi(苹果软件工程高级副总裁)更直接:“我们用到的 Google Assistant 的量是零。” 具体拆开是三个“不用”: - 不用 Gemini App,用户交互时不碰任何 Google 客户端代码; - 不用 Google 部署给自家客户的那些模型,也不用它的部署基础设施; - 查询世界知识不用 Google 的搜索,用苹果自建多年的 World Knowledge Service。 唯一真正用到 Google 的,是 AFM 3 Cloud Pro 云端模型。这个模型为了上线,苹果联合 Google 和 NVIDIA,把私有云计算部署到了 Google 云里的 NVIDIA GPU 上。它的性能被描述为“与 Gemini 前沿模型相当”。 换句话说,被大家解读成“苹果的 Siri 大脑由 Gemini 驱动”的那些报道,落到产品上就是五个模型里的一个跑在 Google 的硬件上,其余四个从头到尾是苹果自己的。 ## 云端的两处架构升级 端侧那个模型的看点是怎么把大模型塞进小内存,云端的看点则是怎么把规模和质量做上去。三个云端模型里,主力 AFM 3 Cloud 和图像模型 ADM 3 Cloud 各做了一处升级。 AFM 3 Cloud:把去年的 PT-MoE 又拧紧了一圈。 AFM 3 Cloud 是云端主力,接的是端侧扛不动、要送上私有云的活。它的底子是苹果去年第二代就引入的一种服务端架构,叫并行轨道混合专家(Parallel-Track Mixture-of-Experts,PT-MoE)。大体上,它把一个大模型拆成几条并行的“轨道”,每条轨道是个更小的、自带专家路由的子模型,输入分别在各条轨道里走,轨道之间只在头尾必要的节点上同步一次。这样做的好处是同步等待大幅减少,专家可以铺得更多,质量上去了,延迟和成本却没跟着失控。 这一代不是换架构,而是在 PT-MoE 上做了几处关键调校,效果落在两点:训练更稳,规模拉大时不容易崩;以及在它的上下文窗口里,对信息的推理和准确召回更强。后面这点对服务端格外要紧,复杂的查询往往要模型在一大段上下文里翻找、对照、推断,记不住或记岔了,整个回答就废了。 ADM 3 Cloud:一个底模,挂一堆适配器。 先留意这个模型叫 ADM,不是 AFM,它是苹果这套体系里专门的图像模型,管生图、修图和 Genmoji。苹果给它定的两个目标是强可控性和参数效率:既要做到你说什么它画什么、改哪儿动哪儿,又不靠堆出一个臃肿的大模型来实现。它还能跨不同的画幅比例和分辨率工作,不挑尺寸,并且会借助更大的 AFM 家族来给创作和编辑当参谋。 它的搭法是另一个重点:基础模型本身原生就会生图、编辑、Genmoji 这些通用能力;而像照片里的 Spatial Reframing(空间重构)、用手指直接在图上涂改、Image Playground 里的个性化,这些更具体的功能不是各训一个模型,而是在同一个底模上挂不同的适配器(adapter)。适配器是一小块外接的、专门微调过的权重,按功能换上即可。一个底模配一组小适配器,比为每个功能各养一个大模型省得多,往后加一个新的图像玩法也更快。 ## 隐私:连苹果都看不到 三个云端模型都跑在 Private Cloud Compute 上。它的承诺是:用户数据从不被存储、从不被共享,连苹果自己都看不到,只在处理这一次请求时用一下。这个承诺不是口头的,第三方研究者可以持续验证。 即便是跑在 Google 云 NVIDIA GPU 上的 AFM 3 Cloud Pro,同样的隐私保证也不打折。Google 也在合作宣布当天确认,不会从这笔 Siri 交易里拿到苹果用户的数据。 训练这一层同样划了线:不使用用户的私人数据和交互数据,并尊重网站发布者退出训练的权利。 ## 训练怎么做的 - 预训练:在最新一代云端 TPU 上扩大规模训练。所有模型先共享同一个初始基座,再分化成各自的架构和用途,分别加上音频、图像理解、长上下文推理、视觉生成等能力。 - 后训练:监督微调(supervised fine-tuning)加多阶段强化学习。 - 压缩上线:用量化感知训练(Quantization Aware Training)大幅压缩模型,同时保住准确率。这也是 200 亿参数能在手机上跑起来的另一半原因。 ## 评测数字 苹果用人工评分给出了一组对比,挑几个有代表性的: - AFM 3 Core(端侧文本):在 45.6% 的提示上被偏好,上一代是 23.3%。 - AFM 3 Cloud(云端文本):在 64.7% 的提示上被偏好,对比 2025 年的服务器模型只有 8.7%,差出一整个代际。 - 语音(5 分制 MOS 评分):AFM 3 Core Advanced 拿到 4.15,现役系统 3.87;在对话场景下差距更大,4.24 对 3.82。苹果特别提到,MOS 评分涨 0.1 用户就能明显感知,0.28 和 0.42 的差是实打实的。 - 听写:整体质量上 AFM 3 Core Advanced 被偏好 44.7%,旧听写系统 17.6%。 需要说明的是,这些都是苹果自己的人工评测,不是第三方公开基准。苹果预告今年夏天稍晚会出技术报告,含更新的评测和基准,到时候才好横向比。 ## 写在最后 苹果这次确实把 Siri 该有的样子端出来了:能对话、有世界知识、有独立 App,第一次正面站到了 ChatGPT 和 Gemini 对面(哪怕这身本事有一半是 Gemini 教出来的)。 虽然还是被各种吐槽说Siri AI基本还是相当于去年的 ChatGPT 而已,甚至还不如豆包… 但是从这次底层模型来看,起码基础牢固了,苹果并没有直接去用Google的模型来全盘替代,还是坚持走自己的路线。 延续了苹果一贯的稳扎稳定(挤牙膏)的作风… 基本盘还是很稳的… 所以这依旧是很苹果的一次更新:不抢第一,慢,被骂挤牙膏,但每步都踩在自己能长期攥住的地方。 短期看,Siri 还得被拉去跟 ChatGPT、豆包比嘴皮子,未必讨好;长期看,基本盘反倒是这场牌局里最稳的几家之一。 官方介绍:https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models

译苹果在WWDC 2026发布全新Siri AI,由第三代Apple Foundation Models(AFM 3)驱动,共五个模型:端侧AFM 3 Core(30亿)和AFM 3 Core Advanced(200亿MoE,每次激活10-40亿);服务器AFM 3 Cloud、ADM 3 Cloud(图像)、AFM 3 Cloud Pro(Agent/推理)。核心创新将200亿参数模型塞入手机:权重存闪存,自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token,大幅降低搬运次数。最强算力依赖Google和NVIDIA。

Tencent Hy@TencentHunyuan · 6月9日74

🚀Introducing UniRL, an RL infra for unified multimodal models. Together with two new RL algorithms: DRPO and Flow-DPPO. One RL loop across diffusion/flow matching models, LLMs/VLMs, and unified multimodal models👇 Code: http://github.com/Tencent-Hunyuan/UniRL (yes — U(you)-ni-(need) RL 😉)

译🚀推出UniRL,一个用于统一多模态模型的RL基础设施。附带两种新RL算法:DRPO和Flow-DPPO。 一个覆盖扩散/流匹配模型、LLM/VLM以及统一多模态模型的RL循环👇 代码:http://github.com/Tencent-Hunyuan/UniRL (是的——U(you)-ni-(need) RL 😉)

Tencent Hy@TencentHunyuan · 6月9日67

🚀Introducing UniRL, an RL infra for unified multimodal models. Together with two new RL algorithms: DRPO and Flow-DPPO. One RL loop across diffusion/flow matching models, LLMs/VLMs, and unified multimodal models👇 Code: http://github.com/Tencent-Hunyuan/UniRL (yes — U(you)-ni-(need) RL 😉) 1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → score → advantage → update → sync — across model families. Model and algorithm are two independent axes, so your coverage is the model × algorithm product, not a fixed recipe menu. 2、One loop, every modality: text→image, text/image→video, vision-language, text-only LLM and VLM, the LLM→diffusion prompt-enhancer, and unified autoregressive+diffusion generation (Hunyuan-Image 3 and Bagel) — a model class no single-purpose RL repo can even express. 3、Built to scale: pluggable rollout engines (train-side / SGLang / vLLM-Omni) behind one typed contract, FSDP2 sharding, and three deployment modes from a single config knob. 4、Two team-original algorithms headline the release: FlowDPPO: Policy optimization for flow/diffusion models with trust-region masks based on exact divergence (See our paper: Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models https://github.com/Tencent-Hunyuan/UniRL/blob/main/FlowDPPO/HY_FlowDPPO.pdf) DRPO: LLM RL with a smooth, advantage-weighted quadratic regularizer (See our paper: Rethinking the Divergence Regularization in LLM RL [https://arxiv.org/abs/2606.09821])

译腾讯混元推出UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环(生成→评分→优势→更新→同步)覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型(如Hunyuan-Image 3和Bagel)。模型与算法作为独立轴,可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎(训练侧/SGLang/vLLM-Omni)、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化;DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。

数字生命卡兹克@Khazix0918 · 6月9日70

http://x.com/i/article/2064208729172746240 # 帮大家总结了一下凌晨的苹果WWDC26。 就在凌晨,苹果的WWDC 2026结束了。 这是Tim Cook作为CEO最后一次站在WWDC的舞台上了,9月1号,他就会把位置交给硬件工程高级副总裁John Ternus,所以今年这场,多少带了点告别的意思。 但发布会本身,坦率的讲,还是那个苹果。 不惊不喜,稳稳当当。 整场下来最大的主题就一个,还是AI,比如跟Gemini的合作终于落地了,比如Siri终于有了个AI的后缀,比如各种IOS的APP,也都往AI化的方向一步步集成。 不过苹果还是那个苹果,动作慢的可怜,并且最难崩的依然是国区几乎都不支持。 原话是: 不过,这些功能的更新还是值得一看的,以及国内到底苹果会跟谁合作,还是一个意思的话题。 我也通宵给大家蹲完,然后整理完了。 希望对大家有用。 一. Apple Intelligence新架构 先说底层,因为后面所有AI相关的东西都建立在这套新架构上。 1. 跟Google Gemini的深度合作 这次苹果也终于官宣了。 Apple Foundation Models的新一代是跟Google合作,基于Gemini家族一起来做的,搞了5个模型,然后苹果把这些模型适配到了端侧运行和Private Cloud Compute服务器上运行。 Private Cloud Compute就是苹果专门为AI搭建的一套云计算基础设施,跑在苹果自研芯片上,用的是一个从iOS裁剪出来的专用操作系统。核心承诺是,你的数据端到端加密,只用于处理你的请求,处理完立刻删除,不存储、不留痕,连苹果自己的工程师也看不到你的数据。 再细节的参数啥的就没说了,反正就是苹果承认了自己在大模型基础能力上追不上第一梯队,选择花钱买他们认为对普通消费者来说最好的底座,然后在上面做自己擅长的系统集成和体验设计。 策略上说得通,面子上。。。 面子有啥用你说对吧。 2. 双端侧模型 苹果今年的端侧模型分了两档。所有支持Apple Intelligence的设备都有一个基础版端侧模型。但在能力强一点的的Apple设备上,比如iPhone 17 Pro、iPhone 17 Pro Max、iPhone Air、M4 及以上且至少 12GB 统一内存的 iPad、M3 及以上且至少 12GB 统一内存的 Mac,苹果额外部署了一个更强的第二版。这两个端侧模型分别是: AFM 3 Core,一个3B的小模型。AFM 3 Core Advanced,20B的MoE模型。这个更强的模型多出来的核心能力是语音和更高精度的听写等功能,它能听懂语音也能生成语音。所以像Siri更有表现力的新声音、更精准的全系统听写这些功能,都只有跑得动第二版模型的设备才能用。 3. 系统架构 有了模型之后,对模型的调度还是需要一些设计的。苹果做了一个叫系统编排器(System Orchestrator)的东西,它是整个Apple Intelligence的调度中心,负责协调四大系统级能。 上下文理解。你设备上所有的内容,照片、邮件、备忘录、消息,都通过Spotlight的语义索引被组织起来了。 广泛世界知识。比如你问世界杯赛程是什么,系统编排器会让Apple Intelligence联网去搜索,然后通过Private Cloud Compute来生成回答。 App Actions。这是让Siri能动手做事的关键。系统编排器知道你手机上每个App能做什么(通过App Intents框架),当你说发消息给某某的时候,它会调用Messages来执行。理论上,任何适配了App Intents的第三方App都能被Siri调用。 屏幕感知。系统编排器能看到你当前屏幕上显示的内容。比如你正在Safari里看一篇文章,这时候问Siri一个问题,它能结合你正在看的内容来给出更相关的回答。 这四个能力组合在一起,就是苹果所说的以你为中心的AI,也是硬件跟AI结合的一个比较完整的方案。 4. 隐私 他们的原话是: We believe privacy in AI is non-negotiable. 我们认为,AI中的隐私是不可谈判的。 苹果的态度是,很多AI厂商在嘴上说隐私,但默认情况下都在保留你的个人交互数据,把保护隐私的责任推给用户。 苹果的方案就是前面说的端侧处理+Private Cloud Compute,数据不存储、不可访问,只用于执行请求,外部专家可以随时审计。 二. Siri AI 今天真正的重头戏,也是苹果最大的发布了。 给新版Siri正式命名为Siri AI。 1. 核心能力升级 Siri AI基于整套新的Apple Intelligence架构,集成了上面提到的很多的新能力。 苹果的说法是,Siri现在是一个“有了质的飞跃”的助手。 然后基于这次的新Siri AI,他们做了一些演示。 演示一,问答+提醒+音乐。 问“旧金山的某位歌手演唱会什么时候”→ Siri给出答案(7月26号)→ 追问怎么买票 → Siri说要抽签 → “抽签开始的时候提醒我”→ 设好提醒 → “放一首她的新单曲” 演示二,屏幕感知+个人上下文+路线规划 看到一张照片问“这是哪”→ Siri识别出圣克鲁兹海岸的天然桥州立海滩 → “我朋友Jeff最近搬到附近了,他新家在哪”→ Siri从消息记录里找到Jeff发过的地址 → “给我导航到那个拱门,中间停一下Jeff家”→ Siri规划路线 演示三,照片筛选+共享 “给我看上周在沙斯塔山的照片”→ Siri搜索照片 → “只把有Bryce、Madison和Quinn的照片加到家庭共享相册”→ 完成 演示四,对话式体验 查世界杯开幕周末赛程 → “我想为巴西vs摩洛哥那场办个观赛派对,给我两个国家的经典菜”→ Siri给出菜品(还带图片)→ “Maria最近提到的那个甜点是什么”→ Siri搜索消息找到椰子饼干→ “把这些整合成一个菜单”→ Siri生成创意菜单 → “发消息给Gold Chasers群组问他们要不要来,附上菜单”→ 发送 演示五,Mac上的对话式Siri Siri也集成进了Spotlight。 在Spotlight里输入问题就能启动跟Siri的对话,窗口可以拖拽和调整大小。 演示了让Siri分析多个不同格式的文件比较三个棚子的报价,然后结合儿子之前发的消息里提到的电路问题来做推荐,最后让Siri直接起草一封邮件给选中的供应商。 大概就是这样。 我的感受是,怎么说呢。 2026年了,Siri AI的演示核心还是问答、搜索个人信息、发消息、设提醒这些事。对话式体验确实比以前强了不少,能连续聊、能带上下文了,但说实话,这些demo跟现在的ChatGPT、Claude比,谈不上什么惊喜。 最关键的是,没有看到真正的Agent能力。也没有看到Siri自主规划、自主执行多步任务、自主调用多个App完成一个复杂目标的场景。 苹果说了App Actions,但演示里最复杂的也就是搜索照片→筛选→加到共享相册这种程度。 这块确实是有一点失望。 2. 新语音体验 在支持第二个强端侧模型的设备上,Siri有了全新的语音。 更有表现力,语调变化更自然。 苹果还让你可以自定义Siri的语音风格,调表现力和语速,更亲切更好玩一点。 3. 全系统听写升级 同样需要第二档端侧模型,新的听写引擎在拼写、标点和大小写上都更精准了。 因为它是内建在系统键盘里的,所以不管你在哪个App里,只要调出键盘就能用。发布会上提到的场景是“在地铁上用语音发消息”和“边想边说地用日记App记录”,都是日常会用到的,这个我觉得还是比较刚需的,好评。 4. 视觉智能 iPhone上,Visual Intelligence(视觉智能)集成进了相机App,新增了一个Siri模式。 按快门键让Siri看到你看到的东西,然后给你有用的回应,可以下拉查看详细信息、问后续问题。 5. 写作工具 + Siri集成 写作工具现在更深度地跟Siri结合了,你可以在任何能打字的地方用自然语言描述让Siri从头生成文本。 在邮件和信息里,Siri还能根据你跟特定联系人的沟通风格来调整语气。 另外,Apple Intelligence现在全系统自动校对了,你在任何App里打字,它都会自动检查拼写和语法,不用你手动触发,大多数第三方App也支持。 6. Siri独立App + 跨平台 苹果给Siri做了一个独立的App,这是第一次。 现在有了独立App之后,你所有跟Siri的对话都会被保存在这里,可以随时回看。 最重要的是跨平台同步,你在iPhone上跟Siri聊了一个话题,打开iPad上的Siri App可以看到这段对话,继续往下聊,在Mac上也一样。 对话历史通过iCloud加密同步,苹果看不到你的对话内容。 Siri AI还扩展到了watchOS(手腕上直接问)和visionOS(3D可视化的Siri,放在你空间里的任何位置,看着它说话就行,不用说「hey Siri」)。 然后新版的Siri,目前只支持英语,后续会扩展其他的语言,欧盟和中国都目前不可用,可用时间未知。 三. APP智能化 反而是我今天觉得比较惊喜的部分。 让AI渗透进所有人的生活中,确实还是得从老的APP改造入口,是最能进日常场景的。 1. Safari 三个新功能。 智能标签页整理,Safari用Apple Intelligence分析你打开的每个页面,自动按主题分组。你浏览的时候,相关新标签页会自动归到对应主题下,可以一键关掉整个主题或者存为标签页组。 Notify Me,你可以用自然语言告诉Safari你在等什么变化(比如某个商品补货、某个报名开放),然后关掉那个标签页,Safari会自动监控,变化发生时推送通知。 这个功能太实用了,不知道执行效果怎么样,但思路是对的。 Describe an Extension,用自然语言描述你想要什么,Safari帮你生成一个自定义扩展来调整网页内容,比如在工具栏加一个按钮来保存和评分你试过的食谱。 还有一条,Safari所有智能功能都不追踪你的浏览数据,不跟任何人分享,包括苹果自己,然后稍微内涵了一下友商。。。 “不像某些浏览器”。 2. 密码App 密码App现在已经能提醒你弱密码和泄露密码了。 新功能是,它现在能自动帮你更新密码,背后是Apple Intelligence和Safari配合,自动导航到对应网站、登录、改密码。 一个“agentic”的动作,难得见到苹果用这个词。。。 3. 短信 Messages现在能理解对话上下文,提供一键建议。 比如有人提到某个事,Messages会建议你创建提醒或备忘录,有人问你要照片,Messages帮你根据关键词、地点和人名搜索最合适的照片。 4. 邮件 邮件也有了更智能的上下文建议,让你快速用喜欢的App(包括第三方App)采取行动。 5. 日历 可以用自然语言添加事件了。 你打字的时候,日历会自动识别联系人、地点,填上标题。 编辑也更智能,比如把“每周”改成“每两周”,日历自动调频率。 6. 电话 苹果把这个电话的功能叫Call Context。 这个是我的刚需。 打电话给商家的时候,电话App可以主动从你其他App里找相关信息。比如你打电话给航空公司改机票,它能自动从邮件里找到你的确认码。 而且全部端侧运行,看的是你打给谁。 但是咱就是说,新AI上国内的时候,咱能不能把那些恶心的营销电话也都用AI处理一下。。。 7. Home 家庭App可以支持用Apple Intelligence理解摄像头通知,把相关的通知合并成一个持续更新的活动通知。 还能分析录像片段,生成描述,支持用自然语言搜索录像内容(比如搜快递),支持4K分辨率回放。 8. 快捷指令 这个更新也挺好的,类似飞书的AI生成工作流。 快捷指令现在支持用自然语言描述你想要的自动化,Apple Intelligence帮你组装所有步骤。 演示里的例子是,“当我离开公司时,发消息告诉佩德罗我在路上,附上到家的预计时间”→ 快捷指令自动创建了一个自动化,检测离开公司地址 → 用地图计算到家时间 → 用信息App发送。 还能追加描述来调整,比如自动播放最爱的播客。 四. 创意与影像 这块苹果也用AI雕了一些有意思的花。 1. Image Playground大升级 Image Playground这次大幅升级了一下。 核心变化,支持写实风格了,之前只能生成那种卡通/插画风格,现在用Private Cloud Compute上的跟Gemini搞的新生成模型,可以做高质量的各种风格图片。 毕竟你都用Gemini了,生图再不迭代一下,那就真说不过去了。 你可以用照片库里的人来生成图片,用自然语言描述修改,用触摸手势圈选对象来移动/缩放/修改。 还能选择不同的画幅,生成联系人海报和锁屏壁纸。 同时,给开发者也开放了Image Playground API。 2. Photos AI编辑三件套 Cleanup升级,去除干扰物的效果更好了,复杂场景下的填充更真实。 Extend,扩展图片边界,给主体更多空间,或者调整画幅时不用裁掉重要内容。 Spatial Reframing(空间重构),这个是今年Photos里最酷的新功能。你可以在拍完之后重新调整照片的构图,就像你在拍照那个瞬间移动了相机一样。 它用的是端侧的空间模型做实时预览,然后用Private Cloud Compute上的生成模型来填充透视变化产生的新区域。只生成空白区域的内容,原始照片的部分保持不变。 演示效果确实不错,而且这个功能基于Apple Vision Pro积累的空间理解技术,对老照片和其他相机拍的照片也能用。 五. 开发者工具 1. Xcode 苹果说Xcode是做agentic coding最好的地方。。。 我一直不知道该从哪开始吐槽起。。。 反正这次也做了一些更新,也基本围绕的着AI。 比如它现在能一键把你的整个App本地化成其他语言,能跟模拟器里的虚拟设备直接交互(以前只能看代码),还支持自定义skills来扩展助手的能力。 然后呢Xcode的代码助手现在可以选择不同的AI模型了,包括Google的Gemini。。。 你还可以把它跟Figma和GitHub这样的外部工具连起来,让代码助手能够参考设计稿和代码仓库。测试方面,苹果推出了全新的Device Hub,把所有模拟设备和真实设备统一到一个界面里。 你可以在里面模拟多点触控操作,一键切换App的深色/浅色模式,还能动态调整App的窗口大小来测试不同屏幕尺寸下的表现。 2. Foundation Models Framework 开发者可以在App里用Apple的端侧模型,今年新增了图像输入(之前只有文本),支持自定义Skills扩展模型能力,还能用同一套Swift API调用服务器端的模型。 3. Core AI Framework 全新框架,可以在所有苹果平台上用Apple Silicon的全部算力来本地运行其他模型。这个对开发者来说可能是最实际的,意味着你可以把自己的模型或者第三方模型直接跑在设备上。 六. 体验升级 就是一些偏系统偏设计的了,跟AI关系不大了。 1. Liquid Glass优化 去年WWDC最爆的就是Liquid Glass这套全新设计语言。 好看是真好看,但争议也不小。 苹果今年也说去年太激进了,所以在IOS27上,底层优化了Liquid Glass的模糊算法,对复杂背景的弥散效果好多了。 也加了一个透明度滑块,现在,你可以自己调Liquid Glass的透明度。 macOS上还做了几个调整,工具栏更统一了,侧边栏延伸到窗口边缘,侧边栏图标恢复了彩色,所有窗口统一了更紧凑的圆角,App图标也迭代了一版,在图标内部加了多层Liquid Glass折射效果。 2. 性能提升 常规操作,比如iPhone和iPad上App启动速度快了30%,新拍的照片在图库里出现的速度快了70%,隔空投送传文件速度快了80%,iPad接外部硬盘浏览和传输文件速度快了5倍。 3. 搜索基础设施重建 苹果重建了聚焦搜索、照片和邮件背后的搜索索引,让它更稳定、更全面。 新内容几乎实时入索引,邮件搜索还加了全新的排名系统,置顶结果更准了。 4. 其他小更新 照片,iCloud共享相册终于支持Android和Windows用户加入了,还支持全分辨率共享。 AirPods,支持自定义EQ了。 Apple Vision Pro,全景照片可以变成有深度的空间场景。 地图,Flyover大幅升级,航拍影像+视觉智能模型,建筑细节和树木形态都清晰得多。 网络切换,iPhone更智能地判断什么时候该从Wi-Fi切回蜂窝(终于不用手动去控制中心关Wi-Fi了)。 信息App,低带宽环境下发大文件不会卡住对话了,会显示发送进度。 无障碍,苹果官网上列了不少Apple Intelligence在无障碍方面的集成。 VoiceOver现在能更丰富地描述周围环境和屏幕内容,Magnifier可以放大后直接问Siri,Voice Control更灵活了,可以用自然语言跟App交互。 这块发布会上没提,但确实是AI落地到实际场景里的好例子。 写在最后 今天WWDC算是平稳结束了。 这也是Cook最后主持的一届WWDC了。 苹果,这个伟大的企业,终于要交接到了下一棒人手中去。 最后,我想用我特别特别喜欢的乔布斯的一段词结尾: "向那些疯狂的家伙们致敬。 他们特立独行。 他们桀骜不驯。 他们惹事生非。 他们格格不入。 他们用与众不同的眼光看待事物。 他们不喜欢墨守成规。 他们也不安于现状。 你可以认同他们,反对他们, 颂扬或是诋毁他们。 但唯独不能漠视他们。 因为他们改变了寻常事物。 他们推动人类向前迈进。 或许他们是别人眼里的疯子, 但他们却是我们眼中的天才。 因为只有那些疯狂到以为自己能够改变世界的人, 才能真正改变世界。

译苹果WWDC 2026落幕,核心仍是AI。Apple Intelligence新架构:与Google Gemini合作开发5个模型;端侧分AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri正式命名Siri AI,基于系统编排器融合上下文理解、App Actions、屏幕感知等能力,支持连续对话、跨平台同步及独立App,但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语,国区不可用,可用时间未知。

Berryxia.AI@berryxia · 6月9日69

Apple的AI领先水平远远超乎人们的想象啊! 不信你看这个图就知道了!

译Tim Cook最后一次主持WWDC,9月1日交棒John Ternus,AI为核心。端侧3B模型AFM 3 Core,进阶层20B MoE仅限iPhone 17 Pro/M4设备,数据端到端加密。四大能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri升级连续对话/跨设备/视觉识别,上线独立App,仅英语且中国欧盟暂不可用。Image Playground支持写实生成;Xcode可选多模型;照片处理速度提升70%,AirDrop提速80%,应用启动加速30%。Agent多步任务自动化仍薄弱。

Chubby♨️@kimmonismus · 6月9日35

Even though I want to test Apple's Intelligence myself: it looks very promising and could finally provide real access to AI for the millions of Apple users.

译尽管我想亲自测试Apple Intelligence:它看起来很有前景,可能最终为数百万苹果用户提供真正的AI访问。

Berryxia.AI@berryxia · 6月9日67

没有熬夜的兄弟们来看,WWDC 2026 速览! 另插一嘴,Apple真的没有特别的新东西。 一、历史性时刻 1库克谢幕:Tim Cook最后一次以CEO身份主持WWDC,9月1日将交接给硬件工程副总裁John Ternus 2基调延续:发布会保持苹果一贯稳健风格,AI成为绝对核心主题。 二、AI架构革命 1双轨模型战略 ◦基础层:3B端侧模型(AFM 3 Core) ◦进阶层:20B MoE模型(仅限iPhone 17 Pro/M4芯片设备) ◦隐私承诺:数据端到端加密+处理即焚机制 2四大核心能力 ◦个人上下文理解(整合照片/邮件/备忘录) ◦世界知识检索(联网实时查询) ◦App Actions(调用第三方应用) ◦屏幕感知(实时界面交互) 三、Siri AI进化 1功能升级 ◦连续对话/跨设备同步/视觉识别 ◦独立App上线(支持对话历史回溯) ◦WatchOS/VisionOS多端覆盖 2现存局限 ◦仅支持英语,中国/欧盟暂不可用 ◦复杂任务处理能力弱于ChatGPT 四、应用生态智能化 应用 核心升级 Safari 智能标签分组/网页变更监控 密码 全自动密码更新 电话 Call Context来电智能识别 快捷指令 自然语言生成工作流 五、影像创作突破 1Image Playground:支持写实风格生成+手势编辑 2空间重构:拍照后重新调整构图(基于Vision Pro技术) 六、开发者工具 1Xcode支持多模型选择(含Gemini) 2Core AI Framework开放本地模型部署 七、遗留问题 1中国区功能缺失(需等待监管审批) 2Agent能力未达预期(多步任务自动化薄弱) 数据亮点: •照片处理速度提升70% •AirDrop传输提速80% •应用启动加速30% (以上数据来自卡兹克@Khazix0918 公众号总结)

译Tim Cook 最后一次以 CEO 身份主持 WWDC,AI 成绝对核心。苹果推出双轨模型:基础层 3B 端侧 AFM 3 Core,进阶层 20B MoE 仅限 iPhone 17 Pro/M4 设备。四大 AI 能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri 升级支持连续对话、跨设备同步、视觉识别及独立 App,仅限英语,中国/欧盟暂不可用。应用生态:Safari 智能标签分组、密码自动更新、来电识别、快捷指令自然语言生成。影像:Image Playground 写实生成与空间重构。开发者工具:Xcode 支持多模型,Core AI Framework 开放本地部署。遗留问题:中国区功能缺失,Agent 多步自动化能力薄弱。

Artificial Analysis@ArtificialAnlys · 6月9日59

MiniMax-M3 scores 55 on the Artificial Analysis Intelligence Index. Once the weights are released, it will be the leading open weights model M3 is @MiniMax_AI's first multimodal M-series model, adding image and video input and a 1M token context window over the text-only MiniMax-M2.7 (50). At 55 on the Intelligence Index it sits just ahead of open weights peers Kimi K2.6 (54) and MiMo-V2.5-Pro (54). MiniMax has noted they plan to release the weights within ~10 days. When MiniMax released the weights for M2.7, it was under a commercially restricted license. Key takeaways: ➤ MiniMax-M3 improves on MiniMax-M2.7 across most evaluations. HLE +9 points (28% to 37%), GPQA Diamond +6 (87% to 93%), AA-LCR +5 (69% to 74%), IFBench +7 (76% to 83%), and CritPt +3 (1% to 4%), with a small regression on SciCode (47% to 45%) ➤ M3 scores ~1670 on GDPval-AA, behind Claude Opus 4.8 (max, 1890) and GPT-5.5 (xhigh, 1769), and level with Claude Sonnet 4.6 (max, 1676). GDPval-AA measures real-world tasks across 44 occupations and 9 industries ➤ Native multimodality, scoring ~80% on MMMU-Pro. Level with GPT-5.5 (xhigh, 79.9%) and Kimi K2.6 (79.4%), behind Gemini 3.5 Flash (high, 84.3%). Not all open weights models support native vision input ➤ On AA-Omniscience, heavy abstention drives both low hallucination and low accuracy. M3 attempts only 30.9% of questions, the lowest among current peers, yielding a low hallucination rate (16.1%) and low accuracy (15.0%) ➤ MiniMax-M3's token usage is close to M2.7's, using ~91M output tokens to run the Intelligence Index (~81M reasoning) versus ~87M (~79M reasoning), while scoring 5 points higher Key model details: ➤ Context window: 1M tokens, up from MiniMax-M2.7's 200K ➤ Pricing: $0.30/$1.20 per 1M input/output tokens up to 512K context, rising to $0.60/$2.40 for 512K to 1M context ➤ Weights: Not yet released. MiniMax has stated the weights will follow ➤ Availability: MiniMax first-party API, @SiliconFlowAI, @gmi_cloud, and @novita_labs

译MiniMax推出首个多模态M系列模型M3,支持图像/视频输入及1M token上下文窗口。在Artificial Analysis Intelligence Index上得55分,超越开源权重的Kimi K2.6和MiMo-V2.5-Pro(均54)。相比前代M2.7,HLE提升9点至37%,GPQA Diamond提升6点至93%,多项基准均有进步。原生多模态MMMU-Pro约80%与GPT-5.5持平。定价$0.30/$1.20/1M tokens(512K内),512K-1M翻倍。权重计划约10天内开源。

🚨 AI News | TestingCatalog@testingcatalog · 6月9日76

WWDC 🔥: Apple has announced a new Siri AI, along with a dedicated app, customizable voices, screen and visual understanding, and more! The Siri app is supported across most platforms, including VisionOS!

译WWDC 🔥:苹果宣布推出全新Siri AI,以及专用App、可定制语音、屏幕和视觉理解等功能! Siri App支持大多数平台,包括VisionOS!

🚨 AI News | TestingCatalog@testingcatalog · 6月9日70

Most of Siri AI features on one screen 👀

译Apple在WWDC宣布推出全新Siri AI,配备独立App、可定制语音、屏幕与视觉理解等功能,Siri App支持包括VisionOS在内的多平台。主推文感叹:“大部分Siri AI功能齐聚一屏👀”

-Zho-@ZHO_ZHO_ZHO · 6月9日33

Siri AI + 空间智能生成 一顿智能后,这构图和效果还不如原图呢,这是来搞笑的???

Chubby♨️@kimmonismus · 6月9日39

- System wide awareness - Visual Intelligence in Camera App

译- 系统级感知 - 相机应用中的视觉智能

🚨 AI News | TestingCatalog@testingcatalog · 6月9日68

WWDC 🔥: New Apple Intelligence is built on top of Apple Foundation and Gemini models! Let's see what's inside 👀

译WWDC 🔥:新的Apple Intelligence基于Apple Foundation和Gemini模型! 让我们看看里面有什么👀

Chubby♨️@kimmonismus · 6月9日38

Apple Intelligence: -Personal Understand in apps. - Browse tools for web - on screen Awareness - in App usage

译Apple Intelligence: - 在应用中的个人理解。 - 网页浏览工具 - 屏幕感知 - 应用内使用

Chubby♨️@kimmonismus · 6月9日52

Siri update - image understanding - more conversational - reworked voice-tone / sound. Sounds real human

译Siri 更新 - 图像理解 - 对话更自然 - 重制语音语调/声音,听上去像真人

Google Gemini@GeminiApp · 6月9日54

We asked Gemini 3.5 Flash to bring back the classic early-2000s PC drawing experience, and it delivered in one shot. What are you building first with Canvas?

译我们让 Gemini 3.5 Flash 重现经典早期 2000 年代 PC 绘图体验,它一次就做到了。 你打算先用 Canvas 构建什么?

🚨 AI News | TestingCatalog@testingcatalog · 6月9日66

OPENAI 🔥: Users can now generate interactive charts from data and comparisons in @ChatGPTapp for web and mobile. Testing time 👀

译OPENAI 🔥:用户现在可以在 @ChatGPTapp(网页和移动端)中从数据和比较生成交互式图表。

NotebookLM@NotebookLM · 6月9日72

Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning, and a suite of new output formats. Tackling complex, multi-step research problems has never been easier. Rolling out now to Google AI Ultra subscribers.

译推出更强大的 NotebookLM 🚀 重大升级带来了对话中的智能体能力、更高级的推理以及一系列新的输出格式。处理复杂的多步骤研究问题从未如此简单。 现已面向 Google AI Ultra 订阅者推出。

Chubby♨️@kimmonismus · 6月8日54

WWDC 2026 - Apple rents Google's brain to fix Siri. What we can expect: Apple's keynote today is a software reset built around one admission: it couldn't build frontier AI alone. What to expect: - Gemini-powered Siri, a rebuilt assistant on a custom 1.2T-parameter Google model, ~$1B/year (Gurman). Runs via Private Cloud Compute, no Google training on your queries. - Siri as an app, standalone, iMessage-style chat with synced history, a "Search or Ask" Dynamic Island pop-up, and an Extensions system. Drafts emails, pulls from mail, calendar, contacts and the web. - Six OS betas - iOS 27, iPadOS 27, macOS 27 ("Big Bear"), watchOS 27, tvOS 27, visionOS 27. iOS 27 is a "Snow Leopard" cleanup release. iPhone 11 and SE2 lose support. - Liquid Glass 2.0 - system-wide opacity slider, fixes for the shadow and transparency complaints. - AI health coach - the watered-down "Health+", now fitness and wellness instead of an AI doctor (pretty cool!) - Model choice (rumored), users may pick the engine behind Apple Intelligence, with Gemini and Claude floated. - Hardware mostly later - M5 Macs, new iMac, foldable iPhone (~$2.5K, Sept), OLED touchscreen MacBook Pro, smart-home hub. Sources: TechInsider, Bloomberg, Gamebezz

译苹果在WWDC 2026承认无法独自构建前沿AI,与Google合作,基于1.2T参数的Gemini模型重建Siri,年费约10亿美元。新版Siri通过Private Cloud Compute运行,谷歌不训练用户数据;Siri成为独立应用,支持聊天、同步历史、Dynamic Island弹出和扩展系统,可起草邮件并获取信息。六个OS beta发布,iOS 27为Snow Leopard清理版,iPhone 11/SE2失去支持;Liquid Glass 2.0透明度滑块;Health+改为健身聚焦;用户或可选AI引擎(Gemini或Claude)。硬件稍后推出。

SenseTime@SenseTime_AI · 6月8日56

🙌 Shoutout to @FahdMirza for demoing 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭’𝘀 𝘁𝗲𝘅𝘁-𝗶𝗺𝗮𝗴𝗲 𝗶𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 — showing the step-by-step process of formulating a custom perfume 🧴✨ It doesn't just see images. It thinks in them — and outputs in vivid visuals 🎥 https://youtu.be/-uedweS3_w0 Explore prompt examples in SenseTime Studio's Gallery and build your own 👇 🎛️ SenseNova Studio: https://unify.light-ai.top/ (Try infographics; also join Discord for text-image interleaved gen) 🤗 https://huggingface.co/collections/sensenova/sensenova-u1 🛠️ https://github.com/OpenSenseNova/SenseNova-U1 👾 Discord: https://discord.com/invite/BuTXPHmQub

译商汤 SenseTime 展示 SenseNova U1 的文图交错生成能力,通过定制香水逐步演示,证明模型不仅能识别图像,还能以图像为思考单元输出生动视觉内容。相关示例、Gallery、HuggingFace 模型、GitHub 代码及 Discord 社区链接已同步开放。

OpenBMB@OpenBMB · 6月8日75

🚀 VoxCPM2 Technical Report is now available on arXiv! VoxCPM2 is the latest speech generation model in the VoxCPM family. Built with 2B parameters and trained on over 2 million hours of multilingual speech data, it supports 30 languages and 9 Chinese dialects, along with natural-language voice design, controllable voice cloning, and high-fidelity continuation-based voice cloning. In this technical report, we provide a comprehensive overview of: 🔹 The VoxCPM2 architecture 🔹 A unified sequence formulation for speech generation and control 🔹 The design of AudioVAE for high-fidelity speech reconstruction 🔹 Large-scale multilingual training and evaluation 🔹 Benchmark results across zero-shot and instruction-following TTS tasks With 16kHz semantic encoding and 48kHz waveform reconstruction, VoxCPM2 delivers high-quality speech generation and achieves SOTA or highly competitive performance on public TTS benchmarks. To support open research and development, we have open-sourced the model weights, fine-tuning code, and inference toolkit under the Apache 2.0 license. 📄 Paper: https://arxiv.org/abs/2606.06928 💻 GitHub: https://github.com/OpenBMB/VoxCPM We hope VoxCPM2 helps advance the open-source multilingual speech ecosystem. Feedback, experiments, and contributions are always welcome! 🔥 #AI #OpenSource #TTS #SpeechAI #VoiceAI #GenerativeAI #MachineLearning

译面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型,拥有 2B 参数,基于超 200 万小时多语言语音数据训练,支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估,以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建,在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

OpenBMB@OpenBMB · 6月8日54

🚀 The Build Small Hackathon is officially live! Check it out here: 🔗 http://build-small-hackathon-field-guide.hf.space/partners/openbmb We're proud to partner with @HuggingFace and support builders around the world with OpenBMB models. Here are some inspiring use cases built with our models: 🪐 MiniCPM-V 4.6 (image / OCR / multimodal) → Automated financial document analysis https://x.com/OpenBMB/status/2062889699056984281 ⚡ MiniCPM5-1B (lightweight, on-device) → AI Desktop Pet running entirely on your local device https://x.com/OpenBMB/status/2058903454308069670 🌐 MiniCPM-o 4.5 (omni-modal) → Real-time video analysis application https://x.com/OpenBMB/status/2022341243859337613 🎙️ VoxCPM2 (voice / TTS) → Voice cloning application https://x.com/OpenBMB/status/2041169065020936464 🏆 $10,000 OpenBMB Special Prize is available for outstanding projects built with our models. Get creative, try out our models, and see what you can build in this hackathon! We can't wait to see what you create. ✊ #BuildSmall #MiniCPM #OpenSourceAI #HuggingFace

译面壁智能(OpenBMB)与HuggingFace合作举办的Build Small黑客松正式上线,鼓励开发者使用OpenBMB模型构建应用。官方列举四大用例:MiniCPM-V 4.6用于自动化金融文档分析;MiniCPM5-1B轻量端侧模型驱动AI桌面宠物;MiniCPM-o 4.5全模态实时视频分析;VoxCPM2语音克隆。活动设有$10,000 OpenBMB特别奖。

Alibaba Cloud@alibaba_cloud · 6月8日77

🔥 Launch Special for Qwen3.7-Plus: Get 20% OFF now! ✅ Multimodal Interactive Hybrid Agents ✅ Coding & Productivity Assistants ✅ Vision Agents ✅ Cross-Harness Generalization Don't miss the upgrade. 👇 https://int.alibabacloud.com/m/1000414123/ #Qwen #AI #Multimodal #AlibabaCloud #AgenticAI

译🔥 Qwen3.7-Plus 发布特惠:现在享受八折! ✅ 多模态交互式智能体 ✅ 编程与生产力助手 ✅ 视觉智能体 ✅ 跨任务泛化 不要错过升级机会。👇 https://int.alibabacloud.com/m/1000414123/ #Qwen #AI #Multimodal #AlibabaCloud #AgenticAI

Tencent Hy@TencentHunyuan · 6月8日69

Can AI truly edit audio, not just generate it? 🎧 Tencent Hy, in collaboration with SJTU, SII, NTU, TJU, ZODA, PKU, FDU, and other collaborators, introduces MMAE. MMAE--A Massive Multitask Audio Editing Benchmark, is the first comprehensive evaluation benchmark for speech and audio "Banana🍌" Instead of simply requiring the AI to "generate" audio, it demands that the AI understand an existing audio clip and precisely modify it according to natural language instructions—altering what needs to be changed while leaving the rest untouched. Current models show an Exact Match Rate (EMR) below 5%, revealing a major gap in reliable audio editing. MMAE includes: ✅ 2,000 high-fidelity samples from real-world scenarios ✅ 17,741 fine-grained rubric evaluation items ✅ 7 modality settings across sound, music, speech and their mixtures ✅ 6 task complexity from basic modifications to multi-hop reasoning and multi-round editing ✅ 8 operation types across local and global granularities How to use: arXiv: http://arxiv.org/abs/2606.07229 GitHub: https://github.com/ddlBoJack/MMAE HuggingFace: https://huggingface.co/datasets/BoJack/MMAE Demo: https://youtu.be/6At5nTWhlXI

译腾讯混元联合上海交大、南洋理工等机构推出MMAE(Massive Multitask Audio Editing Benchmark),这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改,而非简单生成。当前模型在该基准上的精确匹配率(EMR)低于5%,暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项,覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度(基础修改到多跳推理及多轮编辑)、8种操作类型(局部到全局)。论文、代码、数据集和演示已公开。

SenseTime@SenseTime_AI · 6月8日26

Key takeaways from Phil Wong, Head of Capital Markets at SenseTime, during @HSBC‘s Private Bank Roundtable: China's #AI advantage today is increasingly defined by 𝗰𝗼𝘀𝘁, but also 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 𝗼𝗳 𝗽𝗿𝗼𝗱𝘂𝗰𝘁, and in turn the ability to 𝗯𝗼𝗼𝘀𝘁 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝘃𝗶𝘁𝘆 and 𝗲𝗻𝗵𝗮𝗻𝗰𝗲 𝗲𝗳𝗳𝗶𝗰𝗶𝗲𝗻𝗰𝘆 for the end client, in order to maximise and optimise economic outcomes for end users. The real differentiator lies in 𝗰𝗿𝗲𝗮𝘁𝗶𝗻𝗴 𝗺𝗲𝗮𝘀𝘂𝗿𝗮𝗯𝗹𝗲 𝗯𝘂𝘀𝗶𝗻𝗲𝘀𝘀 𝗼𝘂𝘁𝗰𝗼𝗺𝗲𝘀 𝗮𝘁 𝘀𝗰𝗮𝗹𝗲, in addition to just a cost-benefit. How SenseTime is putting this into practice: • MultimodalModel #SenseNova U1 delivers strong performance with a smaller model footprint. • AI tools are streamlining daily workflows—such as data analysis and PPT generation with Office #Raccoon, and video production powered by #Seko. • AI infrastructure, #SenseCore, leverages compute-power co-optimization to reduce energy consumption and improve efficiency. Beyond these, keep an eye on spatial intelligence, world models, and other emerging AI frontiers.

译商汤资本市场主管 Phil Wong 在汇丰私人银行圆桌会议上指出,中国 AI 优势日益体现于成本、产品质量及提升终端客户生产力与效率。真正差异化在于大规模创造可衡量业务成果。商汤实践包括:多模态模型 SenseNova U1 以较小规模实现强性能;AI 工具 Office Raccoon(数据分析与 PPT 生成)和 Seko(视频制作);AI 基础设施 SenseCore 通过算力协同优化降低能耗、提升效率。此外需关注空间智能、世界模型等前沿领域。

Chubby♨️@kimmonismus · 6月7日64

Apple’s Touch Bar was ahead of its time. Just imagine the incredible use cases it could have today. - rate limits, context and much more

译WWDC 2026 预计将成为苹果 AI 关键节点。Siri 将围绕定制版 Google Gemini 模型(约 1.2 万亿参数)重建,自有设备端模型仅约 3B 参数。新 Siri 采用混合架构——本地小模型 + 云端大模型,由苹果控制 UI、应用权限和隐私层。预期功能包括更自然对话、跨应用个人上下文、屏幕感知、应用内操作、独立 Siri 应用(支持语音、文件上传和多模态交互)、Dynamic Island 深度集成,并可选择接入 ChatGPT、Claude 或 Gemini 等第三方服务。苹果意将 Siri 打造成操作系统的隐私 AI 层,成为跨 iPhone、Mac、iPad 的系统智能体。

AYi@AYi_AInotes · 6月7日49

用AI的最高境界,是以道御术, 但说句实话,你得先以术入道,才谈得上驾驭。 最近《丧尸清道夫》火得一塌糊涂,一个素人, 一支AI视频,直接把自己送上了全球最顶级的资源圈。 这事给我的冲击很大,不是因为这视频有多炫,而是它验证了一件事:AI视频,正在成为下一个抖音时刻。 不管你拿它当副业搞钱,当主业深耕,还是纯个人爱好,这个赛道都值得你认真看一眼。 想要看懂这个赛道,基础知识是绕不过去的,你得知道它怎么来的,才知道它往哪去。 今天聊聊AI视频的三个阶段,一起看一遍来时路。 第一阶段:图生视频 最早的入口,其实是图生视频, 文生视频那会儿我基本跳过了,实话实说,没什么用。 真正的转折发生在2023年2月,Runway出来; 接着2024年2月,OpenAI的Sora首次发布, 我们算是正式踏进了图生视频的创作时代。 那时候的感觉很奇妙,一张图,竟然就能动起来了,虽然不稳定,但我们知道新世界的大门已经打开了。 第二阶段:首尾帧生视频 紧接着,创作者们开始不满足,光动起来不够,还得听我的。 首尾帧生成视频的出现,让画面第一次有了真正的可控感,起码开头和结尾是我们想要的,中间不会乱飞乱跑。 这个阶段,小红书上冒出了一大批AI博主,很多走的是国风路线,美得很有章法。 时间线大概是:2024年7月,Kling上线了首尾帧生成, 国内创作者开始大量用它做剧情转场; 接着9月左右,即梦AI跟上了,加了首尾帧控制+图生视频;后来甚至出现了多首尾帧生成。 这个阶段的核心就一个字——控。 第三阶段:多模态全能参考生视频 到这个阶段,真正的底牌慢慢翻开了。 去年年底,可灵率先发布了多模态参考生视频, 紧接着,谷歌研究员那边丢出了一个跟传统动画师合作的CG动画,用的也是多模态全能参考。 我当时看到那个片子的时候就非常笃定的相信,以后的路线就是它了。 高潮在2026年2月12日, 字节旗下的即梦Seedance 2.0上线, 说它是核爆炸,一点不夸张,当时国内网全网沸腾,大家喊着好莱坞要完了,导演要失业了,新的工业革命等, seedance 2.0确实很屌,在人物与产品的一致性上几乎找不到瑕疵,而且自带运镜和切镜,顺滑得不像话。 快手的股价当时连续大跌,因为就算你跑得快有先发优势,如果是互联网时代还行, 但AI时代的玩法已经变了,当对手的算力是你几十上百倍的时候,它能训练的模型、能喂的数据、能迭代的速度,是完全碾压的,这就是资本的力量,现实且赤裸。 术的演进就是这样, 你看着它一步步从不可控到可控, 从单点到全能,从粗糙到几乎无懈可击, 看懂了术的来路,你才能摸到那扇道的门。 而现在,门已经开了一条缝, 你是想站在门外看热闹, 还是伸手把它推到底呢? 分享下ashan做的关公战秦琼的创作提视频和示词⬇️

译素人作者刘梓渝的AI视频《丧尸清道夫》爆火,使其进入顶级资源圈。AI视频发展历经三阶段:图生视频(Runway 2023年2月、Sora 2024年2月);首尾帧生视频(Kling 2024年7月、即梦AI 2024年9月);多模态全能参考生视频(可灵率先发布,字节即梦Seedance 2.0于2026年2月12日上线,人物/产品一致性高且自带运镜)。刘梓渝公开创作思路:核心是将导演思维、镜头语言和后期剪辑嵌入AI工作流,而非依赖抽卡运气。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
03:34
MiniMax (official)@MiniMax_AI
46
MiniMax 在 @RespanAI Gateway 上线 开发者现在有了另一种便捷方式访问我们的模型。 随着更多团队在文本、语音、图像、视频和音乐领域推出 AI 产品,我们希望在你需要时,我们的模型就在那里。 链接在评论区 👇 #MiniMax #Respan #AIGateway #MultimodalAI #AIModels #Developers #BuildWithAI
多模态行业动态部署/工程
01:37
Chubby♨️@kimmonismus
81
Fable 5 在几乎所有测试基准上均达到业界领先水平,在软件工程、知识工作、科学研究和视觉方面表现尤为出色。任务越长越复杂,Fable 5 相对其他模型的领先幅度就越大。已在德国上线,测试中。

Claude: Fable 5 is state-of-the-art on nearly all tested benchmarks, with exceptional performance in software engineering, knowl...

Anthropic多模态模型发布
关联讨论 32 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
01:30
OpenAI Developers@OpenAIDevs
精选76
你的应用现在可以搜索网页上的图片。 Responses API 中的网页搜索现在除了文本结果外,还支持图片结果,因此你可以构建能展示商品、地点、视觉参考和来源链接以激发灵感的应用。
OpenAI产品更新多模态搜索

推荐理由:OpenAI 搜索 API 终于支持图像结果了,以前只能返回文字,现在能直接拿商品图、地点图、视觉参考,做电商和旅行应用的开发者可以立刻集成,这个补丁等了太久。
01:08
Fei-Fei Li@drfeifei
精选78
创意和想象力无与伦比!非常感谢@theworldlabs能与@withloreco的优秀人才合作,将他们不可思议的想法转化为用户可以享受的互动体验!🤩

World Labs: We turned dreams into worlds. Then filled them with history's greatest minds. Not a video. A world, running directly in ...

产品更新图像生成多模态

推荐理由:World Labs把生成式空间智能做成了可走进的浏览器世界,不是看视频而是和历史伟人互动,技术想象力和产品落地都够惊艳,做虚拟世界和交互叙事的人值得直接点进去体验。
01:05
fofr@fofrAI
70
Gemini 3.5 Live translate:流式输入语音,并流式输出口语翻译。 它还能神奇地支持多人说话。 它不支持克林贡语(我试过)。 在AI Studio上试试: https://aistudio.google.com/live?model=gemini-3.5-live-translate-preview
Google产品更新多模态语音
00:46
AK@_akhaliq
66
视频世界模型的潜在空间记忆
arXiv多模态视频论文/研究
00:35
Google Gemini@GeminiApp
51
Gemini 3.5 Flash 能处理复杂视觉数据,并将其转化为功能性的交互式代码。 观看 Gemini 分析参考图像中的光照,并构建一个交互式 3D 可视化器来预览该设置。
Google产品更新多模态编码
00:16
AK@_akhaliq
51
SpatialWorld 评测多模态智能体在真实世界任务中的交互式空间推理能力
智能体Hugging Face多模态论文/研究
00:15
Rohan Paul@rohanpaul_ai
76
Google 发布 Gemini 3.5 Live Translate 实时语音翻译模型

Google 推出 Gemini 3.5 Live Translate,一款实时语音转语音翻译模型。它在原说话者尚未说完时即开始翻译,无需等待完整句子。模型采用流式翻译,边听边更新结果,支持 70 多种语言,延迟仅数秒,并能保持语速、音高和语调。该功能通过 Gemini Live API、Google Meet 预览版以及 iOS/Android 版 Google Translate 应用推出。

Google AI: Today, we released Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation. It supports ...

Google多模态模型发布语音
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
00:05
Logan Kilpatrick@OfficialLoganK
79
Introducing Gemini 3.5 Flash Live Translate,我们的实时语音到语音翻译模型,支持超过 70 种语言(输入和输出),并且非常自然。 现在已在 Gemini API、AI Studio 和 Google 翻译中可用,并即将登陆 Google Meet!
Google多模态模型发布语音
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
6月9日
23:47
Google AI Developers@googleaidevs
76
Google 发布 Gemini 3.5 Live Translate 实时语音翻译模型

Google AI 推出音频模型 Gemini 3.5 Live Translate,为开发者提供低延迟实时语音翻译,支持 70+ 种语言。模型具备多语言输入(同会话无需切换)、自动语言检测、原生音频处理(保留说话者语调、语速和音高)以及噪声鲁棒性(过滤环境噪音),可直接处理流式语音。

Google多模态模型发布语音
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
23:37
Google AI@GoogleAI
85
Google AI 发布 Gemini 3.5 Live Translate 实时语音翻译模型

Google AI 推出 Gemini 3.5 Live Translate,一款面向实时语音到语音翻译的音频模型。该模型支持 70 多种语言,可在用户说话的同时开始翻译并流式输出译文,避免尴尬停顿或断续。模型通过毫秒级决策平衡速度与翻译质量,使对话流畅自然。它可边接收输入边输出翻译语音,延迟仅比说话者慢几秒,并能在长对话中维持语速、音高和语调。目前已在 iOS 和 Android 版 Google Translate 应用中上线。

Google多模态模型发布语音
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
22:30
OpenAI Developers@OpenAIDevs
60
23,000+ 篇 ChinaRxiv 论文现已免费提供,并带有更完整的英文翻译,源于一位开发者用 GPT-5.5 替换了复杂的 OCR 管道。

0.005 Seconds (3/694): http://x.com/i/article/2059815427484655622

OpenAI多模态教程/实践
21:11
小互@xiaohu
74
苹果WWDC 2026发布Siri AI:五个AFM 3模型,端侧200亿参数MoE

苹果在WWDC 2026发布全新Siri AI,由第三代Apple Foundation Models(AFM 3)驱动,共五个模型:端侧AFM 3 Core(30亿)和AFM 3 Core Advanced(200亿MoE,每次激活10-40亿);服务器AFM 3 Cloud、ADM 3 Cloud(图像)、AFM 3 Cloud Pro(Agent/推理)。核心创新将200亿参数模型塞入手机:权重存闪存,自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token,大幅降低搬运次数。最强算力依赖Google和NVIDIA。

多模态现象/趋势端侧语音
20:21
Tencent Hy@TencentHunyuan
74
🚀推出UniRL,一个用于统一多模态模型的RL基础设施。附带两种新RL算法:DRPO和Flow-DPPO。 一个覆盖扩散/流匹配模型、LLM/VLM以及统一多模态模型的RL循环👇 代码:http://github.com/Tencent-Hunyuan/UniRL (是的--U(you)-ni-(need) RL 😉)
GitHub多模态开源/仓库推理
19:51
Tencent Hy@TencentHunyuan
精选67
腾讯混元发布UniRL:统一多模态强化学习基础设施

腾讯混元推出UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环(生成→评分→优势→更新→同步)覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型(如Hunyuan-Image 3和Bagel)。模型与算法作为独立轴,可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎(训练侧/SGLang/vLLM-Omni)、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化;DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。

多模态开源/仓库论文/研究部署/工程

推荐理由:UniRL把扩散和LLM的强化学习塞进同一个训练循环,外加两个新算法,多模态对齐的研究者可以立刻fork代码试起来。
13:22
数字生命卡兹克@Khazix0918
70
苹果WWDC 2026:AI为主轴,Siri AI发布,与Gemini深度合作

苹果WWDC 2026落幕,核心仍是AI。Apple Intelligence新架构:与Google Gemini合作开发5个模型;端侧分AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri正式命名Siri AI,基于系统编排器融合上下文理解、App Actions、屏幕感知等能力,支持连续对话、跨平台同步及独立App,但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语,国区不可用,可用时间未知。

MCP/工具多模态大佬观点语音
10:03
Berryxia.AI@berryxia
69
Tim Cook最后一次主持WWDC,9月1日交棒John Ternus,AI为核心。端侧3B模型AFM 3 Core,进阶层20B MoE仅限iPhone 17 Pro/M4设备,数据端到端加密。四大能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri升级连续对话/跨设备/视觉识别,上线独立App,仅英语且中国欧盟暂不可用。Image Playground支持写实生成;Xcode可选多模型;照片处理速度提升70%,AirDrop提速80%,应用启动加速30%。Agent多步任务自动化仍薄弱。

Berryxia.AI: 没有熬夜的兄弟们来看,WWDC 2026 速览! 另插一嘴,Apple真的没有特别的新东西。 一、历史性时刻 1库克谢幕:Tim Cook最后一次以CEO身份主持WWDC,9月1日将交接给硬件工程副总裁John Ternus 2基调延续:发...

多模态大佬观点端侧
10:00
Chubby♨️@kimmonismus
35
尽管我想亲自测试Apple Intelligence:它看起来很有前景,可能最终为数百万苹果用户提供真正的AI访问。
多模态大佬观点端侧
08:03
Berryxia.AI@berryxia
67
WWDC 2026 速览:Tim Cook 谢幕,AI 双轨模型与 Siri 大升级

Tim Cook 最后一次以 CEO 身份主持 WWDC,AI 成绝对核心。苹果推出双轨模型:基础层 3B 端侧 AFM 3 Core,进阶层 20B MoE 仅限 iPhone 17 Pro/M4 设备。四大 AI 能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri 升级支持连续对话、跨设备同步、视觉识别及独立 App,仅限英语,中国/欧盟暂不可用。应用生态:Safari 智能标签分组、密码自动更新、来电识别、快捷指令自然语言生成。影像:Image Playground 写实生成与空间重构。开发者工具:Xcode 支持多模型,Core AI Framework 开放本地部署。遗留问题:中国区功能缺失,Agent 多步自动化能力薄弱。

多模态端侧行业动态
03:46
Artificial Analysis@ArtificialAnlys
59
MiniMax推出多模态模型M3,1M上下文,多项基准领先

MiniMax推出首个多模态M系列模型M3,支持图像/视频输入及1M token上下文窗口。在Artificial Analysis Intelligence Index上得55分,超越开源权重的Kimi K2.6和MiMo-V2.5-Pro(均54)。相比前代M2.7,HLE提升9点至37%,GPQA Diamond提升6点至93%,多项基准均有进步。原生多模态MMMU-Pro约80%与GPT-5.5持平。定价$0.30/$1.20/1M tokens(512K内),512K-1M翻倍。权重计划约10天内开源。

多模态开源生态评测/基准
02:17
🚨 AI News | TestingCatalog@testingcatalog
76
WWDC 🔥:苹果宣布推出全新Siri AI,以及专用App、可定制语音、屏幕和视觉理解等功能! Siri App支持大多数平台,包括VisionOS!
产品更新多模态语音
关联讨论 7 条TechCrunch:AI(RSS)X:Kim (@kimmonismus)Apple:Newsroom(RSS)IT之家(RSS)公众号:数字生命卡兹克The Verge:AI(RSS)Apple Machine Learning Research(RSS)
02:17
🚨 AI News | TestingCatalog@testingcatalog
70
Apple在WWDC宣布推出全新Siri AI,配备独立App、可定制语音、屏幕与视觉理解等功能,Siri App支持包括VisionOS在内的多平台。主推文感叹:"大部分Siri AI功能齐聚一屏👀"

🚨 AI News | TestingCatalog: WWDC 🔥: Apple has announced a new Siri AI, along with a dedicated app, customizable voices, screen and visual understan...

产品更新多模态语音
02:15
-Zho-@ZHO_ZHO_ZHO
33
Siri AI + 空间智能生成 一顿智能后,这构图和效果还不如原图呢,这是来搞笑的???
图像生成多模态现象/趋势
02:13
Chubby♨️@kimmonismus
39
- 系统级感知 - 相机应用中的视觉智能

Chubby♨️: Siri update - image understanding - more conversational - reworked voice-tone / sound. Sounds real human

多模态大佬观点语音
01:47
🚨 AI News | TestingCatalog@testingcatalog
68
WWDC 🔥:新的Apple Intelligence基于Apple Foundation和Gemini模型! 让我们看看里面有什么👀

🚨 AI News | TestingCatalog: Apple #WWDC26 has started 🍿

Google产品更新多模态
01:43
Chubby♨️@kimmonismus
38
Apple Intelligence: - 在应用中的个人理解。 - 网页浏览工具 - 屏幕感知 - 应用内使用

Chubby♨️: Apple Intelligence last. Let the fun begin!

产品更新多模态大佬观点
01:43
Chubby♨️@kimmonismus
52
Siri 更新 - 图像理解 - 对话更自然 - 重制语音语调/声音,听上去像真人

Chubby♨️: Apple Intelligence: -Personal Understand in apps. - Browse tools for web - on screen Awareness - in App usage

产品更新多模态语音
01:25
Google Gemini@GeminiApp
54
我们让 Gemini 3.5 Flash 重现经典早期 2000 年代 PC 绘图体验,它一次就做到了。 你打算先用 Canvas 构建什么?
Google产品更新多模态
00:46
🚨 AI News | TestingCatalog@testingcatalog
66
OPENAI 🔥:用户现在可以在 @ChatGPTapp(网页和移动端)中从数据和比较生成交互式图表。
OpenAI产品更新多模态
00:19
NotebookLM@NotebookLM
精选72
推出更强大的 NotebookLM 🚀 重大升级带来了对话中的智能体能力、更高级的推理以及一系列新的输出格式。处理复杂的多步骤研究问题从未如此简单。 现已面向 Google AI Ultra 订阅者推出。
Google产品更新多模态推理
关联讨论 1 条X:NotebookLM (@NotebookLM)
推荐理由:NotebookLM 这次升级把 agent 能力塞进聊天框,从被动答案变成能拆解多步研究,对深度资料整理的人是真迭代,但仅限 Google AI Ultra 订阅,门槛不低。
6月8日
23:42
Chubby♨️@kimmonismus
54
WWDC 2026:苹果租用谷歌大脑修复Siri

苹果在WWDC 2026承认无法独自构建前沿AI,与Google合作,基于1.2T参数的Gemini模型重建Siri,年费约10亿美元。新版Siri通过Private Cloud Compute运行,谷歌不训练用户数据;Siri成为独立应用,支持聊天、同步历史、Dynamic Island弹出和扩展系统,可起草邮件并获取信息。六个OS beta发布,iOS 27为Snow Leopard清理版,iPhone 11/SE2失去支持;Liquid Glass 2.0透明度滑块;Health+改为健身聚焦;用户或可选AI引擎(Gemini或Claude)。硬件稍后推出。

Google多模态大佬观点语音
23:06
SenseTime@SenseTime_AI
56
商汤 SenseNova U1 实现文图交错生成

商汤 SenseTime 展示 SenseNova U1 的文图交错生成能力,通过定制香水逐步演示,证明模型不仅能识别图像,还能以图像为思考单元输出生动视觉内容。相关示例、Gallery、HuggingFace 模型、GitHub 代码及 Discord 社区链接已同步开放。

图像生成多模态教程/实践
22:46
OpenBMB@OpenBMB
精选75
VoxCPM2 技术报告发布

面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型,拥有 2B 参数,基于超 200 万小时多语言语音数据训练,支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估,以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建,在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

多模态开源/仓库模型发布语音

推荐理由:面壁把语音生成压进2B参数,支持30种语言加方言克隆,还附完整技术报告和Apache 2.0开源,做语音产品的可以直接拉代码跑起来了。
21:46
OpenBMB@OpenBMB
54
面壁智能与HuggingFace合作举办Build Small黑客松

面壁智能(OpenBMB)与HuggingFace合作举办的Build Small黑客松正式上线,鼓励开发者使用OpenBMB模型构建应用。官方列举四大用例:MiniCPM-V 4.6用于自动化金融文档分析;MiniCPM5-1B轻量端侧模型驱动AI桌面宠物;MiniCPM-o 4.5全模态实时视频分析;VoxCPM2语音克隆。活动设有$10,000 OpenBMB特别奖。

Hugging Face多模态开源生态行业动态
18:10
Alibaba Cloud@alibaba_cloud
同事件精选77
🔥 Qwen3.7-Plus 发布特惠:现在享受八折! ✅ 多模态交互式智能体 ✅ 编程与生产力助手 ✅ 视觉智能体 ✅ 跨任务泛化 不要错过升级机会。👇 https://int.alibabacloud.com/m/1000414123/ #Qwen #AI #Multimodal #AlibabaCloud #AgenticAI
智能体多模态模型发布编码
同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
推荐理由:Qwen3.7-Plus 把多模态交互和视觉代理整合得挺顺,对做 AI 工程化落地的团队来说是个务实选项,新发布折扣让试错成本更低,值得用起来看看。
14:14
Tencent Hy@TencentHunyuan
精选69
腾讯混元联合多家机构发布首个音频编辑基准MMAE

腾讯混元联合上海交大、南洋理工等机构推出MMAE(Massive Multitask Audio Editing Benchmark),这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改,而非简单生成。当前模型在该基准上的精确匹配率(EMR)低于5%,暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项,覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度(基础修改到多跳推理及多轮编辑)、8种操作类型(局部到全局)。论文、代码、数据集和演示已公开。

多模态论文/研究语音

推荐理由:过去一年语音和音乐生成很热,但音频编辑还没人正经测过,腾讯这个基准把现状血淋淋地摆出来了,不到5%的准确率意味着整个方向都还在起步期。
05:33
SenseTime@SenseTime_AI
26
商汤 Phil Wong 谈中国 AI 优势与差异化实践

商汤资本市场主管 Phil Wong 在汇丰私人银行圆桌会议上指出,中国 AI 优势日益体现于成本、产品质量及提升终端客户生产力与效率。真正差异化在于大规模创造可衡量业务成果。商汤实践包括:多模态模型 SenseNova U1 以较小规模实现强性能;AI 工具 Office Raccoon(数据分析与 PPT 生成)和 Seko(视频制作);AI 基础设施 SenseCore 通过算力协同优化降低能耗、提升效率。此外需关注空间智能、世界模型等前沿领域。

多模态大佬观点
6月7日
22:07
Chubby♨️@kimmonismus
64
WWDC 2026 预计将成为苹果 AI 关键节点。Siri 将围绕定制版 Google Gemini 模型(约 1.2 万亿参数)重建,自有设备端模型仅约 3B 参数。新 Siri 采用混合架构--本地小模型 + 云端大模型,由苹果控制 UI、应用权限和隐私层。预期功能包括更自然对话、跨应用个人上下文、屏幕感知、应用内操作、独立 Siri 应用(支持语音、文件上传和多模态交互)、Dynamic Island 深度集成,并可选择接入 ChatGPT、Claude 或 Gemini 等第三方服务。苹果意将 Siri 打造成操作系统的隐私 AI 层,成为跨 iPhone、Mac、iPad 的系统智能体。

Chubby♨️: Tomorrow could be Apple's most important AI moment yet. WWDC 2026 is expected to be all about one thing: making Siri rel...

Google多模态大佬观点语音
14:26
AYi@AYi_AInotes
49
《丧尸清道夫》爆火与AI视频三阶段演进

素人作者刘梓渝的AI视频《丧尸清道夫》爆火,使其进入顶级资源圈。AI视频发展历经三阶段:图生视频(Runway 2023年2月、Sora 2024年2月);首尾帧生视频(Kling 2024年7月、即梦AI 2024年9月);多模态全能参考生视频(可灵率先发布,字节即梦Seedance 2.0于2026年2月12日上线,人物/产品一致性高且自带运镜)。刘梓渝公开创作思路:核心是将导演思维、镜头语言和后期剪辑嵌入AI工作流,而非依赖抽卡运气。

AYi: 全网爆火的《丧尸清道夫》作者刘梓渝公开了自己的视频创作思路,内容非常干,值得所有AI短视频创作者逐帧学习! 先说结论,跟抽卡运气没太大关系, 核心是把自己的导演思维、镜头语言和后期剪辑, 完整嵌进了AI工作流。 具体视频内容和我做的总结:⬇...

多模态教程/实践视频
‹ 上一页
1…45678…23
下一页 ›