AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月10日周三
01:37Chubby♨️81Fable 5 在多项基准测试中达 SOTA 表现
01:30OpenAI Developers76精选Responses API 网页搜索新增图片结果
01:13The Verge:AI(RSS)77Anthropic 发布首个 Mythos 系列模型 Claude Fable 5
01:08Fei-Fei Li78精选World Labs与Lore合作打造互动体验
01:05fofr70Gemini 3.5 Live translate 支持流式语音翻译
01:04xAI:News(网页)65精选Gopuff与SpaceXAI推出Go AI购物助手
01:04Anthropic:Newsroom(网页)90精选Claude Fable 5 和 Claude Mythos 5
00:46AK66视频世界模型的潜在空间记忆
00:35Google Gemini51Gemini 3.5 Flash 可视化转交互代码
00:26IT之家(RSS)81谷歌发布实时语音互译模型 Gemini 3.5 Live Translate,谷歌翻译 App 即用
00:16AK51SpatialWorld:多模态智能体空间推理基准
00:15Rohan Paul76Google 发布 Gemini 3.5 Live Translate 实时语音翻译模型
00:05Logan Kilpatrick79Gemini 3.5 Flash 实时语音翻译模型发布
6月9日周二
23:47Google AI Developers76Google 发布 Gemini 3.5 Live Translate 实时语音翻译模型
23:37Google AI85Google AI 发布 Gemini 3.5 Live Translate 实时语音翻译模型
22:34Google DeepMind:Blog(RSS)80同事件精选Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
22:30OpenAI Developers60GPT-5.5 替代 OCR,ChinaRxiv 论文免费开放
21:11小互74苹果WWDC 2026发布Siri AI:五个AFM 3模型,端侧200亿参数MoE
20:21Tencent Hy74腾讯混元发布UniRL及两种新RL算法
19:55Hugging Face:Blog(RSS)76精选一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊
19:51Tencent Hy67精选腾讯混元发布UniRL:统一多模态强化学习基础设施
15:55HuggingFace Daily Papers(社区热门论文)61光学推理(Optical Reasoning):将图像作为独立推理媒介,token效率达文本1.96倍
15:26IT之家(RSS)64谷歌 AI Plus 订阅计划降价:月费降至5美元,存储翻倍至400GB
13:22数字生命卡兹克70苹果WWDC 2026:AI为主轴,Siri AI发布,与Gemini深度合作
12:55HuggingFace Daily Papers(社区热门论文)73精选OmniGameArena:面向VLM游戏智能体的统一UE5基准与改善动态
10:55HuggingFace Daily Papers(社区热门论文)61SpatialWorld:多模态智能体在真实世界任务中的交互式空间推理基准
10:55HuggingFace Daily Papers(社区热门论文)59潜在空间记忆框架Mirage用于视频世界模型
10:03Berryxia.AI69WWDC 2026:库克告别,AI双轨模型与Siri升级成焦点
10:00Chubby♨️35Apple Intelligence前景光明,有望服务苹果用户
08:17Simon Willison 博客61WWDC 2026 苹果发布 Siri AI 与 Core AI 库
08:03Berryxia.AI67WWDC 2026 速览:Tim Cook 谢幕,AI 双轨模型与 Siri 大升级
08:00HuggingFace Daily Papers(社区热门论文)52P3D-Bench:面向参数化3D生成与结构推理的多模态大语言模型基准
08:00HuggingFace Daily Papers(社区热门论文)82精选i1:面向强文生图模型的简单且完全开源配方
07:50公众号:数字生命卡兹克62苹果WWDC 2026:Apple Intelligence新架构与Siri AI发布
07:21IT之家(RSS)67苹果回应"套壳 Gemini"猜测:iOS 27 版 Siri AI AFM 自研打造
07:21IT之家(RSS)59苹果WWDC26主题演讲汇总:iOS 27等系统发布,库克最后一次主讲
06:21IT之家(RSS)38苹果 iOS 27 升级钱包应用:支持 AI 导入票证
05:21IT之家(RSS)61初探苹果 iPadOS 27:应用启动提速 30%、引入全新 Siri AI
05:21IT之家(RSS)61苹果 iOS 27 日历 / 提醒事项新增 AI:支持自然语言创建事件
05:15Apple Machine Learning Research(RSS)79同事件精选苹果发布第三代 Apple Foundation Models(AFM)同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
01:37
Chubby♨️@kimmonismus
81
Fable 5 在几乎所有测试基准上均达到业界领先水平,在软件工程、知识工作、科学研究和视觉方面表现尤为出色。任务越长越复杂,Fable 5 相对其他模型的领先幅度就越大。已在德国上线,测试中。

Claude: Fable 5 is state-of-the-art on nearly all tested benchmarks, with exceptional performance in software engineering, knowl...

Anthropic多模态模型发布
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
01:30
OpenAI Developers@OpenAIDevs
精选76
你的应用现在可以搜索网页上的图片。 Responses API 中的网页搜索现在除了文本结果外,还支持图片结果,因此你可以构建能展示商品、地点、视觉参考和来源链接以激发灵感的应用。
OpenAI产品更新多模态搜索

推荐理由:OpenAI 搜索 API 终于支持图像结果了,以前只能返回文字,现在能直接拿商品图、地点图、视觉参考,做电商和旅行应用的开发者可以立刻集成,这个补丁等了太久。
01:13
The Verge:AI(RSS)
77
Anthropic 发布首个 Mythos 系列模型 Claude Fable 5

Anthropic 发布 Claude Fable 5,称其为迄今广泛可用的最强模型。该模型在软件工程、知识工作与视觉任务中表现突出,且随着任务变长、变复杂,领先优势进一步扩大。Fable 5 是 Anthropic 首次大规模发布的 Mythos 类 AI 模型,此前该公司因该类模型在网络安全任务中能力过强、风险过高而未公开。此次发布得益于新增的安全措施,可在特定高风险领域阻止模型生成响应。

Anthropic多模态推理模型发布
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
01:08
Fei-Fei Li@drfeifei
精选78
创意和想象力无与伦比!非常感谢@theworldlabs能与@withloreco的优秀人才合作,将他们不可思议的想法转化为用户可以享受的互动体验!🤩

World Labs: We turned dreams into worlds. Then filled them with history's greatest minds. Not a video. A world, running directly in ...

产品更新图像生成多模态

推荐理由:World Labs把生成式空间智能做成了可走进的浏览器世界,不是看视频而是和历史伟人互动,技术想象力和产品落地都够惊艳,做虚拟世界和交互叙事的人值得直接点进去体验。
01:05
fofr@fofrAI
70
Gemini 3.5 Live translate:流式输入语音,并流式输出口语翻译。 它还能神奇地支持多人说话。 它不支持克林贡语(我试过)。 在AI Studio上试试: https://aistudio.google.com/live?model=gemini-3.5-live-translate-preview
Google产品更新多模态语音
01:04
xAI:News(网页)
精选65
Gopuff与SpaceXAI推出Go AI购物助手

Gopuff与SpaceXAI合作推出Go智能购物助手,内置于Gopuff应用,由Grok文本、音频和图像模型驱动。Go结合Grok的推理、语音和图像生成能力与Gopuff的13年需求智能,利用X和网络实时信号。它可在用户打开应用前根据历史偏好和天气等信号构建个性化购物车,并包含基于Grok Imagine的超逼真视觉购物信息流。Go目前在美国iOS和Android端可用,随后在英国推出。

智能体xAI产品更新多模态

推荐理由:Gopuff加SpaceXAI的组合给即时零售塞了个挺实在的AI购物助手,预判需求比我自己翻分类流畅,本地生活类工具团队该把它当个落地样本。
01:04
Anthropic:Newsroom(网页)
精选90
Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天,FrontierCode 评分居前沿模型之首,可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速,其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens,较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8,安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic多模态安全/对齐模型发布
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
推荐理由:Anthropic把最危险的模型安全地放出来了,Fable 5在编码、科研上不是小数点级别的提升,价格还砍半,95%的请求直接跑满血版,必读。
00:46
AK@_akhaliq
66
视频世界模型的潜在空间记忆
arXiv多模态视频论文/研究
00:35
Google Gemini@GeminiApp
51
Gemini 3.5 Flash 能处理复杂视觉数据,并将其转化为功能性的交互式代码。 观看 Gemini 分析参考图像中的光照,并构建一个交互式 3D 可视化器来预览该设置。
Google产品更新多模态编码
00:26
IT之家(RSS)
81
谷歌发布实时语音互译模型 Gemini 3.5 Live Translate,谷歌翻译 App 即用

谷歌发布实时语音互译音频模型 Gemini 3.5 Live Translate,可自动识别 70 多种语言并保留说话者的语调、语速和音高。该模型连续生成语音,在提升翻译质量与跟上说话者节奏间取得平衡,全程仅慢几秒。开发者即日起可通过 Gemini Live API 和 Google AI Studio 使用公开预览版;企业客户本月起可在 Google Meet 中使用私有预览版;普通用户通过 Android 和 iOS 版谷歌翻译即可使用。Android 用户还将获得“聆听模式”,可将手机贴耳通过听筒收听翻译音频。

Google多模态模型发布语音
关联讨论 17 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
00:16
AK@_akhaliq
51
SpatialWorld 评测多模态智能体在真实世界任务中的交互式空间推理能力
智能体Hugging Face多模态论文/研究
00:15
Rohan Paul@rohanpaul_ai
76
Google 发布 Gemini 3.5 Live Translate 实时语音翻译模型

Google 推出 Gemini 3.5 Live Translate,一款实时语音转语音翻译模型。它在原说话者尚未说完时即开始翻译,无需等待完整句子。模型采用流式翻译,边听边更新结果,支持 70 多种语言,延迟仅数秒,并能保持语速、音高和语调。该功能通过 Gemini Live API、Google Meet 预览版以及 iOS/Android 版 Google Translate 应用推出。

Google AI: Today, we released Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation. It supports ...

Google多模态模型发布语音
关联讨论 17 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
00:05
Logan Kilpatrick@OfficialLoganK
79
Introducing Gemini 3.5 Flash Live Translate,我们的实时语音到语音翻译模型,支持超过 70 种语言(输入和输出),并且非常自然。 现在已在 Gemini API、AI Studio 和 Google 翻译中可用,并即将登陆 Google Meet!
Google多模态模型发布语音
关联讨论 17 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
6月9日
23:47
Google AI Developers@googleaidevs
76
Google 发布 Gemini 3.5 Live Translate 实时语音翻译模型

Google AI 推出音频模型 Gemini 3.5 Live Translate,为开发者提供低延迟实时语音翻译,支持 70+ 种语言。模型具备多语言输入(同会话无需切换)、自动语言检测、原生音频处理(保留说话者语调、语速和音高)以及噪声鲁棒性(过滤环境噪音),可直接处理流式语音。

Google多模态模型发布语音
关联讨论 17 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
23:37
Google AI@GoogleAI
85
Google AI 发布 Gemini 3.5 Live Translate 实时语音翻译模型

Google AI 推出 Gemini 3.5 Live Translate,一款面向实时语音到语音翻译的音频模型。该模型支持 70 多种语言,可在用户说话的同时开始翻译并流式输出译文,避免尴尬停顿或断续。模型通过毫秒级决策平衡速度与翻译质量,使对话流畅自然。它可边接收输入边输出翻译语音,延迟仅比说话者慢几秒,并能在长对话中维持语速、音高和语调。目前已在 iOS 和 Android 版 Google Translate 应用中上线。

Google多模态模型发布语音
关联讨论 17 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
22:34
Google DeepMind:Blog(RSS)
同事件精选80
Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。

Google多模态开源/仓库推理
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验,开源 + Apache 2.0,本地部署门槛又压低了。
22:30
OpenAI Developers@OpenAIDevs
60
23,000+ 篇 ChinaRxiv 论文现已免费提供,并带有更完整的英文翻译,源于一位开发者用 GPT-5.5 替换了复杂的 OCR 管道。

0.005 Seconds (3/694): http://x.com/i/article/2059815427484655622

OpenAI多模态教程/实践
21:11
小互@xiaohu
74
苹果WWDC 2026发布Siri AI:五个AFM 3模型,端侧200亿参数MoE

苹果在WWDC 2026发布全新Siri AI,由第三代Apple Foundation Models(AFM 3)驱动,共五个模型:端侧AFM 3 Core(30亿)和AFM 3 Core Advanced(200亿MoE,每次激活10-40亿);服务器AFM 3 Cloud、ADM 3 Cloud(图像)、AFM 3 Cloud Pro(Agent/推理)。核心创新将200亿参数模型塞入手机:权重存闪存,自研Instruction-Following Pruning技术按Prompt路由专家而非逐Token,大幅降低搬运次数。最强算力依赖Google和NVIDIA。

多模态现象/趋势端侧语音
20:21
Tencent Hy@TencentHunyuan
74
🚀推出UniRL,一个用于统一多模态模型的RL基础设施。附带两种新RL算法:DRPO和Flow-DPPO。 一个覆盖扩散/流匹配模型、LLM/VLM以及统一多模态模型的RL循环👇 代码:http://github.com/Tencent-Hunyuan/UniRL (是的--U(you)-ni-(need) RL 😉)
GitHub多模态开源/仓库推理
19:55
Hugging Face:Blog(RSS)
精选76
一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊

一个编码Agent调用HuggingFace上的两个Space,从零构建了展示巴黎地标3D高斯散点图的交互式画廊。Agent先用ideogram-ai/ideogram4生成每个纪念碑的黑色背景图像,再通过VAST-AI/TripoSplat从单张图像重建3D高斯散点(.ply),自动完成坐标系校正、取景、压缩为.ksplat(体积缩小约3倍),并构建基于Three.js的滚动切换、拖拽旋转查看器,最终部署为静态Space。整个过程无需客户端库,每个Space通过agents.md暴露可调用API。

智能体Hugging FaceMCP/工具多模态

推荐理由:Hugging Face 把 agents.md 做成每个 Space 的标准说明书,agent 能直接读懂并链式调用图像和 3D 模型,这篇用 3D 巴黎画廊 demo 告诉你这事儿已经跑通了,做 AI 工具链的可以立刻照着试。
19:51
Tencent Hy@TencentHunyuan
精选67
腾讯混元发布UniRL:统一多模态强化学习基础设施

腾讯混元推出UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环(生成→评分→优势→更新→同步)覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型(如Hunyuan-Image 3和Bagel)。模型与算法作为独立轴,可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎(训练侧/SGLang/vLLM-Omni)、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化;DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。

多模态开源/仓库论文/研究部署/工程

推荐理由:UniRL把扩散和LLM的强化学习塞进同一个训练循环,外加两个新算法,多模态对齐的研究者可以立刻fork代码试起来。
15:55
HuggingFace Daily Papers(社区热门论文)
61
光学推理(Optical Reasoning):将图像作为独立推理媒介,token效率达文本1.96倍

光学推理(Optical Reasoning)提出将图像作为语言和多模态任务的独立推理媒介,包含基于印刷字体与基于图形两种变体,分别优化视觉布局和图文结构化组织。在数学、科学及交错模态推理基准上,光学推理匹配甚至超越传统文本推理,同时语言任务减少推理token 28.57%,多模态任务减少16%,token效率达到文本推理的1.96倍,证明图像能高效编码推理过程并提供统一的视觉推理画布。

多模态推理论文/研究
15:26
IT之家(RSS)
64
谷歌 AI Plus 订阅计划降价:月费降至5美元,存储翻倍至400GB

谷歌宣布 Google AI Plus 套餐月费从8美元降至5美元,存储空间从200GB翻倍至400GB。该套餐于2026年1月推出,提供 Gemini 3 Pro、Nano Banana Pro 和 Deep Research 等功能,使用额度较 AI Pro 更严格。Google I/O 2026后新增 AI 邮件工具、Daily Brief 智能体(可总结用户当天安排)及视频生成模型 Gemini Omni。现有用户将陆续获得新增存储空间,下期账单反映新价格。

Google产品更新多模态
13:22
数字生命卡兹克@Khazix0918
70
苹果WWDC 2026:AI为主轴,Siri AI发布,与Gemini深度合作

苹果WWDC 2026落幕,核心仍是AI。Apple Intelligence新架构:与Google Gemini合作开发5个模型;端侧分AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri正式命名Siri AI,基于系统编排器融合上下文理解、App Actions、屏幕感知等能力,支持连续对话、跨平台同步及独立App,但未展示自主Agent能力。视觉智能、全系统听写、写作工具等同步更新。目前仅支持英语,国区不可用,可用时间未知。

MCP/工具多模态大佬观点语音
12:55
HuggingFace Daily Papers(社区热门论文)
精选73
OmniGameArena:面向VLM游戏智能体的统一UE5基准与改善动态

OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准,涵盖单人(7个)、PvP(3个)和合作(2个)模式,提供统一动作接口。除冷启动排行榜分数外,还引入Improvement Dynamics Curve (IDC),一种智能体反射评估机制:通过工具调用反射大语言模型自动优化技能提示词,追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现,以及4个顶级智能体在IDC下的指标。

智能体多模态论文/研究

推荐理由:在 UE5 里直接测 agent 的自我改进,这个思路让游戏 benchmark 从一次性的刷榜变成动态成长观测,对做多模态 agent 的团队是个新标尺。
10:55
HuggingFace Daily Papers(社区热门论文)
61
SpatialWorld:多模态智能体在真实世界任务中的交互式空间推理基准

SpatialWorld 是为评估多模态智能体在复杂真实任务中的交互式空间理解而设计的统一基准。它整合 8 个异构模拟后端,包含 760 个人工标注任务,覆盖家庭日常、旅行、社交协作等场景。智能体需在仅视觉部分可观测条件下主动收集第一人称证据,并通过统一文本动作接口输出决策。对 15 个先进多模态智能体的评测显示,最强闭源模型 GPT-5 平均任务成功率仅 17.4%,最强开源模型 Qwen-3.5 达 14.1%。分析表明任务成功与执行效率存在脱节,不同领域性能差异显著,主动探索与长程规划仍是瓶颈。

arXiv具身智能多模态论文/研究
10:55
HuggingFace Daily Papers(社区热门论文)
59
潜在空间记忆框架Mirage用于视频世界模型

Mirage提出一种潜在空间记忆框架,用于视频世界模型的3D一致性生成。它通过深度引导反投影将潜在token提升至3D,形成持久缓存,并利用直接潜在空间扭曲合成新视图,避免了像素空间重建的信息损失和重复编码渲染的计算开销。相比显式3D基线,Mirage实现端到端视频生成加速10.57倍、内存占用减少55倍。在WorldScore上达到当前最优性能,在RealEstate10K上展现强重建质量。

多模态视频论文/研究
10:03
Berryxia.AI@berryxia
69
Tim Cook最后一次主持WWDC,9月1日交棒John Ternus,AI为核心。端侧3B模型AFM 3 Core,进阶层20B MoE仅限iPhone 17 Pro/M4设备,数据端到端加密。四大能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri升级连续对话/跨设备/视觉识别,上线独立App,仅英语且中国欧盟暂不可用。Image Playground支持写实生成;Xcode可选多模型;照片处理速度提升70%,AirDrop提速80%,应用启动加速30%。Agent多步任务自动化仍薄弱。

Berryxia.AI: 没有熬夜的兄弟们来看,WWDC 2026 速览! 另插一嘴,Apple真的没有特别的新东西。 一、历史性时刻 1库克谢幕:Tim Cook最后一次以CEO身份主持WWDC,9月1日将交接给硬件工程副总裁John Ternus 2基调延续:发...

多模态大佬观点端侧
10:00
Chubby♨️@kimmonismus
35
尽管我想亲自测试Apple Intelligence:它看起来很有前景,可能最终为数百万苹果用户提供真正的AI访问。
多模态大佬观点端侧
08:17
Simon Willison 博客
61
WWDC 2026 苹果发布 Siri AI 与 Core AI 库

苹果在 WWDC 2026 推出全新 Siri AI,采用定制的 Gemini 衍生模型运行于 Private Cloud Compute,并利用视觉 LLM 从屏幕提取信息,绕开了已有应用单独集成 Apple Intelligence 的需求。同时发布 Core AI 库,集成 Meta 的 PyTorch 生态,允许开发者在苹果硬件上将 PyTorch 模型转换为 Core AI 程序运行。iOS 27 Developer Beta 已上线,但用户需通过等待列表才能使用新 Siri AI。

多模态大佬观点端侧
08:03
Berryxia.AI@berryxia
67
WWDC 2026 速览:Tim Cook 谢幕,AI 双轨模型与 Siri 大升级

Tim Cook 最后一次以 CEO 身份主持 WWDC,AI 成绝对核心。苹果推出双轨模型:基础层 3B 端侧 AFM 3 Core,进阶层 20B MoE 仅限 iPhone 17 Pro/M4 设备。四大 AI 能力:个人上下文理解、世界知识检索、App Actions、屏幕感知。Siri 升级支持连续对话、跨设备同步、视觉识别及独立 App,仅限英语,中国/欧盟暂不可用。应用生态:Safari 智能标签分组、密码自动更新、来电识别、快捷指令自然语言生成。影像:Image Playground 写实生成与空间重构。开发者工具:Xcode 支持多模型,Core AI Framework 开放本地部署。遗留问题:中国区功能缺失,Agent 多步自动化能力薄弱。

多模态端侧行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
52
P3D-Bench:面向参数化3D生成与结构推理的多模态大语言模型基准

P3D-Bench是用于评估多模态大语言模型参数化3D生成与结构推理的基准。它覆盖Text-to-3D、Image-to-3D和Assembly-3D三个任务族,从可执行性、几何保真度、拓扑、文本约束、多视图语义对齐和部件级结构六维评分。基于400个文本案例、400个图像案例及203个标注装配体对前沿MLLMs和纯文本LLMs的评测发现了三个结论:装配体任务最困难,模型无法将多部件组合成连贯结构;模型能恢复目标物体的全局形状与语义身份,但无法精确复现输入指定的参数化几何;部件级建模普遍薄弱,既无法还原每个部件的几何,也无法输出正确的部件数量。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
精选82
i1:面向强文生图模型的简单且完全开源配方

i1 是一个 3B 参数的文本到图像扩散模型,仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上,i1 性能与领先模型相当,平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验(超 700K TPU v6e 小时),发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。

arXiv图像生成多模态开源生态

推荐理由:i1 是第一个用全公开数据、完全开源代码/权重/数据管线打造的 3B 模型,直接把全开放模型的性能拉到可与闭源竞争,对做文生图研究的同行是个扎实起点。
07:50
公众号:数字生命卡兹克
62
苹果WWDC 2026:Apple Intelligence新架构与Siri AI发布

苹果在WWDC 2026发布Apple Intelligence新架构,核心是与Google Gemini深度合作,基于Gemini开发5个模型,适配端侧及Private Cloud Compute。端侧分两档:AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri命名为Siri AI,集成系统编排器,具备个人上下文理解、世界知识、App Actions和屏幕感知。iOS、iPadOS等系统更新,Siri首次推出独立App且跨平台同步。APP智能化包括Safari智能标签页分组等;影像升级如Image Playground写实风格、Photos新增Cleanup。开发者工具Xcode可一键本地化App并选择AI模型。

Google多模态端侧行业动态
关联讨论 6 条TechCrunch:AI(RSS)X:Kim (@kimmonismus)Apple:Newsroom(RSS)IT之家(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)
07:21
IT之家(RSS)
67
苹果回应"套壳 Gemini"猜测:iOS 27 版 Siri AI AFM 自研打造

苹果在 2026 年 WWDC 主题演讲后回应,Apple Foundation Models(AFM)并非 Gemini 套壳,而是完全自主控制。AFM 体系包含 5 个模型:端侧 AFM Core(基础 AI)、AFM Core Advanced(原生多模态、稀疏架构)、云端 AFM Cloud(高负载)、AFM Cloud Image(图像生成与编辑)、AFM Cloud Pro(智能体工具与重负载任务)。每个模型针对 Apple Silicon 定制,训练使用专有数据并结合 Gemini 蒸馏优化。用户不接触谷歌代码或 Gemini 智能体。AFM Cloud Pro 采用 Google 云服务器与 NVIDIA GPU 资源,但保持 Private Cloud Compute 认证。

多模态模型发布端侧
07:21
IT之家(RSS)
59
苹果WWDC26主题演讲汇总:iOS 27等系统发布,库克最后一次主讲

6月9日,苹果WWDC26主题演讲举行,蒂姆·库克最后一次以CEO身份主讲。新系统iOS 27、iPadOS 27、macOS 27(Golden Gate)、watchOS、tvOS、visionOS发布。平台优化聚焦响应速度与设计:液态玻璃更新、工具栏与边栏重绘,App启动速度最高提升30%、隔空投送最高提升80%、iPad文件传输最快5倍,搜索重构。可靠性新增儿童账户和暴力内容预警。智能方面推出新一代Apple智能,Siri全面重构为Siri AI,拥有独立App,支持屏幕感知等新功能,中国大陆暂不提供。

产品更新多模态语音
06:21
IT之家(RSS)
38
苹果 iOS 27 升级钱包应用:支持 AI 导入票证

在今天发布的 iOS 27 系统中,苹果升级了 Wallet 应用,新增创建票证功能:用户可通过 iPhone 相机扫描实体票证后借助视觉智能导入,或手动创建数字票证,提供标准、会员、活动三种类型。同时引入 Apple Cash 分摊账单功能,在相机应用的新 Siri 模式中扫描收据后即可选择分摊。另外优化了 Apple Pay 结账页面,调整了订单功能入口,并推出新版 Wallet 应用图标。

产品更新多模态
05:21
IT之家(RSS)
61
初探苹果 iPadOS 27:应用启动提速 30%、引入全新 Siri AI

苹果在 2026 年 WWDC 发布 iPadOS 27,聚焦系统稳定性与速度。应用启动速度最高提升 30%,文件浏览与外接硬盘传输速度最高提升 5 倍。界面延续 Liquid Glass 设计,新增透明度滑块。AI 方面推出独立 Siri AI 应用,定位类似 ChatGPT,支持屏幕上下文理解、开放式提问、连续对话,可在 iOS 27、iPadOS 27、macOS 27 间接续会话,还能按描述生成文本草稿、匹配用户写作风格。开发者测试版已上线,公开测试版 7 月推出,正式版预计 9 月登场。

产品更新多模态
05:21
IT之家(RSS)
61
苹果 iOS 27 日历 / 提醒事项新增 AI:支持自然语言创建事件

在 2026 年 WWDC 上,苹果为 iOS 27 系统的日历与提醒事项加入 AI 功能。用户点按“+”后可直接输入自然语言,如“周四晚上 8 点和女友看电影”,系统自动识别时间、日期和事件内容生成安排;输入“每周”等频率可设重复事件。提醒事项同样支持自然语言创建。日历事件编辑可智能调整重复频率。Visual Intelligence 联动:截图或拍摄活动传单后,系统识别内容并自动加入日历。

产品更新多模态
05:15
Apple Machine Learning Research(RSS)
同事件精选79
苹果发布第三代 Apple Foundation Models(AFM)

苹果推出第三代 Apple Foundation Models(AFM)基础模型家族,与 Google 合作定制,包含五个模型,覆盖从设备端到基于 Private Cloud Compute 的服务器端模型。这些模型旨在驱动 Apple Intelligence 功能,包括全新 Siri 和智能工具,以用户为中心深度融合操作系统,隐私为核心设计原则。

Google多模态模型发布端侧
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:Apple与Google罕见联手推出的第三代基础模型,直接为下一代Siri和系统级AI功能铺路,标志着消费级AI的深度整合,产品经理和iOS开发者必须关注。
‹ 上一页
1…1112131415…50
下一页 ›