AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 281 条
全部一手资讯X论文
标签「多模态」清除
5月23日周六
01:30Apple Machine Learning Research(RSS)66精选VSAS-Bench:视觉流式辅助模型的实时评估基准
00:28Tomer Tunguz 博客(VC 分析)70精选可塑界面:AI驱动的未来软件形态
5月22日周五
15:02公众号:月之暗面(Kimi)37Kimi 原生视频理解能力已登陆 TRAE 中国版,分享体验得 Labubu!
00:33Google Developers Blog(RSS)75精选推出 Gemini for Home 赋能服务提供商与硬件合作伙伴
00:07美团 LongCat:HuggingFace 新模型73精选LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架
5月21日周四
03:50Google Blog:AI(RSS)68同事件精选我们在 I/O 2026 发布的 100 件事同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
5月20日周三
13:53公众号:通义实验室(千问)55Qwen3.5-LiveTranslate 发布:开口即同传
04:25Google Developers Blog(RSS)70使用LiteRT-LM在设备上实现闪电般的快速生成式AI
02:18Google Blog:AI(RSS)83精选Gemini 3.5:前沿智能与行动能力相结合
02:18Google Blog:AI(RSS)75精选Google Workspace 推出全新创建方式与高效工作功能
01:48Google DeepMind:Blog(RSS)83同事件精选推出Gemini Omni多模态AI模型同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
5月19日周二
23:18Qwen:Blog Retrieval(API)77精选Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确
20:07Apple:Newsroom(RSS)57精选苹果发布全新辅助功能,并引入Apple Intelligence进行更新
5月18日周一
23:52Hugging Face:Blog(RSS)68精选PaddleOCR 3.5:使用Transformers后端运行OCR和文档解析任务
18:18公众号:腾讯混元33中国古文字识别评测基准 Chronicles-OCR 发布:业界首个覆盖"七体之变"
18:16公众号:豆包(字节)39豆包上线博物馆讲解功能,还有了新身份
16:07公众号:可灵AI(快手·视频)56可灵AI上线全球首个原生4K视频模型
5月17日周日
21:43Google DeepMind:Blog(RSS)63精选让了解网络内容的创建和编辑过程变得更简单
5月16日周六
06:50Google DeepMind:Blog(RSS)75精选Gemini 3.5:具备行动能力的前沿智能
5月15日周五
11:02蚂蚁 inclusionAI:HuggingFace 新模型56精选蚂蚁集团提出 ARGenSeg-8B:基于自回归图像生成模型的图像分割框架
5月14日周四
11:53CMU:Machine Learning Blog63精选教视觉-语言模型说"电影语言"
01:02Runway:News(网页)76精选Introducing Runway Agent
5月13日周三
11:45公众号:面壁智能(MiniCPM)54新一代「小钢炮」来袭!1.3B 模型性能效率双杀,MiniCPM-V 4.6 正式开源
5月12日周二
14:22公众号:火山引擎21乐橙×火山引擎:给安防注入AI能力,让监控从"被动记录"进化为"主动思考"
07:52Apple Machine Learning Research(RSS)51BalCapRL: 基于强化学习的MLLM图像描述平衡框架
5月11日周一
10:00公众号:昆仑万维(天工)26当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由
08:00Thinking Machines Lab:官方博客(RSS)59精选Thinking Machines Lab发布Interaction Models研究预览
5月9日周六
03:39Apple Machine Learning Research(RSS)66精选Velox:学习4D几何与外观的表示
5月8日周五
02:30Apple Machine Learning Research(RSS)69精选用于学习语义丰富视觉表征的文本条件JEPA
01:18OpenAI:官网动态(RSS · 排除企业/客户案例)86精选通过 API 中的新模型推进语音智能
5月7日周四
20:03公众号:豆包(字节)28科研工作者们如何用豆包?他们这样说
07:11xAI:News(网页)79精选Grok Imagine API 推出"Quality Mode"图像生成与编辑功能
06:30Apple Machine Learning Research(RSS)73精选从位置认知到功能理解:为多模态大语言模型设立空间功能智能基准
5月6日周三
19:54公众号:火山引擎49豆包基础模型 Doubao-Seed-2.0-lite 升级,支持全模态理解
5月2日周六
03:10Tomer Tunguz 博客(VC 分析)57精选本周的积极信号:AI在医疗、教育、农业与科研领域的突破性进展
5月1日周五
02:13Google Developers Blog(RSS)62精选基于Gemini Embedding 2构建:智能多模态RAG及其他应用
4月30日周四
17:11Qwen:Blog Retrieval(API)33Qwen-Scope:解码智能,释放潜能
08:00Apple Machine Learning Research(RSS)47利用 Sign Language Models 自举标注手语注释
08:00OpenRouter:Announcements(RSS)54April Release Spotlight
00:36Tomer Tunguz 博客(VC 分析)57精选AI推理市场的专业化分化
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月23日
01:30
Apple Machine Learning Research(RSS)
精选66
VSAS-Bench:视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能,但实时视觉助手所依赖的流式模型还需考量额外指标,如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此,研究团队提出了VSAS-Bench,这是一个新的评估基准,专门针对流式视觉语言模型在实时交互任务中的表现,填补了当前评估方法在动态、持续生成场景下的空白。

多模态论文/研究评测/基准

推荐理由:苹果搞了个实时视觉助手的评估基准,把离线评测拉到了流式场景,多模态 agent 和实时 VLM 方向的研究者值得跟进一下评估方法。
00:28
Tomer Tunguz 博客(VC 分析)
精选70
可塑界面:AI驱动的未来软件形态

Salesforce已采用无头架构,允许销售人员通过AI直接更新数据,许多公司正通过MCPs跟进。同时,AI专家们正推动超越纯文本、更丰富的界面(如HTML),支持图表与交互。AI能根据场景动态生成定制化界面。无头系统并非移除前端,而是支持多种可塑化界面(如音频、网页)。未来软件的核心价值在于动态管理这些界面、确保其准确性,并将各类AI产物整合为可演化的上下文数据库与制品库。用户界面并未消失,而是变得“可塑”,能按需变形。

多模态现象/趋势

推荐理由:动态 UI 不是消灭界面,而是让界面变得可塑性。Airbnb CEO 和 Anthropic 工程师都在押注 HTML 输出,这篇文章把信号串了起来,做产品的人值得一看。
5月22日
15:02
公众号:月之暗面(Kimi)
37
Kimi 原生视频理解能力已登陆 TRAE 中国版,分享体验得 Labubu!
产品更新多模态视频
00:33
Google Developers Blog(RSS)
精选75
推出 Gemini for Home 赋能服务提供商与硬件合作伙伴

Google 通过推出全栈 Gemini AI 解决方案扩展其智能家居生态系统。该方案集成了先进的摄像头智能、自然语言查询功能和日常活动摘要能力。它为服务提供商和硬件制造商提供了现成的参考设计与API,使其无需大量研发投入即可构建主动式、品牌化的智能家居服务。该计划旨在超越基础设备控制,迈向能够理解情境并实时响应用户需求的AI原生智能家居。

Google产品更新多模态端侧

推荐理由:Google 把 Gemini 塞进智能家居,直接给硬件商和 ISP 提供交钥匙方案,这一步可能比 Nest 当年更有侵略性,做智能家居的得留意了。
00:07
美团 LongCat:HuggingFace 新模型
精选73
LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5,一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器,显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性,并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术,模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准,通过大规模主观评分与专家分析,验证了其在多项关键维度上的优异性能。

Hugging Face图像生成多模态开源/仓库
关联讨论 1 条IT之家(RSS)
推荐理由:美团把数字人模型升级到1.5版,换了Whisper做音频编码,唇形同步比之前自然不少,而且开源了训练代码,做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。
5月21日
03:50
Google Blog:AI(RSS)
同事件精选68
我们在 I/O 2026 发布的 100 件事

在 Google I/O 2026 开发者大会上,公司共发布了 100 项内容,重点介绍了 Gemini Omni、Google Antigravity 和 Universal Cart 等新产品的核心亮点。

Google产品更新多模态
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:I/O 今年还是全场景轰炸,Gemini Omni 加一堆新产品,花十分钟扫一眼,未来半年 AI 要替你做哪块活就清楚了。
5月20日
13:53
公众号:通义实验室(千问)
55
Qwen3.5-LiveTranslate 发布:开口即同传

通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音
04:25
Google Developers Blog(RSS)
70
使用LiteRT-LM在设备上实现闪电般的快速生成式AI

Google AI Edge推出LiteRT-LM引擎,为跨平台移动和边缘设备提供高度优化的基础设施,支持Gemma 4模型在设备端运行。通过内存高效动态加载和多令牌预测技术,实现高达2.2倍的速度提升,并集成思维模式、约束解码等高级工具。同时,该引擎正扩展至Apple生态,新增原生Swift API和WebGPU加速的JavaScript API,支持高性能浏览器端推理。

Google产品更新多模态端侧
02:18
Google Blog:AI(RSS)
精选83
Gemini 3.5:前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。

智能体Google多模态推理

推荐理由:Google 在 I/O 上甩出 Gemini 3.5,这次不只拼多模态,更强调‘行动’,是所有做 Agent 的团队必须对标的新基座。
02:18
Google Blog:AI(RSS)
精选75
Google Workspace 推出全新创建方式与高效工作功能

Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能,并推出了一款名为 Google Pics 的全新设计工具。同时,其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验,通过集成更智能的工具和交互方式,帮助用户更便捷地完成多项任务。

Google产品更新多模态语音

推荐理由:Google Workspace 直接植入了语音操作和设计工具 Pics,这波更新对办公效率很实在,做产品和运营的可以关注一下实际落地效果。
01:48
Google DeepMind:Blog(RSS)
同事件精选83
推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni,能够整合视频、图像、音频和文本等多种输入,生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑,并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线,未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库,支持从写实到叙事的创意生成,并可通过多轮对话持续编辑视频,而不丢失原始场景上下文。

DeepMindGoogle多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事,多轮自然语言编辑和世界知识融合是真正的代际升级,做视频内容的该重新理解工具的定义了。
5月19日
23:18
Qwen:Blog Retrieval(API)
精选77
Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由:这个版本让同声传译从“能用”变成了“好用”,语言覆盖从 18 跃升 60,延迟压到 2.8 秒,加上视觉消除歧义,做国际业务和直播的人值得跟进。
20:07
Apple:Newsroom(RSS)
精选57
苹果发布全新辅助功能,并引入Apple Intelligence进行更新

苹果公司宣布推出由Apple Intelligence驱动的重大辅助功能更新。此次更新为VoiceOver、放大镜(Magnifier)和语音控制(Voice Control)功能引入了新的能力,旨在提升残障用户设备的可用性。这是苹果首次将Apple Intelligence应用于其辅助功能技术组合。

产品更新多模态端侧

推荐理由:Apple Intelligence为无障碍功能带来自然语言交互和更智能的视觉辅助,是不错的方向,但全是远期承诺,现在还不能上手。
5月18日
23:52
Hugging Face:Blog(RSS)
精选68
PaddleOCR 3.5:使用Transformers后端运行OCR和文档解析任务

PaddleOCR 发布 3.5 版本,正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 engine 与 engine_config 参数,允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于,显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈(如 RAG、智能体、文档AI)的门槛,使开发者能更便捷地利用现有生态,减少集成阻力,从而专注于下游应用构建。

Hugging Face检索增强产品更新多模态

推荐理由:PaddleOCR 3.5 最大的变化不是新模型,而是终于能跑在 Transformers 上了,做 RAG 和文档智能的开发者可以少写一堆胶水代码。
18:18
公众号:腾讯混元
33
中国古文字识别评测基准 Chronicles-OCR 发布:业界首个覆盖"七体之变"

Chronicles-OCR 是业界首个覆盖“七体之变”的中国古文字识别评测基准,用于评估大模型对三千年汉字的识别能力。

多模态评测/基准
18:16
公众号:豆包(字节)
39
豆包上线博物馆讲解功能,还有了新身份
产品更新多模态
16:07
公众号:可灵AI(快手·视频)
56
可灵AI上线全球首个原生4K视频模型

可灵AI推出全球首个原生4K视频模型,旨在利用原生4K技术重塑创作流程,加速AI赋能影视工业级内容创作。

产品更新多模态视频
5月17日
21:43
Google DeepMind:Blog(RSS)
精选63
让了解网络内容的创建和编辑过程变得更简单

平台宣布扩展其内容透明工具,旨在让用户更便捷地追溯网络内容的创建与编辑历史。这项更新将适用于社交媒体平台、网页内容等多个场景,帮助用户识别信息的修改痕迹,提升数字内容的透明度。

Google产品更新多模态安全/对齐

推荐理由:Google 把 SynthID 水印和 C2PA 凭证推向搜索、Chrome 和 API,普通人也能随手查「这是 AI 做的吗?」,这对虚假信息是实际的约束。
5月16日
06:50
Google DeepMind:Blog(RSS)
精选75
Gemini 3.5:具备行动能力的前沿智能

Google发布了Gemini 3.5模型,该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”,即能够像助手一样自主规划并执行一系列多步骤、复杂的操作,旨在将先进的语言理解与实际问题解决能力相结合。

智能体DeepMindGoogle多模态
关联讨论 18 条X:Google AI (@GoogleAI)X:Sundar Pichai (@sundarpichai)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)Google Blog:AI(RSS)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
推荐理由:Gemini 3.5 Flash 把前沿级智能体和编程能力塞进了极低延迟和成本,四倍于竞品速度的同时基准表现超过 3.1 Pro,这可能是今年对开发者最实用的基座模型之一。
5月15日
11:02
蚂蚁 inclusionAI:HuggingFace 新模型
精选56
蚂蚁集团提出 ARGenSeg-8B:基于自回归图像生成模型的图像分割框架

蚂蚁集团推出 ARGenSeg-8B,一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型(MLLM)输出视觉 token,并通过通用 VQ-VAE 解码为分割掩码,使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token,降低推理延迟。在多个分割数据集上超越此前最优方法,推理速度显著提升。论文已被 NeurIPS 2025 接收,模型已发布在 HuggingFace。

Hugging Face多模态开源/仓库模型发布

推荐理由:蚂蚁提出用自回归生成做分割,把理解和像素级感知统一到一个框架里,多个数据集SOTA且速度更快,做CV的值得看看。
5月14日
11:53
CMU:Machine Learning Blog
精选63
教视觉-语言模型说"电影语言"

研究团队与百余名专业创作者历时一年,构建了一个视频描述生成流程,其核心在于扩展精细化的人类-AI协同监督,而非单纯扩大模型规模。该研究(入选CVPR 2026亮点论文)指出,当前主流视频生成模型在理解和生成具有电影感的专业运镜(如希区柯克式滑动变焦、精确的焦点转移或荷兰角镜头)时存在明显不足,常产出通用或焦点错误的画面。这项工作揭示了一条通过提升监督质量来增强模型“电影语言”表达能力的新路径。

多模态视频论文/研究

推荐理由:这篇CVPR 2026 Highlight的博客版很有意思,它用100多个专业电影人来标注视频,教VLM学会推拉摇移的镜头语言,不是又多一个数据集,而是提醒我们:高质量的人工标注可能比堆模型更重要。
01:02
Runway:News(网页)
精选76
Introducing Runway Agent

Runway正式发布Runway Agent,这是一个能够通过单次对话将创意想法转化为完整、可发布视频的智能创作伙伴。用户只需用自然语言描述需求,Agent便能根据上下文和目标,自主完成概念提案、故事节奏设计、视觉方向规划,并最终生成包含多场景、旁白、对话和音乐的成片。它旨在为品牌团队、营销人员、创意机构和电影制作人快速生产各类视频内容,如品牌宣传、社交媒体素材和短片,将传统需要数天或数周的审核制作周期压缩至几分钟。该产品现已上线,新免费计划用户可获得1500积分用于制作首个视频。

智能体产品更新多模态

推荐理由:Runway Agent 把视频生产从“一个团队干一周”变成“一个人聊十分钟”,品牌和内容团队的视频成本结构可能就此改写。
5月13日
11:45
公众号:面壁智能(MiniCPM)
54
新一代「小钢炮」来袭!1.3B 模型性能效率双杀,MiniCPM-V 4.6 正式开源
多模态开源/仓库模型发布端侧
5月12日
14:22
公众号:火山引擎
21
乐橙×火山引擎:给安防注入AI能力,让监控从"被动记录"进化为"主动思考"
多模态端侧行业动态
07:52
Apple Machine Learning Research(RSS)
51
BalCapRL: 基于强化学习的MLLM图像描述平衡框架

研究团队针对多模态大语言模型图像描述任务提出BalCapRL平衡框架。该框架通过设计多维度奖励函数,系统解决了现有强化学习方法在追求描述效用时引发的幻觉、噪声和冗长等问题。实验表明,BalCapRL在保持描述准确性的同时,显著提升了信息密度与可读性,在多个基准测试中实现了更均衡的性能表现,有效突破了传统方法在核心维度间的权衡局限。

多模态论文/研究
5月11日
10:00
公众号:昆仑万维(天工)
26
当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由

Mureka正被企业用以替换Suno,一场AI音乐领域的迁移正在发生。背后涉及功能、成本或合规等方面的理由。

多模态现象/趋势语音
08:00
Thinking Machines Lab:官方博客(RSS)
精选59
Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由:Thinking Machines 把实时交互训进了模型本身,不再是外挂脚手架,微轮次架构和 benchmark 数据很硬,做语音/视频助手的可以认真看看,虽然还是研究预览,但方向值得盯着。
5月9日
03:39
Apple Machine Learning Research(RSS)
精选66
Velox:学习4D几何与外观的表示

Velox提出一个学习4D对象潜在表示的框架,该表示具备描述性、压缩性与易获取性。它仅需非结构化动态点云作为输入,通过编码器将时空彩色点云压缩为动态形状标记,并利用两个互补解码器进行监督:4D表面解码器建模随时间变化的表面分布以捕捉几何信息,高斯解码器则负责外观重建。该方法在保持高保真度的同时提升了下游任务的效率。

多模态数据/训练论文/研究

推荐理由:苹果把动态点云的几何和外观塞进一个可压缩的latent space,思路干净但领域垂直,做3D视觉和AR的可以跟一下,其他人不用急着读。
5月8日
02:30
Apple Machine Learning Research(RSS)
精选69
用于学习语义丰富视觉表征的文本条件JEPA

研究人员提出文本条件联合嵌入预测架构(TC-JEPA),通过引入图像描述文本作为条件信息来降低掩码特征预测中的视觉不确定性。该方法采用细粒度文本调节器,对输入文本标记计算稀疏交叉注意力,从而调制预测的图像补丁特征。与基于掩码特征预测的I-JEPA相比,TC-JEPA能够学习到语义更丰富的视觉表征,解决了原有方法因视觉不确定性导致的语义学习不足问题。

多模态数据/训练论文/研究

推荐理由:Apple 这篇 TC-JEPA 把文本融入自监督视觉预训练,用稀疏交叉注意力减少预测不确定性,对多模态表征学习是个不错的思路补充,做视觉模型的值得一看。
01:18
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选86
通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。

OpenAI多模态模型发布语音

推荐理由:语音模型不再只是‘听写’,开始能推理和翻译了,OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段,做语音产品的值得赶紧试试。
5月7日
20:03
公众号:豆包(字节)
28
科研工作者们如何用豆包?他们这样说
多模态教程/实践
07:11
xAI:News(网页)
精选79
Grok Imagine API 推出"Quality Mode"图像生成与编辑功能

xAI正式向企业开发者和团队推出Grok Imagine API的“Quality Mode”图像生成与编辑功能。该模式在真实性、文本渲染和创意控制上实现显著提升,能生成细节精细、纹理准确、场景逼真的图像,并具备清晰的多语言文本生成能力。在独立排行榜中,该API已位列顶级模型之列。定价为输入提示每次0.01美元,输出图像根据分辨率(1K或2K)每张费用在0.05至0.07美元之间。此功能适用于产品可视化、营销素材快速生成、用户内容风格创作等多种商业场景。

xAI产品更新多模态

推荐理由:Grok Imagine 的 Quality Mode 在写实度和文字渲染上提升很明显,对需要高频生成产品图和 UGC 内容的品牌团队是个实在的更新,API 直接能用,单张才几分钱。
06:30
Apple Machine Learning Research(RSS)
精选73
从位置认知到功能理解:为多模态大语言模型设立空间功能智能基准

现有基准如VSI-Bench主要评估基础几何感知能力,但未能触及具身智能所需的高阶认知。为此,研究团队推出了空间功能智能基准SFI-Bench,该基准包含超过1700个问题,数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力,标志着对智能体空间认知的评估从几何层面迈向功能层面。

多模态推理论文/研究

推荐理由:Apple 自己搞的 SFI-Bench 把评估从几何定位推进到功能理解,这个方向很对,做具身智能和空间推理的团队该跟一下。
5月6日
19:54
公众号:火山引擎
49
豆包基础模型 Doubao-Seed-2.0-lite 升级,支持全模态理解

豆包基础模型 Doubao-Seed-2.0-lite 完成升级,新增全模态理解能力。升级后的模型支持全模态理解,可处理多种信息形式。此为火山引擎旗下模型的最新升级。

多模态模型发布
5月2日
03:10
Tomer Tunguz 博客(VC 分析)
精选57
本周的积极信号:AI在医疗、教育、农业与科研领域的突破性进展

近期多项进展展现了AI的巨大积极影响。医疗领域,Mayo Clinic的AI能通过常规CT提前最多三年检测胰腺癌,强生利用AI将新药线索生成时间减半。教育方面,哈佛研究显示AI导师使学生学习效果翻倍,泰国培训16万名教师惠及330万学生。农业上,AI能以约88%准确率预测害虫爆发。科研中,AI快速筛查NASA数据,新发现超一万颗系外行星候选。此外,香港推出AI洪水预报系统,Atlassian和Twilio等公司也因AI驱动业绩增长并上调预期。这些案例平衡了AI风险,凸显其创新潜力。

多模态数据/训练现象/趋势

推荐理由:Tomer 收集了最近两周 AI 在医学、教育、农业的硬核落地案例,对反 AI 恐慌是一剂清醒剂,SaaS 公司的营收也说明行业在回暖。
5月1日
02:13
Google Developers Blog(RSS)
精选62
基于Gemini Embedding 2构建:智能多模态RAG及其他应用

Google正式发布Gemini Embedding 2统一嵌入模型,该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入,显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言,并提供任务特定前缀和马特廖什卡降维等特性,为构建复杂AI智能体提供高效精准的基础。

Google检索增强多模态模型发布

推荐理由:开发者做多模态RAG的苦日子结束了,Gemini Embedding 2把文本、图片、视频塞进同一个语义空间,还自带Matryoshka降维,直接省掉一堆胶水代码。
4月30日
17:11
Qwen:Blog Retrieval(API)
33
Qwen-Scope:解码智能,释放潜能

Qwen Studio 发布了一个集成了多种功能的综合平台。该平台的核心功能包括智能聊天机器人、图像与视频理解、图像生成以及文档处理。此外,它还整合了网络搜索能力,支持工具调用,并能生成可用的“工件”或成果物。这一系列功能旨在通过一个统一的界面,全面解码并释放人工智能在不同模态任务中的潜力。

产品更新多模态
08:00
Apple Machine Learning Research(RSS)
47
利用 Sign Language Models 自举标注手语注释

研究团队开发了一套手语伪标注流程,以解决高质量标注数据匮乏对AI手语翻译发展的限制。该流程以手语视频和英文文本为输入,输出包括时间区间在内的可能注释排序集合,涵盖手势词、手指拼写单词和手语分类器。新发布的ASL STEM Wiki和FLEURS-ASL等数据集虽包含数百小时专业译员数据,但因标注成本过高仅实现部分标注。该自举方法旨在显著提升大规模手语数据的利用效率。

多模态数据/训练论文/研究
08:00
OpenRouter:Announcements(RSS)
54
April Release Spotlight

本月发布聚焦视频生成、工作空间、智能体SDK与重排序模型。多家公司推出前沿大模型,包括GPT、Claude和LLaMA系列的新版本。核心变化体现在模型多模态能力增强,特别是视频生成功能成为竞争焦点。部分新模型在标准基准测试中性能提升超过15%,同时上下文窗口扩展至百万token级别。开发者工具方面,新的智能体SDK支持更复杂的任务编排,而重排序模型显著提升了检索精度。

智能体产品更新多模态模型发布
00:36
Tomer Tunguz 博客(VC 分析)
精选57
AI推理市场的专业化分化

AI推理市场正快速分化,各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后,NVIDIA数据中心收入三年内增长17倍,凸显市场爆发。分化根本原因在于工作负载差异:图像视频生成需高计算力,长上下文消耗更多内存,边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层;按模态分为文本、图像视频音频;按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型,整个AI推理市场规模预计约1000亿美元,这种专业化趋势正为各细分领域创造领导者机会。

多模态大佬观点推理端侧

推荐理由:Tomer 把推理市场跟数据库市场做类比,碎片化的逻辑讲得很透,做 AI 基础设施的朋友能直接用来梳理自己的赛道,普通人知道这么回事就行。
‹ 上一页
12345…8
下一页 ›