AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1234 条
全部一手资讯X论文
标签「多模态」清除
6月3日周二
00:00Suno:Blog(网页)76精选更高水平的创意控制 · Suno团队
5月30日周五
09:32公众号:小米 MiMo59Xiaomi MiMo-VL:通向Agent时代的推理基座,小米多模态大模型开源
5月20日周二
17:45Google DeepMind:Blog(RSS)精选Gemma 3n 预览版发布:强大、高效、移动优先的 AI
5月16日周五
00:00Runway:News(网页)Runway 推出 Gen-4 Image API
4月23日周三
08:00OpenRouter:Announcements(RSS)50OpenRouter 为所有模型新增 PDF 处理支持
08:00OpenRouter:Announcements(RSS)52Universal PDF Support
4月14日周一
00:00MiniMax:Blog(网页)精选MiniMax MCP Server
00:00Runway:News(网页)Runway与Fabula达成制作合作
4月8日周二
18:30BAIR:Berkeley AI Research Blog利用 Latent Diffusion 改造蛋白质折叠模型用于生成
4月3日周四
00:00Runway:News(网页)迈向基于世界模拟器的新媒体生态系统
3月6日周四
00:00Mistral AI:News(网页)42Mistral AI 发布 Mistral OCR:新一代文档理解 OCR API
2月6日周四
00:00Mistral AI:News(网页)62全新 le Chat:你的生活与工作 AI 助手
12月13日周五
20:14公众号:DeepSeek(深度求索)47久等了,DeepSeek-VL2
12月12日周四
08:00OpenRouter:Announcements(RSS)48OpenRouter 为 OpenAI 4o 和 Fireworks 模型提供结构化输出,并免费开放 Gemini Flash 2.0
12月5日周四
08:00OpenRouter:Announcements(RSS)36亚马逊推出全新Nova模型家族
11月18日周一
00:00Mistral AI:News(网页)60Mistral AI 开源多模态模型 Pixtral Large 发布
00:00Mistral AI:News(网页)61Mistral AI 为 le Chat 推出重大更新(Beta)
11月4日周一
08:00xAI:News(网页)精选Grok API 公测版发布
10月16日周三
00:00Suno:Blog(网页)54推出 Suno Scenes:为你的现实场景配乐
9月17日周二
00:00Mistral AI:News(网页)47Pixtral 12B 发布公告
00:00Mistral AI:News(网页)53Mistral AI 产品与定价更新
7月1日周一
00:00Suno:Blog(网页)40Suno 移动端应用发布
6月27日周四
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena 推出多模态排行榜
5月14日周二
01:39Sam Altman:Blog(RSS)精选GPT-4o
4月12日周五
00:00xAI:News(网页)精选Grok-1.5 Vision 预览版
3月21日周四
00:00Suno:Blog(网页)39Suno 推出 v3 音乐生成模型
00:00Runway:News(网页)Runway 与 Musixmatch 合作提升全球音乐体验
6月29日周四
00:00Runway:News(网页)Runway 获1.41亿美元融资,继续构建创意未来
12月5日周一
00:00Runway:News(网页)Runway 完成 5000 万美元 Series C 轮融资
6月10日周五
06:10Lilian Weng:Lil'Log(RSS)41通用视觉语言模型
4月7日周四
02:15Sam Altman:Blog(RSS)DALL•E 2
12月10日周四
00:00Runway:News(网页)构建不可能之事
5月28日周一
00:00Runway:News(网页)户外写生式机器学习:为艺术家打造易用工具
12月15日周五
08:00Lilian Weng:Lil'Log(RSS)24目标检测入门第二部分:CNN、DPM与Overfeat
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
00:00
Suno:Blog(网页)
精选76
更高水平的创意控制 · Suno团队

Suno发布了新的创作工具,旨在将创意控制权完全交还给艺术家。新功能包括支持上传最长8分钟的音频、具备行业首创编辑工具(如歌词替换、段落修改和重混)的升级版歌曲编辑器,以及可调节创作风格的“创意滑块”。创作完成后,用户可利用前沿技术将轨道分离为12条独立音轨(如人声、鼓、贝斯)进行预览和下载,便于在数字音频工作站(DAW)中进行后续编辑。

产品更新多模态
关联讨论 2 条Suno:Blog(网页)X:Suno (@suno)
推荐理由:Suno 这次不是加几个 style,而是给了波形编辑和 12 轨分离,把 AI 音乐从生成器变成了制作工具,音乐创作者可以进来真正干活了。
5月30日
09:32
公众号:小米 MiMo
59
Xiaomi MiMo-VL:通向Agent时代的推理基座,小米多模态大模型开源

小米开源多模态大模型Xiaomi MiMo-VL,该模型定位为Agent时代的推理基座,旨在为智能体时代提供基础推理能力。

智能体多模态模型发布
5月20日
17:45
Google DeepMind:Blog(RSS)
精选
Gemma 3n 预览版发布:强大、高效、移动优先的 AI

Gemma 3n 预览版发布,专为移动设备优化的开源多模态模型。采用 2-in-1 架构,支持音频理解,适用于实时交互和音频中心应用开发。

DeepMindGoogle多模态模型发布
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:Google 发布端侧多模态模型 Gemma 3n,支持音频理解,面向移动设备优化
5月16日
00:00
Runway:News(网页)
Runway 推出 Gen-4 Image API

Runway 开放 Gen-4 Image API,集成 References 功能,定价 $0.08/张。支持虚拟试衣、游戏资产生成、室内设计等场景,开发者可通过 bounding boxes 精确控制构图,将多模态生成能力接入自有应用。

产品更新图像生成多模态
4月23日
08:00
OpenRouter:Announcements(RSS)
50
OpenRouter 为所有模型新增 PDF 处理支持

OpenRouter 平台现已支持对所有模型进行 PDF 文件处理。此前仅部分模型支持该功能,此次更新实现了全覆盖,用户使用任意模型时均可直接上传并处理 PDF 文档。

产品更新多模态
08:00
OpenRouter:Announcements(RSS)
52
Universal PDF Support

OpenRouter现已为平台上的所有模型提供PDF文件处理支持。这项通用功能意味着用户在使用任何模型时,都能直接上传和分析PDF文档。此举消除了以往特定模型才能处理PDF的限制,显著扩展了工具的应用场景,便于用户进行文档总结、信息提取或内容问答等一系列任务。

产品更新多模态部署/工程
4月14日
00:00
MiniMax:Blog(网页)
精选
MiniMax MCP Server

MiniMax 发布 MCP Server,集成文本转语音、语音克隆、文生图、文生视频等多模态能力。支持 Claude Desktop、Cursor、Windsurf 等主流 MCP 客户端,通过统一工作流实现文本到音视频的一站式生成,面向创作者和开发者免费开放。

MCP/工具产品更新多模态

推荐理由:MiniMax MCP Server 上线,支持语音克隆、文生图/视频并兼容 Claude Desktop 等主流客户端
00:00
Runway:News(网页)
Runway与Fabula达成制作合作

Runway与制片公司Fabula达成合作,将其AI电影工具接入后者全球制作管线。Fabula曾出品《A FANTASTIC WOMAN》等获奖影片,此次合作覆盖从概念构思到VFX的全流程。Sundance获奖导演Cutter Hodierne已在新片《THE SHEPHERD》中使用该工具制作高保真预可视化,实现在剧本阶段即可探索视觉风格,突破传统拍摄后才确立视觉语言的模式。Fabula称这帮助团队快速产出高质量提案物料,Runway则借此进一步支持全球电影人创作。

多模态行业动态视频
4月8日
18:30
BAIR:Berkeley AI Research Blog
利用 Latent Diffusion 改造蛋白质折叠模型用于生成

PLAID 是一种多模态生成模型,通过学习蛋白质折叠模型的潜在空间,同时生成蛋白质的1D序列与3D全原子结构。该方法仅需序列数据训练(可利用比结构数据库大2-4个数量级的数据),支持基于功能与生物体的组合式提示控制。相比传统仅预测骨架的模型,PLAID 解决了离散序列与连续结构坐标的多模态协同生成难题,为可控蛋白质设计提供了新范式。

多模态数据/训练论文/研究
4月3日
00:00
Runway:News(网页)
迈向基于世界模拟器的新媒体生态系统

Runway 完成 3 亿美元 D 轮融资,General Atlantic 领投,NVIDIA、软银等参投。资金将扩展 Runway Studios AI 影视工作室,并推进 Gen-4 模型研发。Gen-4 支持跨场景一致角色与场景生成,旨在构建基于世界模拟器的新媒体生态。

多模态行业动态视频
3月6日
00:00
Mistral AI:News(网页)
42
Mistral AI 发布 Mistral OCR:新一代文档理解 OCR API

Mistral AI 推出 Mistral OCR,一款专注于文档理解的光学字符识别 API。该模型支持图像和 PDF 输入,能高精度提取并理解文本、表格、公式及内联图像,输出有序的文本与图像内容。其在内部基准测试中总分 94.89,超越了 GPT-4o-2024-11-20(89.77)与 Gemini-2.0-Flash-001(88.69)。API 命名为 mistral-ocr-latest,定价为 1000 页每美元,批量推理时处理能力翻倍。该 API 已在 la Plateforme 上线,支持部分组织自托管。模型原生支持多语言,单节点处理速度可达每分钟 2000 页。

产品更新多模态部署/工程
2月6日
00:00
Mistral AI:News(网页)
62
全新 le Chat:你的生活与工作 AI 助手

Mistral AI 推出全新 le Chat AI 助手,基于其高性能模型提供快速响应(最高约 1000 词/秒)。该助手提供 Pro($14.99/月起)和 Team 版本,并开启企业版私有预览,支持 SaaS、本地及 VPC 部署。功能包括图像生成、代码执行分析及高质量文档处理,并即将推出数据连接器和多步骤智能体。

产品更新图像生成多模态推理
12月13日
20:14
公众号:DeepSeek(深度求索)
47
久等了,DeepSeek-VL2
DeepSeek多模态模型发布
12月12日
08:00
OpenRouter:Announcements(RSS)
48
OpenRouter 为 OpenAI 4o 和 Fireworks 模型提供结构化输出,并免费开放 Gemini Flash 2.0

OpenRouter 新增对 OpenAI 4o 和 Fireworks 模型的结构化输出支持,同时免费提供 Gemini Flash 2.0 模型。

GoogleOpenAI产品更新多模态
12月5日
08:00
OpenRouter:Announcements(RSS)
36
亚马逊推出全新Nova模型家族

亚马逊推出了全新的Nova模型家族。这是亚马逊最新发布的Nova系列模型,现已正式到来。

多模态模型发布
11月18日
00:00
Mistral AI:News(网页)
60
Mistral AI 开源多模态模型 Pixtral Large 发布

Mistral AI 基于 Mistral Large 2 发布了开源多模态模型 Pixtral Large。该模型包含 123B 多模态解码器和 1B 视觉编码器,支持 128K 上下文窗口。性能方面,它在 MathVista、DocVQA、ChartQA 和 MM-MT-Bench 等基准测试中超越 GPT-4o 与 Gemini-1.5 Pro,并在 LMSYS Vision Leaderboard 上成为得分最高的开源模型。需要注意的是,该模型已停止维护,并被更新的视觉模型所取代。

多模态开源/仓库模型发布评测/基准
00:00
Mistral AI:News(网页)
61
Mistral AI 为 le Chat 推出重大更新(Beta)

Mistral AI 对其免费 AI 工作助手 le Chat 进行了重大更新(Beta)。新增功能包括:支持带引用的网络搜索;用于协作创作的 Canvas 界面;由新多模态模型 Pixtral Large 驱动的文档与图像理解功能;由 Black Forest Labs Flux Pro 支持的图像生成能力;以及更快的响应速度(由推测编辑技术驱动)。此次更新也展示了 le Chat 在提供前沿模型访问、网络搜索、Canvas 等多项核心功能方面的免费优势。所有新功能将陆续向用户开放。

产品更新图像生成多模态
11月4日
08:00
xAI:News(网页)
精选
Grok API 公测版发布

xAI 启动 Grok API 公测,发布新模型 grok-beta,支持 128k 上下文、函数调用及系统提示,视觉版本下周上线。开发者每月可获 $25 免费额度至年底,已购预付额度可叠加。API 兼容 OpenAI 与 Anthropic 格式,修改 base_url 即可迁移。

智能体xAI产品更新多模态

推荐理由:xAI开放Grok API公测,每月送$25额度且兼容OpenAI接口,开发者可立即体验
10月16日
00:00
Suno:Blog(网页)
54
推出 Suno Scenes:为你的现实场景配乐

Suno 推出全新歌曲创作模式 Suno Scenes,支持通过手机相机拍摄的照片或视频直接生成定制歌曲。用户拍摄风景、自拍或日常视频后,Sunto Scenes 会将其转化为独特的音乐作品。该功能首先面向 iOS 移动端用户开放,在应用内相机创作模式中即可使用,方便用户随时将视觉内容转化为可分享的音乐。

产品更新多模态
9月17日
00:00
Mistral AI:News(网页)
47
Pixtral 12B 发布公告

Mistral AI 发布了多模态模型 Pixtral 12B,该模型现已弃用,已被更新更强的版本取代。其基于 Mistral Nemo 构建,包含一个从头训练的 400M 参数视觉编码器,总参数为 12B。模型原生支持可变图像尺寸与宽高比,并能在 128K token 的上下文窗口中处理多张图像。在 MMMU 推理基准测试中,Pixtral 12B 达到 52.5% 的分数,超越了众多更大规模的模型。它在保持强大文本能力(如指令跟随,相对前代开源模型有 20% 提升)的同时,在多模态任务上表现出色。该模型采用 Apache 2.0 许可证。

多模态模型发布
00:00
Mistral AI:News(网页)
53
Mistral AI 产品与定价更新

Mistral AI 宣布多项更新:la Plateforme平台推出免费层,支持开发者零成本实验与原型开发,并可无缝升级至商业层;全线模型大幅降价,其中Mistral Small和Codestral的输入价格降幅达80%;发布22B参数的企业级新模型Mistral Small v24.09,定位介于Mistral NeMo 12B与Mistral Large 2之间;开源视觉模型Pixtral 12B现已可在le Chat中免费使用。

产品更新多模态
7月1日
00:00
Suno:Blog(网页)
40
Suno 移动端应用发布

Suno 正式推出其首款移动应用,让用户能随时随地创作和分享音乐。应用首版(v1)目前仅在美国地区面向 iOS 平台发布,未来将拓展至 Android 及全球市场。其核心功能包括:基于文本(歌词和描述)生成歌曲、使用手机录音并转化为歌曲、以及收听和策划其他创作者的音乐。截至目前,已有 1200 万人使用 Suno 进行自我表达、连接、教学和娱乐。

产品更新多模态
6月27日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena 推出多模态排行榜

Chatbot Arena 新增图像对战功能并发布多模态排行榜。基于两周内17,429份跨60余种语言的投票,GPT-4o以1226分领跑,Claude 3.5 Sonnet以1209分紧随其后,两者视觉优势较纯语言模型更明显。Gemini 1.5 Pro与GPT-4 Turbo并列第三,开源模型Llava 1.6 34B位列第八。平台同步将"Elo评分"更名为"Arena Score",并计划扩展至PDF、视频及音频等模态支持。

AnthropicOpenAI多模态评测/基准
5月14日
01:39
Sam Altman:Blog(RSS)
精选
GPT-4o

OpenAI 将 GPT-4o 向所有 ChatGPT 用户免费开放,无广告。全新语音(及视频)模式响应速度接近人类,表现力极强,被 Sam Altman 称为「用过最好的计算机界面」,像电影里的 AI。未来还将支持个性化、代操作等功能。

OpenAI多模态模型发布语音

推荐理由:Sam Altman 解读 GPT-4o 发布,强调语音交互与免费策略
4月12日
00:00
xAI:News(网页)
精选
Grok-1.5 Vision 预览版

xAI 发布 Grok-1.5 Vision 预览版,新增视觉理解能力,可处理图像、图表及文档内容,支持跨模态推理与视觉问答,现面向早期测试者开放试用。

xAI多模态模型发布

推荐理由:xAI发布Grok-1.5 Vision预览版,具备多模态视觉理解能力
3月21日
00:00
Suno:Blog(网页)
39
Suno 推出 v3 音乐生成模型

音乐生成平台 Suno 发布了 v3 模型,这是其首个能生成广播级质量音乐的模型,支持用户在数秒内创作完整的两分钟歌曲,现已对所有用户开放。v3 在音频质量、风格多样性及提示词遵循性上进行了改进,减少了模型幻觉并提升了歌曲结尾的自然度。该模型专为原创音乐设计,不支持对其他艺术家的参考,并部署了不可听水印技术以检测 AI 生成内容。v4 模型已在开发中。

多模态模型发布
00:00
Runway:News(网页)
Runway 与 Musixmatch 合作提升全球音乐体验

Runway 与 Musixmatch 达成合作,后者超100万艺术家社区将可使用 Gen-2 等模型制作动态歌词视频。结合 Musixmatch 歌词语义提取与 Runway 视频生成能力,让音乐视频创作更快、更独特且易于获取,帮助艺术家与全球听众建立更深连接。

多模态行业动态视频
6月29日
00:00
Runway:News(网页)
Runway 获1.41亿美元融资,继续构建创意未来

Runway 获1.41亿美元融资,用于扩展多模态AI研究及团队招聘。公司此前推出Gen-1和Gen-2视频生成模型,其AI工具正被财富500强企业使用以优化创作流程。

多模态行业动态视频
12月5日
00:00
Runway:News(网页)
Runway 完成 5000 万美元 Series C 轮融资

Runway 完成 5000 万美元 Series C 轮融资,Felicis 领投,Amplify Partners、Lux Capital 等现有投资方及 Madrona 跟投,Vercel、Replit、Airtable、PyTorch 等 CEO 参与天使投资。资金将用于研发下一代创意工具、推进多模态 AI 系统,并扩招工程、研究和 GTM 团队。Runway 成立于 2018 年,其创意套件包含 30 余个 AI Magic Tools,已服务 CBS、Publicis、New Balance 等企业。

多模态行业动态视频
6月10日
06:10
Lilian Weng:Lil'Log(RSS)
41
通用视觉语言模型

处理图像生成文本(如图像描述和视觉问答)的技术已有多年研究。传统方法通常依赖目标检测网络作为视觉编码器来捕捉视觉特征,再通过文本解码器生成文字。该内容聚焦于一种特定的技术路径,即扩展预训练的通用语言模型,使其具备处理视觉信号的能力,从而完成视觉语言任务。

图像生成多模态教程/实践
4月7日
02:15
Sam Altman:Blog(RSS)
DALL•E 2

OpenAI 发布 DALL•E 2 研究版本,支持通过自然语言指令生成和编辑图像。作者认为这标志着计算机界面新趋势——自然语言交互,并指出与 Copilot 不同,DALL•E 2 能独立完成完整作品,可能率先冲击创意工作而非体力劳动,预示 AI 对劳动力市场的潜在影响。团队计划今年夏天正式产品化,当前采用渐进式部署策略以评估风险。

OpenAI图像生成多模态模型发布
12月10日
00:00
Runway:News(网页)
构建不可能之事

Runway 从2019年的机器学习平台发展为新一代创意工具,依托生成式机器学习、新分发渠道和Web技术三大驱动力,已支持用户训练超5万个AI模型、上传2400万资源。平台通过AI视频编辑、绿幕工具等技术缩小好莱坞与TikTok创作者的内容差距,服务IBM、Google及RISD等院校,致力于让创意实现从想法到执行的即时转化,重新定义AI时代的创作流程。

多模态现象/趋势视频
5月28日
00:00
Runway:News(网页)
户外写生式机器学习:为艺术家打造易用工具

将机器学习比作19世纪颜料管的发明。当年颜料管让户外写生成为可能,推动印象派革命;如今机器学习有望类似地释放艺术创造力,但现有工具对非技术背景艺术家门槛过高,如同当年研磨颜料的复杂工艺。作者呼吁开发更友好的机器学习工具,让艺术家无需编写底层代码即可实验,实现技术民主化。

多模态现象/趋势视频
12月15日
08:00
Lilian Weng:Lil'Log(RSS)
24
目标检测入门第二部分:CNN、DPM与Overfeat

本文作为系列教程的第二部分,重点介绍了目标检测发展中的几个经典模型。文章解析了用于图像分类的卷积神经网络,包括AlexNet、VGG和ResNet,阐述了它们如何通过深度架构推动图像分类性能的突破。同时,详细讲解了早期用于目标识别的DPM(可变形部件模型)与Overfeat模型,说明了它们在特征提取与区域提议方面的创新思路。内容梳理了从分类到检测的技术演进脉络,为理解现代目标检测方法奠定了基础。

多模态教程/实践
‹ 上一页
1…293031
下一页 ›