AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月29日周五
00:00LMSYS:Blog(Chatbot Arena 团队)61精选LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能
5月28日周四
23:43AK55多模态智能体推理的探索性策略优化
23:38Xiaomi MiMo69同事件精选MiMo-V2.5现已登陆OpenCode限时免费同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
23:19IT之家(RSS)60消息称微软下周将推全新编程模型,以争取开发者群体认可
23:12Rohan Paul61Reactor推出实时世界模型基础设施
23:12TechCrunch:AI(RSS)65Siri新应用预览揭示苹果挑战ChatGPT等计划
21:42Chubby♨️67一夜之间构建的AI Twitch主播:功能、情绪与潜在影响
21:19IT之家(RSS)55先睹为快:苹果 iOS 27 全新 Siri 界面示意图曝光
21:19IT之家(RSS)51汽车变成"超级秘书":比亚迪发布超级智能体"迪迪虾"
20:21公众号:京东JoyAI51听见京东 618:大模型时代下的声音供应链
20:19IT之家(RSS)52王传福:比亚迪天神之眼自动驾驶版(L3 / L4)将首搭超千线激光雷达
19:58公众号:龙猫LongCat(美团)44美团&顶会论文分享 | 5大专场,32篇论文解读
19:06小互44X 的自动翻译全面生效了吗 现在所有的推文 都会根据你使用的语言自动翻译,你现在可以浏览任何帖子和回复全部展示的是你正在使用的语言 巴别塔倒塌了?
18:15IT之家(RSS)47科大讯飞 AI 眼镜发布:支持 122 种语言翻译,售价 4299 元
17:47公众号:通义实验室(千问)54通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准
16:11Kling AI62可灵AI将在AI电影节展示20部4K原创短片
15:41🚨 AI News | TestingCatalog45Google Genie实验支持用地图地点生成虚拟世界
15:37The Decoder:AI News(RSS)60ElevenLabs Music v2 实现从歌剧到重金属的流派转换而不失音乐连贯性
15:15IT之家(RSS)60亚马逊高管:AI 已越过恐怖谷,普通观众难分辨 AI 内容
12:36PixVerse64PixVerse加入阿里云开放AI生态
12:28HuggingFace Daily Papers(社区热门论文)52OmniVerifier-M1:具有显式结构化重校准能力的多模态元验证器
11:37歸藏(guizang.ai)74小红书图片生成器新Skill,图文混排痛点全解决
11:28HuggingFace Daily Papers(社区热门论文)66多模态智能体推理的智能体探索性策略优化
10:28Berryxia.AI68腾讯Miora:一个AI创意Agent平台
10:28AYi52Google Omni实现精准相机控制生成航拍视频
10:28HuggingFace Daily Papers(社区热门论文)65从像素到词语--迈向规模化原生One-Vision模型
08:00HuggingFace Daily Papers(社区热门论文)44基于LLM的多模态音乐推荐系统
08:00HuggingFace Daily Papers(社区热门论文)46Stable-Layers:基于VLM评分强化学习的图像层分解模型微调框架
08:00HuggingFace Daily Papers(社区热门论文)63PARCEL:基于池锚定重采样与条件弹性查询的高效视觉-语言理解架构
08:00HuggingFace Daily Papers(社区热门论文)55Brain-IT-VQA: 从大脑信号到答案
08:00HuggingFace Daily Papers(社区热门论文)51Crafter:一个用于从多样化输入生成可编辑科学图表的多智能体框架
08:00HuggingFace Daily Papers(社区热门论文)57每类细胞仅需一次点击:免训练的群体交互用于细胞实例分割
08:00HuggingFace Daily Papers(社区热门论文)61看到不等于知道:视觉语言模型 (VLMs) 是否知道何时不应回答空间问题(以及为什么)?
08:00HuggingFace Daily Papers(社区热门论文)50AnyMo:基于掩码建模的任意模态条件运动生成
08:00HuggingFace Daily Papers(社区热门论文)60VLM3:视觉语言模型是原生的3D学习者
07:35Ethan Mollick60Google全模态模型尚未完全整合
05:52Google Gemini77同事件精选Gemini Omni轻松转换视频视觉风格同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
04:59Google AI45回顾上周I/O大会所有重要发布
03:07Rohan Paul57利用OpenAI Codex解决硬件问题实例
02:35The Decoder:AI News(RSS)55微软 MAI-Image-2.5 在基准测试中追平谷歌 Nano Banana 2
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选61
LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由:做VLM服务部署的可以认真看一下,用CPU头节点做异构EPD分离,几乎零成本换来了TTFT和TPOT的显著提升,有完整脚本和benchmark,能直接上手试。
5月28日
23:43
AK@_akhaliq
55
多模态智能体推理的探索性策略优化
智能体arXiv多模态推理
23:38
Xiaomi MiMo@XiaomiMiMo
同事件精选69
MiMo-V2.5现已在OpenCode上线--限时免费。🎉 【引用 @opencode】:OpenCode x MiMo V2.5 - 限时免费 1M上下文 • 推理 • 文本 • 图像

OpenCode: OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image

多模态推理模型发布
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
推荐理由:MiMo-V2.5在OpenCode免费开放,1M上下文加多模态推理,小米的模型迭代不算大新闻,但趁免费白嫖一下国产模型的机会别错过。如果你正在选型,跑个分试试。
23:19
IT之家(RSS)
60
消息称微软下周将推全新编程模型,以争取开发者群体认可

微软计划在下周Build大会发布多款自研AI模型,旨在争取开发者认可。其中将包含一款编程专用模型,以提升GitHub Copilot的竞争力,应对Cursor与Claude Code等对手的挑战。同时,微软还将推出多款不同规格的新模型,具备语音转写、逻辑推理、语音处理及图像生成等技能。

Microsoft多模态模型发布编码
23:12
Rohan Paul@rohanpaul_ai
61
Reactor推出实时世界模型基础设施

Reactor公司宣布推出实时世界模型(World Models)基础设施层,并完成了由Lightspeed领投的5900万美元种子轮与A轮融资。其核心突破是将视频生成从被动预渲染转变为根据用户行动和语音实时生成的像素流。开发者只需使用几行ReactSDK代码,即可将前沿世界模型的实时像素流集成到产品中,应用于游戏、创意工具、模拟、机器人及叙事等领域。公司核心团队成员来自Apple、Meta、Google等多家公司,目前已有众多合作伙伴与开发者在使用其平台。

reactor: Today, we're coming out of stealth with $59M in seed and Series A funding, led by Lightspeed, with Amplify Partners, Wnd...

智能体产品更新多模态行业动态
23:12
TechCrunch:AI(RSS)
65
Siri新应用预览揭示苹果挑战ChatGPT等计划

新渲染图展示了苹果计划在 iOS 27 中对 AI 进行重大改造的细节,包括重新设计的 Siri 体验以及一款独立的 Siri 应用。

多模态行业动态
21:42
Chubby♨️@kimmonismus
67
一夜之间构建的AI Twitch主播:功能、情绪与潜在影响

一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动,并在做出高风险决策时感到紧张,在获胜后表现出喜悦。文中探讨了其深远影响:当AI能实现24/7不间断直播、永不倦怠时会怎样;当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么;以及当娱乐的创作门槛降至零时,对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。

Tavus: @Twitch the first ever human-like AI streamer is here. This AI streamer plays, narrates, reacts to chat, gets nervous on...

智能体多模态现象/趋势视频
21:19
IT之家(RSS)
55
先睹为快:苹果 iOS 27 全新 Siri 界面示意图曝光
产品更新多模态搜索端侧
21:19
IT之家(RSS)
51
汽车变成"超级秘书":比亚迪发布超级智能体"迪迪虾"

比亚迪发布超级智能体“迪迪虾”,基于整车智能体系打造,实现全仓记忆、跨域互动、端云协同与快慢思考。该智能体具备自然人机交互、主动服务和复杂任务处理能力,支持多轮对话、用户偏好记忆与模糊指令理解。演示中,系统展示了自动调节空调、识别儿童入睡状态、处理包含导航与补能的复杂指令链路等功能,并接入生活服务。比亚迪同步将开放车机生态升级为面向 AI Agent 的“智能体生态”。

智能体产品更新多模态
20:21
公众号:京东JoyAI
51
听见京东 618:大模型时代下的声音供应链

京东自研JoyAI语音大模型LiveTTS具备多语种、情绪解耦、语速解耦、捏声音色及一句话音色克隆(3—10秒语音)五大能力,已接入JoyClaw技能商店。覆盖10余种语言和8种方言,支持同一音色多方言与情绪表达。应用于JoyInside智能终端、JoyAI App万能博士、数字人JoyStreamer(累计服务超7万商家)及AI播客。618期间支撑千万级并发实时交互,为智能客服、数字人直播等场景提供低延迟语音输出。

产品更新多模态语音
20:19
IT之家(RSS)
52
王传福:比亚迪天神之眼自动驾驶版(L3 / L4)将首搭超千线激光雷达

比亚迪董事长王传福宣布,天神之眼自动驾驶版(L3 / L4)将首搭超千线激光雷达、闪拍摄像头和双远红外摄像头。他强调电动化上半场看电池,智能化下半场看芯片,并指出比亚迪是国内首个造出车规级IGBT和SiC功率芯片的企业。

产品更新多模态端侧
19:58
公众号:龙猫LongCat(美团)
44
美团&顶会论文分享 | 5大专场,32篇论文解读

2026年,美团数十篇论文被ACL、SIGIR、ICML、KDD等顶会收录,精选32篇分为5大专场进行直播解读。内容涵盖大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向,既有底层能力突破也有生活服务落地探索。活动自6月11日起陆续直播,可报名参与。

多模态推理行业动态
19:06
小互@xiaohu
44
X 的自动翻译全面生效了吗 现在所有的推文 都会根据你使用的语言自动翻译,你现在可以浏览任何帖子和回复全部展示的是你正在使用的语言 巴别塔倒塌了?
产品更新多模态
18:15
IT之家(RSS)
47
科大讯飞 AI 眼镜发布:支持 122 种语言翻译,售价 4299 元
产品更新多模态语音
17:47
公众号:通义实验室(千问)
54
通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXivHugging Face图像生成多模态
16:11
Kling AI@Kling_ai
62
可灵AI将在AI电影节展示20部4K原创短片

可灵AI将在全球最大AI影视会议AI on the Lot的社区日上,展示由Prompt Club的电影制作人创作的20部原创AI短片。所有短片均为原生4K分辨率,旨在探索AI电影的边界。该展示将于5月29日在加州卡尔弗市的卡尔弗剧院举行。

多模态行业动态视频
15:41
🚨 AI News | TestingCatalog@testingcatalog
45
如果你错过了 👀:现在,拥有 Google Genie 实验访问权限的用户可以使用 Google 地图中的地点来生成虚拟世界。 "金门大桥" 🤖
Google产品更新图像生成多模态
15:37
The Decoder:AI News(RSS)
60
ElevenLabs Music v2 实现从歌剧到重金属的流派转换而不失音乐连贯性

ElevenLabs 发布了升级版 AI 音乐生成模型 Music v2。该模型支持跨流派创作,单首乐曲可实现从歌剧到重金属再到说唱的风格转换,并保持音乐连贯性。新功能支持音乐局部重新生成,允许用户在不修改乐曲其他部分的情况下,对特定片段进行重写。

多模态模型发布
15:15
IT之家(RSS)
60
亚马逊高管:AI 已越过恐怖谷,普通观众难分辨 AI 内容
多模态现象/趋势行业动态
12:36
PixVerse@PixVerse_
64
很高兴能参与阿里云在#QwenConference2026上推出的开放AI生态。期待通过Model Studio将PixVerse的AI视频生成能力带给更多创作者和开发者。🚀

Alibaba Cloud: Launched at #QwenConference2026 today: Alibaba Cloud's fully open AI ecosystem. Beyond Qwen, the world's leading models ...

产品更新多模态视频
12:28
HuggingFace Daily Papers(社区热门论文)
52
OmniVerifier-M1:具有显式结构化重校准能力的多模态元验证器

OmniVerifier-M1是一个通过符号化元验证和解耦强化学习训练的多模态验证器。研究发现,使用符号化验证输出(如边界框)作为元验证依据,优于文本解释,便于基于规则的强化学习;同时将二元判断与元验证的强化学习目标解耦,显著优于联合优化。基于此,OmniVerifier-M1实现了稳健的视觉验证与细粒度错误定位,并支持M1-TTS,一个通过该验证器实现动态区域级自校正的生成系统。

多模态安全/对齐论文/研究
11:37
歸藏(guizang.ai)@op7418
74
小红书图片生成器新Skill,图文混排痛点全解决

一款针对小红书内容的图片生成器 Skill 发布,宣称效果出色,解决了图文混排的核心痛点。该 Skill 包含 2 套主题、28 个版式、9 套配色,并适配 8 大小红书主流内容类别。其核心优势在于智能处理图片:能凸显用户提供的高质量图片、自动寻找优质图片替代,并能美化普通图片,同时主动避免使用 AI 生成图片以防止内容被标记。该工具旨在高效生成具有专业效果的小红书图文内容。

歸藏(guizang.ai): http://x.com/i/article/2059811469081141248

图像生成多模态教程/实践
11:28
HuggingFace Daily Papers(社区热门论文)
66
多模态智能体推理的智能体探索性策略优化

针对视觉语言模型在工具使用任务中存在的“思考-行动差距”(工具调用尝试率仅约30%,且其中约40%问题的所有工具调用均错误),研究提出AXPO(AI 智能体探索性策略优化)方法。该方法在标准强化学习(如GRPO)流程中,针对工具调用全错的子批次,固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上,SFT+AXPO的平均性能优于SFT+GRPO(8B模型平均Pass@1和Pass@4均提升1.8个百分点)。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。

智能体MCP/工具多模态数据/训练
10:28
Berryxia.AI@berryxia
68
腾讯Miora:一个AI创意Agent平台

腾讯推出Miora,一个整合图像、视频、UI/UX和3D生成的AI创意Agent平台,现已开启国际版公测。该平台允许用户在同一画布内完成全部创意工作,无需在Midjourney、Runway等多个工具间切换,避免了上下文丢失。Miora内置了品牌、故事板、插画、UI/UX、视频、3D等专业Agent,具备理解设计语境、自主推理、调用工具、局部编辑及记忆用户偏好的能力。同时,它提供官方的技能商店,支持用户创建、使用并分享自定义技能。

Tencent AI: Meet Miora ✨your AI creative agent studio, now in international beta. 💡 Here's the idea: Images, video, UI/UX, 3D - all...

智能体产品更新多模态
10:28
AYi@AYi_AInotes
52
一个地图截图+手绘路径, 就能生成这么流畅、物理感强的无人机POV航拍视频, 相比seedance、Kling,Google Omni最擅长的应该就是这种精确的相机控制,空间理解、世界模型的真实感
Google多模态教程/实践视频
10:28
HuggingFace Daily Papers(社区热门论文)
65
从像素到词语--迈向规模化原生One-Vision模型

提出一种名为NEO-ov的原生视觉语言基础模型,它能够端到端地学习跨帧和像素-词语的对应关系,无需任何外部图像编码器、辅助适配器或后处理融合。该架构完全消除了模块边界,使得精细、统一的时空建模能力在模型内部原生涌现。研究表明,NEO-ov在精细视觉感知任务上表现优异,大幅缩小了与模块化模型的性能差距,验证了原生One-Vision架构在规模化下的可行性。代码与模型已开源。

多模态开源/仓库视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
基于LLM的多模态音乐推荐系统

研究提出一个基于LLM的多模态音乐推荐框架,在LastFM-1K数据集上融合三类信号:预训练模型提取的音频与歌词嵌入、使用MGPHot标注框架生成的LLM语义元数据、以及听歌完成率。该框架基于E4SRec扩展,集成SASRec、BERT4Rec、GRU4Rec等编码器,并引入LLaMa-2-13B、Qwen2.5-7B-Instruct和LLaMa-3-70B进行零样本与微调实验。相比仅使用歌曲ID的基线,内容特征融合使Recall最高提升95%、NDCG提升79%。研究还发现,简单拼接多模态特征并不总能带来叠加提升,并开放了一个大规模音乐推荐多模态基准。

arXiv多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
Stable-Layers:基于VLM评分强化学习的图像层分解模型微调框架

Stable-Layers 是一个强化学习框架,无需配对监督即可微调预训练层分解模型,仅使用视觉语言模型(VLM)的反馈。基于 Qwen-Image-Layered 初始模型,采用 Flow-GRPO 和 LoRA 适配,每张图像采样多个候选分解,由 VLM 评分并通过组相对优势优化策略。为解决 VLM 单独评分时判断集中导致 GRPO 难以学习的问题,设计两阶段评估流程:先按五项编辑标准逐样本评分,再进行网格校准让 VLM 并列重评所有候选。相比基模型,Stable-Layers 在 Crello 数据集上实现更强的层分离、更少的空白或伪影层,并降低每层重建误差。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
PARCEL:基于池锚定重采样与条件弹性查询的高效视觉-语言理解架构

大型视觉语言模型在推理时面临将视觉输入映射为密集token序列带来的二次计算瓶颈。现有视觉token压缩方法在激进压缩下会损失空间保真度。本文提出PARCEL,一种新的视觉token化架构。它通过建立空间池token作为低频布局锚点,并以此为条件对弹性查询token进行重采样,从而动态分配特征提取任务。在27项基准测试中,PARCEL在不同视觉token预算下均优于现有基线方法,改善了性能与效率的帕累托前沿。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Brain-IT-VQA: 从大脑信号到答案

针对从fMRI信号解码视觉内容并回答问题的挑战,研究提出了Brain-IT-VQA框架。该框架基于Brain-IT,从大脑活动解码语言token并与大语言模型整合以回答视觉问题,性能显著超越现有方法。同时,引入了新基准NSD-VQA数据集,每张图像平均提供20个问题-答案对,涵盖20个受控问题类别,以实现更可靠和可解释的评估。Brain-IT-VQA与NSD-VQA结合,既提供了强大的预测框架,也成为研究大脑视觉表征的工具。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
Crafter:一个用于从多样化输入生成可编辑科学图表的多智能体框架

科学图表生成是论文准备中最耗时的环节之一,现有自动化系统仅支持单一图表类型和纯文本输入,且输出不可编辑。为此,研究团队提出了Crafter,一个多智能体框架,它能适配多种图表类型和输入条件,生成出版质量的图表。其配套工具CraftEditor可将生成的栅格图转换为可编辑的SVG文件。同时发布的CraftBench评测基准涵盖了三种图表类型和四种输入条件。实验显示,Crafter在PaperBanana-Bench和CraftBench上均优于独立生成器和现有智能体基线,其组件贡献也得到了验证。代码与基准已开源。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
每类细胞仅需一次点击:免训练的群体交互用于细胞实例分割

传统细胞实例分割模型在分布外细胞类型上性能下降,交互式基础模型虽能解决但逐实例提示的成本过高。本文提出Group Prompting新范式,将交互成本从逐实例优化为逐类型。其核心是Chain-of-Prompts框架,利用冻结的Segment Anything Model图像编码器在特征空间中自然形成的细胞聚类特性,仅需为每种细胞类型提供一个用户点击,即可通过识别多尺度编码器特征中的可靠同类型位置,并迭代选择空间距离最远的可靠点作为新提示,从而分割该类型所有实例。该方法无需任何训练,在多个基准上,单个点击可保持逐实例性能的90%甚至99%以上。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
看到不等于知道:视觉语言模型 (VLMs) 是否知道何时不应回答空间问题(以及为什么)?

研究构建了 SpatialUncertain 评估框架,测试多种前沿视觉语言模型 (VLMs)。在遮挡和视角歧义两种空间观察挑战下,模型平均准确率分别约为 30% 和低于 10%,并常无法识别应转向的额外视角。研究主张评估重点需从回答正确性转向模型对何时放弃作答及如何寻求可靠证据的认知。

多模态推理论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
AnyMo:基于掩码建模的任意模态条件运动生成

提出OmniHuMo大规模高质量数据集,包含超过5000小时运动数据与320万序列,提供文本、语音、音乐和轨迹等多模态精准标注。基于此构建AnyMo统一多模态框架,结合Residual FSQ运动分词器与可扩展的掩码建模Transformer,支持任意模态组合下的高保真实时运动生成,并能灵活控制运动的空间与风格属性。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
VLM3:视觉语言模型是原生的3D学习者

该研究主张视觉语言模型(VLM)是原生的3D学习者。通过大规模研究发现,实现有效3D学习仅需三个核心要素:统一焦距、基于文本的像素参考以及数据混合与缩放。传统的模型架构改变、超大模型、复杂数据增强和损失函数(包括回归公式)并非必要条件。基于此,研究提出了VLM3方法,以最简设计使标准VLM掌握多样3D任务。VLM3将VLM的深度估计精度从0.84大幅提升至0.9,并实现了像素对应、相机位姿估计和物体级3D理解等任务,其精度匹配专家视觉模型,同时保持标准架构和文本训练方式。

arXiv多模态论文/研究
07:35
Ethan Mollick@emollick
60
Google拥有唯一真正的全模态模型,但各元素尚未连接。它似乎能接收和输出音频、图像、视频、歌曲、文本、代码等。但目前每种输出类型都是分离的。当你能直接访问模型,混合模式,很多事情就变得可能了。
Google多模态大佬观点
05:52
Google Gemini@GeminiApp
同事件精选77
使用 Gemini Omni 轻松将您的视频转换为新的视觉风格。 只需上传视频或照片,并要求 Gemini 为您的最终输出应用某种外观或风格。
Google产品更新多模态视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini 终于把图像风格迁移做到视频上了,并且直接集成到 Omni 里,不需要任何剪辑软件,对短视频创作者是个小但实用的更新。
04:59
Google AI@GoogleAI
45
与 @NotebookLM 一起回顾上周的 I/O 发布内容。 你可以收听音频概览、观看视频回顾,甚至查看我们详细的幻灯片,总结所有重大新闻和发布。 在此查看:http://goo.gle/4xcgBoj
Google多模态教程/实践
03:07
Rohan Paul@rohanpaul_ai
57
利用OpenAI Codex解决硬件问题实例

一位用户展示了一款从AliExpress购买的廉价MP3播放器,它存在蓝牙音频卡顿和菜单操作不便的问题。用户将设备芯片的照片提供给OpenAI的Codex进行分析。Codex随后引导用户通过Mac设备提取了播放器的完整固件文件。Codex分析了该固件的机器代码,定位到导致问题的具体代码段,并生成了一个修复了蓝牙问题并优化了菜单导航的定制固件。用户将此固件刷写回设备后,问题得到解决。此案例具体体现了AI工具在处理底层硬件调试与定制化开发任务中的潜力。

ぶんかい@AIで遊ぶ人: ぼくの着想の限界=Codexの限界。 それくらいまーじでCodexでなんでもできる。 これアリエクで買ったやっすいMP3プレイヤー。 でもBluetoothの音飛びと操作性が悪くて放置してたんですよ。 だけど昨日急にシャワーしている時にエウ...

OpenAI多模态教程/实践
02:35
The Decoder:AI News(RSS)
55
微软 MAI-Image-2.5 在基准测试中追平谷歌 Nano Banana 2

微软的 MAI-Image-2.5 在 Arena 文本生成图像排行榜上排名第三,与谷歌的 Nano Banana 2 持平,但仍落后于 OpenAI 的 Image-2。该模型相比其前代产品有显著提升,特别是在渲染图像内文字和商业视觉效果方面。

Microsoft多模态模型发布
‹ 上一页
1…2223242526…50
下一页 ›