AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月3日周三
03:06向阳乔木70论文图表生成框架Harness的架构与实践
02:35Suno23Suno 征集用户对收听体验的建议
02:30Microsoft Research50微软研究院展示最新AI技术成果
02:23🚨 AI News | TestingCatalog70微软发布 MAI Code 1 Flash 和 MAI Thinking 1 等新模型
01:40HuggingFace Daily Papers(社区热门论文)60TVIR:面向文本-视觉交错报告生成的深度研究智能体构建
00:45Rohan Paul81OpenAI 将 Codex 从编码助手升级为空间构建器
00:30Google Gemini41Gemini Omni 多模态视频创作直播演示
00:15AK60VLMs是否知道何时不回答空间问题
6月2日周二
20:08IT之家(RSS)582026 世界杯引入多项 AI 技术:足球内置 500Hz 芯片,每秒采集 500 次数据辅助判罚
18:35小互61世界模型进医疗:AI模拟未来辅助临床决策
17:44Rohan Paul65多数视频模型看起来比它们实际理解的要好
17:13MarkTechPost(RSS)67阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus
16:53MiniMax (official)72MiniMax发布M3模型:首个结合三大前沿能力的开源权重模型
14:40HuggingFace Daily Papers(社区热门论文)68LongLive-RAG:用于长视频生成的通用检索增强框架
12:40HuggingFace Daily Papers(社区热门论文)61在Blender中思考:基于视觉语言模型的可执行分阶段逆向图形
12:35SenseTime71商汤发布 SenseNova U1 信息图表增强模型
11:40HuggingFace Daily Papers(社区热门论文)61RoboSemanticBench: 诊断VLA模型动作预测中的语义对齐
11:40HuggingFace Daily Papers(社区热门论文)69VLM作为视频推理教师:通过自适应测试时优化实现
10:47Berryxia.AI65Memo软件与沉浸式翻译工具使用体验分享
10:40HuggingFace Daily Papers(社区热门论文)64X-Stream: 探索MLLM作为多路复用器的多流理解能力
10:36Alibaba Cloud82阿里云发布通义千问3.7-Plus多模态智能体模型
08:47Berryxia.AI51ComfyUI 5月工作流更新:集成11个新模型
08:19MiniMax (official)74MiniMax M3 上线 Vercel AI Gateway
08:00HuggingFace Daily Papers(社区热门论文)50GridVQA-X:评估多模态可解释性方法的框架
08:00HuggingFace Daily Papers(社区热门论文)49文生图模型从文本编码器所需比你想象的少
08:00HuggingFace Daily Papers(社区热门论文)413D视觉菜谱:数据、学习范式与应用
08:00HuggingFace Daily Papers(社区热门论文)56MAOAM:统一对象与材质选择的视觉语言模型框架
08:00HuggingFace Daily Papers(社区热门论文)64免训练多概念LoRA组合:提示词感知加权策略
08:00HuggingFace Daily Papers(社区热门论文)64OVO-S-Bench:面向多模态大语言模型流式空间智能的分层基准
08:00HuggingFace Daily Papers(社区热门论文)63多模态大语言模型广基线匹配空间推理:ReasonMatch-Bench与DCRL
08:00HuggingFace Daily Papers(社区热门论文)56SynCred-Bench:AI生成视觉错误信息的合成可信度基准测试
07:54ginobefun71MiniMax发布开源模型M3:集成编码、长上下文与多模态
07:35Alibaba Cloud83通义千问 Qwen3.7-Plus 多模态代理模型发布
07:19MiniMax (official)81同事件精选MiniMax M3 模型上线 Cloudflare AI Gateway同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
07:07IT之家(RSS)71阿里发布 Qwen3.7-Plus 模型,升级多模态交互混合 AI 智能体
06:11Google AI Developers54Google I/O后社区利用Gemini 3.5 Flash构建应用
04:41MarkTechPost(RSS)59MiniMax 发布 MiniMax M3:支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程
03:40fofr33用 Omni 重访旧作,效果惊人
03:11Chubby♨️79Qwen3.7 Plus多模态智能体模型发布
02:48MiniMax (official)55MiniMax M3 将草图变为可玩游戏仅花0.028美元
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
03:06
向阳乔木@vista8
70
论文图表生成框架Harness的架构与实践

Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作,包含四个协作角色:设计者生成视觉方案,执行者渲染图像或代码,验证者输出带定位的诊断报告,修订者据此修改规格文档 S。作者参考该框架进行了简化实践,写成一个技能包,其中使用了 GPT-image-2 进行生图,并整合了 URL 抓取功能,可直接生成配图。

Hugging Face图像生成多模态教程/实践
02:35
Suno@suno
23
我们正在改进收听体验。比如播放列表、专辑、电台等。但我们想听听你的想法。接下来应该打造怎样的收听体验? 请在此分享你的想法: https://forms.gle/SVQ6gunSLyq85e7J9
产品更新多模态
02:30
Microsoft Research@MSFTResearch
50
欢迎来到 Microsoft Build 2026。 走进微软研究院实验室,开发者们正在亲身体验来自MSR的最新成果。Aurora的预测模型、Trellis 3D生成、Magentic UI、Mindful Memory等。
Microsoft多模态行业动态
02:23
🚨 AI News | TestingCatalog@testingcatalog
70
微软发布 MAI Code 1 Flash 和 MAI Thinking 1 等新模型

微软在官网更新了 MAI 模型系列,重点发布了 MAI Code 1 Flash 和 MAI Thinking 1。MAI Thinking 1 拥有 35B 活跃参数和约 1T 总参数,采用 MoE 架构,其推理成本低于更大型模型,但在 SWE-Bench Pro 上的表现可与 Claude Opus 4.6 竞争。MAI Code 1 Flash 则专注于通过规划和推理来完成端到端的复杂编码任务。此外,MAI Image 2.5、MAI Voice 2 及 MAI Transcribe 1.5 也同步上线。

Microsoft多模态推理模型发布
01:40
HuggingFace Daily Papers(社区热门论文)
60
TVIR:面向文本-视觉交错报告生成的深度研究智能体构建

针对现有深度研究系统以文本为中心、视觉元素可靠性与对齐性评估不足的问题,本文提出了TVIR框架,包括TVIR-Bench基准测试和TVIR-Agent多智能体框架。TVIR-Bench包含100个要求视觉元素服务于特定分析目标的多模态任务。TVIR-Agent采用分层多智能体设计,负责构建大纲、检索图像、生成可溯源图表并进行上下文感知写作。研究进一步开发了结合文本与视觉评估的双路径评估框架。对九个系统的实验表明,TVIR-Agent表现优异,凸显了多模态设计对于证据驱动报告生成的重要性。

图像生成多模态论文/研究
00:45
Rohan Paul@rohanpaul_ai
81
OpenAI 将 Codex 从编码助手升级为空间构建器

OpenAI 为 Codex 带来重大升级,将其从编码助手转变为可构建交互式工作空间的“空间构建器”。核心新功能“Sites”能生成托管的交互式工作区,而不仅是文档或代码文件。同时新增插件以适配不同职业,并推出“标注”功能允许用户对结果的特定部分进行修复。Codex 目前拥有500万周活跃用户,其中20%为非开发者,该群体增长速度是开发者的3倍以上。“Sites”功能正面向 Business 和 Enterprise 计划推出。

OpenAI: Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...

智能体OpenAI产品更新多模态
关联讨论 5 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI (@OpenAI)X:Sam Altman (@sama)IT之家(RSS)X:OpenAI Developers (@OpenAIDevs)
00:30
Google Gemini@GeminiApp
41
通过一位参与构建的团队成员的现场演示,了解 Gemini Omni 的实际效果。 加入我们的 Discord,产品经理 Chloe 将分享如何使用 Gemini Omni 的多模态输入、现实世界知识和便捷的对话式编辑,以前所未有的方式创建视频。 👉加入 Discord 观看直播:http://discord.gg/gemini 📅 太平洋时间 6 月 3 日星期三上午 11:30
Google产品更新多模态
00:15
AK@_akhaliq
60
视觉语言模型知道何时不回答空间问题吗(以及为什么)?
Hugging Face多模态论文/研究
6月2日
20:08
IT之家(RSS)
58
2026 世界杯引入多项 AI 技术:足球内置 500Hz 芯片,每秒采集 500 次数据辅助判罚

2026年美加墨世界杯将部署多项AI技术。阿迪达斯官方用球“Trionda”内置500Hz传感器芯片,每秒采集500次数据,与高速摄像机协同构建三维模型。国际足联将为1248名球员建立AI数字分身,通过3D扫描生成虚拟形象以辅助争议判罚。赛事还将首次推出裁判第一视角直播,并推出Football AI Pro知识助手,可解析逾2000项关键指标。

多模态行业动态部署/工程
18:35
小互@xiaohu
61
世界模型进医疗:AI模拟未来辅助临床决策

世界模型(World Model)在医疗领域实现突破,从传统的静态病灶识别转向动态预测模拟。医学世界模型(MeWM)能基于患者当前CT影像,模拟数月疾病进展,并合成治疗后的肿瘤轨迹视觉表征。在肝癌TACE等临床应用中,其通过反事实推理量化不同方案对生存率的影响,将临床决策成功率(F1-score)提升13%。这一“先模拟再行动”的范式正从医疗拓展至农业气候、城市规划等更多高风险领域。

FutureLivingLab: While showbiz bickers over AI video continuity glitches and educators remain stuck debating AI-generated PPTs, World Mod...

多模态现象/趋势
17:44
Rohan Paul@rohanpaul_ai
65
多数视频模型看起来比它们实际理解的要好

美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。

多模态视频评测/基准
17:13
MarkTechPost(RSS)
67
阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus

通义千问(Qwen)团队在百炼平台发布了多模态智能体模型 Qwen3.7-Plus。该模型能理解图像和视频,并新增了自我编程、工具调用、深度推理和自主迭代能力。

智能体多模态模型发布
16:53
MiniMax (official)@MiniMax_AI
72
MiniMax发布M3模型,宣称是首个将编程与智能体能力、1M上下文长度及原生多模态三大前沿能力结合的开源权重模型。其编程与智能体能力在多个评测中表现突出:SWE-Bench Pro得分59.0%,Terminal Bench 2.1得分66.0%,SWE-fficiency 34.8%,KernelBench Hard 28.8%,MCP Atlas 74.2%。模型通过MiniMax Sparse Attention技术支持1M上下文。官方提供了API接入与新的MiniMax Code服务,模型权重和技术报告预计约10天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

多模态推理模型发布编码
14:40
HuggingFace Daily Papers(社区热门论文)
68
LongLive-RAG:用于长视频生成的通用检索增强框架

LongLive-RAG旨在解决自回归(AR)视频扩散模型在长视频生成中面临的错误累积与身份漂移问题。该方法将长视频生成建模为检索增强生成(RAG)问题,不再仅依赖滑动窗口,而是把之前生成的潜在变量视为可检索的动态历史记录。在每个新生成块中,它通过查询嵌入检索相关历史潜在变量,使生成器能够利用非局部上下文。为提升检索效果,框架引入了Window Temporal Delta Loss。实验表明,该框架能提升长视频生成质量,在多个AR骨干和生成长度上于VBench-Long基准取得了最佳平均排名。代码已开源。

多模态视频论文/研究
12:40
HuggingFace Daily Papers(社区热门论文)
61
在Blender中思考:基于视觉语言模型的可执行分阶段逆向图形

本研究探讨预训练视觉语言模型能否通过生成可执行的Blender程序,直接从单张图像重建为可编辑的3D场景,且不依赖专门的2D/3D基础模型、可微渲染或多视图监督。文章提出了“可执行分阶段逆向图形”(SEIG)智能体框架,该框架在可执行的Blender代码空间中,通过分阶段优化几何、材质、构图与光照等因子来重建场景。实验评估表明,分阶段重建策略显著提升了场景重建的保真度(包括像素级、感知和语义保真度),验证了任务分解对于通用视觉语言模型执行可执行逆向图形的重要性。重建后的可编辑Blender场景可支持多种下游应用。

智能体图像生成多模态论文/研究
12:35
SenseTime@SenseTime_AI
71
将复杂信息转化为准确的图表和示意图。这就是 SenseNova-U1-8B-MoT-Infographic。了解更多:https://x.com/SenseTime_AI/status/2061465029959209106?s=20

Future Stacked: AI-generated infographics with garbled text have been a running joke. SenseNova U1's new infographic-enhanced model fina...

Hugging Face图像生成多模态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
11:40
HuggingFace Daily Papers(社区热门论文)
61
RoboSemanticBench: 诊断VLA模型动作预测中的语义对齐

本文提出了RoboSemanticBench,一个用于诊断视觉-语言-动作模型在动作预测中是否具备语义对齐能力的具身基准测试。在该测试中,机器人需要解决多选题,并根据语义理解抓取对应正确答案的方块。测试覆盖了算术、数学理解和常识理解等多种任务。评估发现,在控制抓取成功率后,许多模型选择语义正确方块的能力接近或低于随机水平,揭示了模型骨干网络的语义能力与最终动作预测之间存在持续差距。

具身智能多模态论文/研究
11:40
HuggingFace Daily Papers(社区热门论文)
69
VLM作为视频推理教师:通过自适应测试时优化实现

本研究提出一种新范式,将视觉语言模型的角色从问题“求解者”转变为指导视频生成模型的“教师”。现有VLM作为求解器效果不佳,但其感知能力强,可评估任务规则满足度。新方法利用VLM提取任务规则,构建可微分奖励,并通过测试时在线优化轻量级LoRA模块,引导视频生成模型推理。在VBVR-Bench和RULER-Bench两个视频推理基准上,该方法平均性能提升16.7分,显著优于其他基线方法。

多模态推理视频论文/研究
10:47
Berryxia.AI@berryxia
65
Memo软件与沉浸式翻译工具使用体验分享

推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件(免费开源):用于处理本地视频。流程为下载视频后,使用Whisper本地模型进行转录以节省成本,再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出,但在X平台上传速度慢。2. 沉浸式翻译:主要用于网页、YouTube视频及图书翻译,优点是格式保持较好。两者均支持接入用户自定义的API模型。

Berryxia.AI: 特么终于搞完了,太费劲了! 整整花了1晚上才把它翻译中文、剪辑、上传完毕。 富人也有富人的烦恼,只是我们的烦恼不一样罢了! 这两天刷屏的Ivanka Trump (特朗普的长女千金)的长播客采访。 整个播客中有些观点不能说多么锐利,但是也从...

DeepSeek多模态开源/仓库教程/实践
10:40
HuggingFace Daily Papers(社区热门论文)
64
X-Stream: 探索MLLM作为多路复用器的多流理解能力

专注于多流视频流理解的基准测试X-Stream被提出,包含4220个QA对、932个视频和11个子任务,覆盖多窗口、多视图和多设备场景。研究首次将多模态大语言模型(MLLM)的概念化为信号复用器,并基于信号复用理论进行评估。在线推理实验显示,当前最先进的MLLM在处理并发视频流时表现挣扎,得分仅约50%且主动能力较差。该基准揭示了现有复用方案的权衡,为多流智能体提供了评估协议和实证指导。

arXiv多模态推理论文/研究
10:36
Alibaba Cloud@alibaba_cloud
82
阿里云发布通义千问3.7-Plus多模态智能体模型

阿里云推出Qwen3.7-Plus,这是一个统一视觉与语言的多模态智能体模型。其定位为多功能编码智能体与生产力助手,支持全模态输入,能够跨GUI与CLI执行任务。该模型具备视觉智能体能力,涵盖感知、推理、定位及搜索增强问答,并能跨多种智能体框架泛化。目前已在阿里云百炼平台通过API上线。

智能体多模态模型发布
关联讨论 4 条Qwen:Blog Retrieval(API)公众号:通义实验室(千问)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)
08:47
Berryxia.AI@berryxia
51
ComfyUI 5月工作流更新:集成11个新模型

ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型,将前沿AI能力转化为可本地运行的节点。亮点包括:Krea 2以Partner Node形式上线,专注于风格优先的图像生成;来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互;Tripo 3.1与TripoSplat结合,实现单图端到端生成3D Gaussian资产。此外,Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性,通过节点拖拽即可构建复杂工作流。

ComfyUI: In May, we integrated 11 new models spanning image, 3D, audio, video, and multimodal. The highlights: → Krea 2 - style-f...

产品更新图像生成多模态开源生态
08:19
MiniMax (official)@MiniMax_AI
74
🚀 M3 已在 Vercel 的 AI Gateway 上线! 我们首个支持 1M token 长上下文和多模态输入的模型。 本周享 50% 折扣 🎉 期待看到大家用 M3 和 @vercel_dev 构建什么 ✨

Vercel Developers: MiniMax M3 is available on AI Gateway. MiniMax's first long-context model, with support for multimodal inputs. 50% off f...

多模态模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
50
GridVQA-X:评估多模态可解释性方法的框架

GridVQA-X是首个专门评估跨模态可解释性的诊断框架。它通过封闭世界合成逻辑生成具有数学保证的解释,并训练了相同架构的对照模型:M_pure(学习稳健的空间关系推理)和M_{spur}(被迫依赖跨模态捷径)。实验发现,现有广泛使用的可解释性方法无法区分这两种模型,无法捕捉真正的跨模态协同,反而可能错误表示多模态模型的实际决策过程,凸显了当前多模态可解释性方法在忠实捕捉跨模态推理方面的关键缺陷。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
49
文生图模型从文本编码器所需比你想象的少

新研究挑战了文生图模型依赖文本编码器丰富上下文信息的普遍认知。研究者发现,基于扩散Transformer的模型主要只利用文本表示中两个简单方面:跨多个token的词汇合并,以及由位置编码印刻的词序。通过构造仅编码单个词义与顺序、但缺少完整提示上下文信息的“词义与顺序标记袋”文本嵌入,生成的图像在视觉质量与文本保真度上与使用完整文本嵌入相当。这表明,文生图模型往往不会使用文本嵌入中除词义和词序之外的丰富信息,而是由图像模型自身完成复杂语言结构的解码。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
3D视觉菜谱:数据、学习范式与应用

该论文提出了一种以数据为中心的3D视觉分类法,将几何表示(点云、网格、体素和3D高斯)、获取管道、数据集设计、基准构建和监督范式统一到单一概念图中。研究分析了2D监督3D学习、隐式神经表示和4D世界建模的最新进展,并厘清了重建、生成和视频建模等下游任务中表示、学习范式与效率-保真度平衡、多模态几何接地之间的关联。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
MAOAM:统一对象与材质选择的视觉语言模型框架

MAOAM是一个统一图像选择框架,通过文本或点击交互精确选择对象和材质。它利用视觉语言模型(VLM)与分割头生成像素级掩码。针对缺少带文本标注的材质选择数据集,作者提出可扩展的数据生成流水线:收集真实与合成图像及材质掩码,用VLM生成富含视觉语义的描述。模型以多任务目标同时训练点击与文本选择,并引入辅助VQA任务加深材质理解。实验表明,MAOAM在多种对象、材质和交互场景下实现准确连贯的选择,且推理时结合文本与点击可产生涌现式提升。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
免训练多概念LoRA组合:提示词感知加权策略

LoRA可个性化文生图模型,但多概念组合时直接叠加会干扰概念,降低质量与保真度。本文提出免训练方法,通过W-Switch与W-Composite两种策略,根据目标提示词中触发token的语义重要性对每个LoRA模块输出加权组合,实现多概念自定义。同时提出基于真实参考图像与自动分割概念区域的图像相似度评估框架。在ComposLoRA测试集上,该方法在视觉质量、身份保持和组合性上一致超越现有方法。LLM评估与用户研究验证有效性。代码已开源。

图像生成多模态开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
OVO-S-Bench:面向多模态大语言模型流式空间智能的分层基准

OVO-S-Bench是一个完全人工标注的流式空间智能基准,包含1,680个问题,覆盖348个源视频。标注由12名标注员经过约804人小时的多轮质量审核完成。每个问题带有查询时间戳与证据区间,模型仅能看到查询前的视频前缀。问题分为四个抽象层级:瞬时自我中心感知、时空上下文追踪、空间模拟与推理、以及全中心映射。在38个开源与闭源MLLM上,Gemini-3.1-Pro得分59.2,落后人类专家(86.6)27个百分点,全中心映射是主要瓶颈。流式与空间微调MLLM的表现不及它们的基础模型,且链式推理会在缺乏流式依据时放大空间错误。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
63
多模态大语言模型广基线匹配空间推理:ReasonMatch-Bench与DCRL

针对多模态大语言模型在物理环境中的空间推理缺乏系统评估与训练的问题,提出ReasonMatch-Bench基准,按视点位移和匹配粒度分层覆盖室内、室外和物体中心场景。在90样本困难子集上,人类F1达84.0,最佳基线仅37.2。构建自动数据管线从RGB-D视频和SfM重建中提取广基线视图对,产出可验证监督信号。进一步提出动态对应强化学习(DCRL),结合图像级视点递进和点级对应课程,通过可验证奖励提升广基线匹配训练。实验表明DCRL显著提升ReasonMatch-Bench得分并泛化至相关基准,维持通用视觉性能。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
SynCred-Bench:AI生成视觉错误信息的合成可信度基准测试

SynCred-Bench是一个包含600张AI生成错误信息图像的基准测试,覆盖6种可信形式类别和7种细粒度传播风格,并配有FP450真实图像负集。评估显示,在5%假阳性率约束下,现有系统表现不可靠:15个多模态大语言模型仅达10.5%真阳性率,开源AIGC检测器不足5%,商业API达57.6%,人类标注者也仅识别出63%样本。这揭示了合成可信度作为严峻且尚未充分研究的视觉错误信息挑战。

arXiv多模态安全/对齐论文/研究
07:54
ginobefun@hongming731
71
MiniMax发布开源模型M3:集成编码、长上下文与多模态

MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时,xAI前负责人指出,视频模型的上限将由LLM决定,下一个类似Sora的产品应是视频Agent,而非单纯的视频生成模型。

多模态开源/仓库模型发布编码
07:35
Alibaba Cloud@alibaba_cloud
83
通义千问 Qwen3.7-Plus 多模态代理模型发布

阿里云发布了 Qwen3.7-Plus,这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础,支持图形界面与命令行操作,能够处理视觉和文本任务,充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答,并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。

智能体多模态模型发布编码
关联讨论 4 条Qwen:Blog Retrieval(API)公众号:通义实验室(千问)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)
07:19
MiniMax (official)@MiniMax_AI
同事件精选81
M3 on Cloudflare AI Gateway, day one ⚡ 前沿编码能力,1M 上下文,原生多模态,现在一次 fetch 即可调用。 是时候构建些东西了。 🦞

Cloudflare Developers: M3 from @MiniMax_AI is now available on Cloudflare AI Gateway: - First open model to push SOTA coding frontier - 1M cont...

多模态开源/仓库模型发布编码
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax的M3把开源编码模型拉到新高度,1M上下文加原生多模态是惊喜,上线首周5折,值得跑一下看是不是真能干翻闭源。
07:07
IT之家(RSS)
71
阿里发布 Qwen3.7-Plus 模型,升级多模态交互混合 AI 智能体

阿里通义千问(Qwen)于6月2日发布新模型 Qwen3.7-Plus,定位为多模态交互混合智能体基座。它是 Qwen3.7 的升级版,在保留文本、编码和工具使用能力的基础上,显著强化了视觉理解与视觉推理能力,支持图像、视频、屏幕、网页和文本输入,面向复杂软件与办公流程。该模型在 Vision Arena 评测中帮助阿里进入全球前 5、中国第 1,并在 BabyVision、MathVision 等多模态测试中提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

智能体多模态模型发布
关联讨论 4 条Qwen:Blog Retrieval(API)公众号:通义实验室(千问)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)
06:11
Google AI Developers@googleaidevs
54
在Google I/O大会后,开发者社区与Google DeepMind在旧金山合作,利用最新的Gemini和Gemma能力(特别是Gemini 3.5 Flash)构建实际产品。活动展示了利用Gemini 3.5 Flash开发多模态智能体、语音接口和长期推理系统等应用的可能性。

Cerebral Valley: Google I/O showed where AI is headed. Our community spent the weekend building it. Builders gathered in San Francisco al...

智能体多模态行业动态
04:41
MarkTechPost(RSS)
59
MiniMax 发布 MiniMax M3:支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程

MiniMax 发布了新模型 MiniMax M3,引入了 MiniMax Sparse Attention (MSA) 架构。该模型支持高达 1M token 的上下文窗口,并具备原生的图像、视频和计算机使用能力,面向智能体编程场景。

智能体多模态模型发布
03:40
fofr@fofrAI
33
用 Omni 重访一个旧作。

fofr: NO WAY DID IT JUST DO THAT https://replicate.com/wavespeedai/wan-2.1-t2v-480p

多模态教程/实践
03:11
Chubby♨️@kimmonismus
79
阿里云通义千问(Qwen3.7-Plus)正式发布。这是一个统一视觉与语言的多模态智能体基础模型,其核心功能包括:支持GUI与CLI操作的交互式混合智能体、全能编码助手与生产力工具、具备感知、推理、定位及搜索增强能力的视觉智能体,并可跨主流智能体框架泛化。该模型现已通过阿里云模型工作室提供API。发布推文中提到的与GPT-5.4及Opus 4.6的比较,在用户侧引发了对其对标产品的讨论。

Qwen: 👏👏 Introducing Qwen3.7-Plus - a multimodal agent model that unifies vision and language into one versatile agent found...

智能体多模态模型发布
关联讨论 4 条Qwen:Blog Retrieval(API)公众号:通义实验室(千问)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)
02:48
MiniMax (official)@MiniMax_AI
55
草图 → 可玩游戏,仅花 $0.028 😳 这正是 M3 的设计初衷 @atomic_chat_hq

atomic.chat: MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...

多模态模型发布
‹ 上一页
1…1718192021…50
下一页 ›