AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月24日周三
08:18MarkTechPost(RSS)72同事件精选Mistral AI 发布 OCR 4 模型同一事件,精选展示《Mistral OCR 4》
08:00HuggingFace Daily Papers(社区热门论文)40星系分词器指南:科学基础模型基准
07:27IT之家(RSS)49扎克伯格谈 Meta AI 智能眼镜:必须在时尚与功能之间取得平衡
07:17Berryxia.AI56Mistral OCR 4发布:170种语言,结构化输出带边界框与置信度
06:39The Verge:AI(RSS)45Google Home 6 月 23 日起扩展面部识别:非正面也能靠体型衣服识别,新增特定声音检测
05:06HuggingFace Daily Papers(社区热门论文)49Lift4D:调和单视图三维估计以实现野外四维重建
03:37MarkTechPost(RSS)68Datalab 发布 lift:9B 开放权重视觉模型,依据 Schema 从 PDF 提取结构化 JSON
03:16Rohan Paul66MaineCoon发布22B实时音视频生成模型
02:49AK56百度发布 Unlimited-OCR 服务
00:38🚨 AI News | TestingCatalog65Mistral AI 发布 OCR 4,盲测胜率72%
6月23日周二
23:56Hacker News 热门(buzzing.cc 中文翻译)73Mistral OCR 4 发布
23:13歸藏(guizang.ai)49Seed 2.1 Pro 测评:胜任 Agent 工作流
22:24Mistral AI:News(网页)68精选Mistral OCR 4
22:13IT之家(RSS)60Meta 三款自有品牌智能眼镜首发亮相,299-399 美元
22:11Mistral AI54Mistral OCR 4 发布,支持170种语言结构识别
21:56Hacker News 热门(buzzing.cc 中文翻译)70精选无限制OCR:单次长时域解析
21:20The Verge:AI(RSS)51Meta推出无Ray-Ban品牌的智能眼镜,起售价$299
20:49HuggingFace Daily Papers(社区热门论文)47Arbor:显式几何约束实现可控3D资产生成
20:24The Decoder:AI News(RSS)67字节跳动Seedance 2.5将AI视频生成延长至30秒
18:11Baidu Inc.71百度开源Unlimited OCR:3B总参数、500M激活,单次前向传播可转录40+页
18:03fofr23Gemini视觉能力通过新基准测试
17:03fofr39新视觉基准:在照片中找五只蜱虫
16:50公众号:卡尔的AI沃茨58实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了
16:37🚨 AI News | TestingCatalog48OpenAI 正测试双向语音模型 Bidi 1,支持打断与连续对话
16:07IT之家(RSS)40比亚迪超级智能体"迪迪虾"确认登陆腾势N8L闪充版,新车今晚上市
15:55X.PIN57字节跳动发布多款新模型
15:26Chubby♨️25Seedance 2.5 发布,表现惊艳
15:13HuggingFace Daily Papers(社区热门论文)45MeshFlow:等变流匹配网格生成
14:50公众号:火山引擎83火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型
14:37🚨 AI News | TestingCatalog65字节跳动发布Seedance 2.5及2.0升级版
14:33数字生命卡兹克782026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力
14:10公众号:京东JoyAI73精选京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"
13:50公众号:火山引擎71精选豆包音频生成模型1.0发布,重新定义AI音频创作
13:13HuggingFace Daily Papers(社区热门论文)60Unlimited OCR:长序列OCR显存与速度问题的解决方案
13:13HuggingFace Daily Papers(社区热门论文)55UniverSat: 分辨率和模态无关的Transformer用于地球观测
13:10Orange AI43豆包 Seed Audio 1.0:声音模型的 Seedance 时刻
13:07IT之家(RSS)64字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
12:20公众号:数字生命卡兹克75火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能
12:15小互59字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月24日
08:18
MarkTechPost(RSS)
同事件精选72
Mistral AI 发布 OCR 4 模型

Mistral AI 今日发布 OCR 4,支持 170 种语言,可单容器自托管部署。新版本除提取文本外,还返回边界框、块类型(标题/表格/方程等)和逐字置信度分数。独立标注者在 600+ 文档、12+ 语言的测试中平均胜率 72%。价格 $4/千页,批量 $2/千页,Document AI 模式 $5/千页。企业客户可自托管。Rogo 报告等效精度下成本低约 8 倍、延迟低 17 倍;Anaqua 测得每页快约 4 倍。OCR 4 同时作为 Mistral Search Toolkit(公开预览)的接入组件。

检索增强产品更新多模态搜索
同一事件,精选展示《Mistral OCR 4》
推荐理由:Mistral OCR 4 不只是提取文本,而是输出带定位框和置信度的结构,这对需要引用和溯源的企业搜索很有价值,不过按页计费对小团队是门槛。
08:00
HuggingFace Daily Papers(社区热门论文)
40
星系分词器指南:科学基础模型基准

在统一Transformer框架下,比较Affine、AIM、JetFormer和VQ-VAE四种tokenization策略对天文成像的影响。使用DESI Legacy Survey中640,000张星系图像和共享AstroPT骨干,评估重建保真度与物理属性预测。结果显示:基于流的JetFormer重建质量更高,VQ-VAE对星系物理属性的探针性能更强,Affine与AIM更好保留局部形态信息。重建质量与表示质量相互解耦,没有单一方法在所有任务上一致最优。研究以独立测量的物理量为基准,凸显科学数据构建可解释基础模型基准的潜力。

多模态数据/训练论文/研究
07:27
IT之家(RSS)
49
扎克伯格谈 Meta AI 智能眼镜:必须在时尚与功能之间取得平衡

扎克伯格在访谈中表示,Meta 智能眼镜的难点不在堆砌 AI 功能,而在于做出人们愿意日常佩戴的产品,需在外观、舒适度和功能体验间取得平衡。本周二 Meta 推出全新系列智能眼镜,起售价 299 美元(约 2029 元),低于入门款雷朋智能眼镜,由依视路陆逊梯卡联合开发但不搭载其品牌标识。扎克伯格认为未来可穿戴设备必须与时尚融合,要让人戴出去有面子且佩戴舒适,并对比 Snap 新款 AI 眼镜因高价笨重遭吐槽。

Meta多模态大佬观点端侧
07:17
Berryxia.AI@berryxia
56
Mistral OCR 4发布:170种语言,结构化输出带边界框与置信度

2026年6月23日,Mistral AI发布非开源模型Mistral OCR 4,支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块(标题/正文/表格/页眉页脚)、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线,而是提供结构化输出,使OCR从认字工具进化为文档理解引擎,下游开发者无需再做版面分析。

Mistral AI: Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores ...

多模态模型发布
06:39
The Verge:AI(RSS)
45
Google Home 6 月 23 日起扩展面部识别:非正面也能靠体型衣服识别,新增特定声音检测

Google Home 将从 6 月 23 日起更新面部识别功能:当人脸不清晰时,可通过“非生物识别信号(体型、衣服颜色等)”继续识别已在 Familiar Faces 库中标记的人。该库还将自动更新家庭成员的最新照片。AI 生成的事件描述新增识别特定声音(狗叫、警报、脚步声)的能力,即使声音来自摄像头外。同步发布的 Google Home 应用 4.20 版加入了 Nest 恒温器检测到的 HVAC 系统健康警报,并改进了 Matter 开关支持。

Google产品更新多模态
05:06
HuggingFace Daily Papers(社区热门论文)
49
Lift4D:调和单视图三维估计以实现野外四维重建

Lift4D 是一种测试时优化框架,用于从单目视频重建动态非刚性物体。它首先通过因果潜在条件适配单视图3D重建模型,生成时间一致的逐帧预测,作为可变形3D高斯溅射表示的初始化;随后通过遮挡感知优化与视图条件扩散先验,在恢复可见表面细节的同时补全未观测区域。在包含严重遮挡和非刚性运动的野外序列上,Lift4D 明显优于此前方法。

arXiv多模态论文/研究
03:37
MarkTechPost(RSS)
68
Datalab 发布 lift:9B 开放权重视觉模型,依据 Schema 从 PDF 提取结构化 JSON

Datalab 推出 9B 参数开放权重视觉模型 lift,用于结构化提取。输入 JSON Schema,返回匹配的 JSON 对象,可直接读取 PDF 和图像,支持多页文档一次性处理并跨页取值。提供本地(HuggingFace)和远程(vLLM)两种推理模式,后者推荐用于生产。代码采用 Apache 2.0,权重使用修改版 OpenRAIL-M。在 225 份文档基准上 field accuracy 达 90.2%,中位延迟 9.5 秒/文档。核心机制为 schema-constrained decoding,逐 token 约束输出结构但不保证语义正确;每个字段允许 null 以实现模型放弃。不支持 enum、anyOf/oneOf、$ref、additionalProperties 等结构。

Hugging Face多模态开源生态模型发布
03:16
Rohan Paul@rohanpaul_ai
66
MaineCoon发布22B实时音视频生成模型

MaineCoon是一款22B参数的实时文本到音频-视频模型,专为实时AI角色设计。单H100 GPU可达47.5 FPS,成本低于0.001美元/秒;单RTX Pro 6000实现实时30 FPS。采用多阶段无强制流式训练(自采样、跨模态对齐、域偏好优化、强化在线策略蒸馏)及智能体流式推理框架,支持千秒级连续生成。双流扩散Transformer(视频+音频交叉注意力)保持表情、口型与声音同步,历史KV缓存和attention sink确保片段连贯。首帧小于1秒,生成与播放同步,不先制作完整视频再配音。

多模态推理模型发布视频
02:49
AK@_akhaliq
56
百度刚发布了 Unlimited-OCR。
产品更新多模态
00:38
🚨 AI News | TestingCatalog@testingcatalog
65
Mistral AI 发布 OCR 4 模型。在独立标注员对 600+ 现实文档(12+ 语言)的盲测中,OCR 4 被偏好,平均胜率 72%;OlmOCRBench 得分 85.20。OCR 4 还返回边界框、类型化块分类和行内置信度分数,作为 Search Toolkit 的组件,支持 170 种语言,且足够紧凑可单容器运行。

Mistral AI: We ran OCR 4 head-to-head against the field. Independent annotators blindly ranked 600+ real-world documents across 12+ ...

多模态模型发布
6月23日
23:56
Hacker News 热门(buzzing.cc 中文翻译)
73
Mistral OCR 4 发布

Mistral AI 于 6 月 23 日发布 OCR 4,除提取文本外还返回边界框、块分类(标题、表格、公式、签名等)和逐页/逐词置信度分数。支持 170 种语言、10 个语系,可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分,独立标注者偏好率达 72%。API 定价 $4/千页,Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件,为 RAG 和企业搜索提供结构化输出。

多模态模型发布部署/工程
23:13
歸藏(guizang.ai)@op7418
49
Seed 2.1 Pro 测评:胜任 Agent 工作流

Seed 2.1 Pro 正式发布,测评显示它能胜任真实 Agent 工作流。优势包括:复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式(本地电脑 Agent 操作)和火山引擎 API(Cloud Code)进行。复杂 Skills 测试(PPT 生成、社交媒体卡片)表现优秀,能根据内容调整版式。三个前端任务(百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页)均一步到位或结果完整。定位:未必最顶尖,但适合组合工作流——强编码模型负责工程,Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制:视频输入目前为抽帧式处理。API 已在火山引擎全量上线。

智能体多模态编码评测/基准
22:24
Mistral AI:News(网页)
精选68
Mistral OCR 4

Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布

推荐理由:Mistral OCR 4 把 bounding box 和置信度输出做进了产品,自托管部署和多语言能力很务实,做文档 RAG 和智能体的团队可以认真看看。
22:13
IT之家(RSS)
60
Meta 三款自有品牌智能眼镜首发亮相,299-399 美元

Meta 首次以自有品牌推出三款智能眼镜:Adventurer、Fury 及与凯莉·詹娜合作的 Starfire。Adventurer 和 Fury 售价 299 美元,Starfire 售价 399 美元,均比去年雷朋 Meta Wayfarer 便宜 80 美元。眼镜由 Meta 设计、依视路陆逊梯卡生产,内置摄像头、扬声器,支持与 Meta AI 对话、翻译及拍摄,预装最新 AI 模型 Muse Spark。鼻托三档可调,提供多种配色与镜片选项。Meta 透露未来可能推出无摄像头版本,并计划最终进入 AR 眼镜市场。

Meta产品更新多模态端侧
22:11
Mistral AI@MistralAI
54
推出 Mistral OCR 4。它通过边界框、块分类和内联置信度评分在170种语言中创建结构。 🧵👇
产品更新多模态
21:56
Hacker News 热门(buzzing.cc 中文翻译)
精选70
无限制OCR:单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),旨在一次性处理长时间跨度的 OCR 任务。

多模态开源/仓库
关联讨论 1 条MarkTechPost(RSS)
推荐理由:百度把能处理超长文档的 OCR 系统开源了,宣称一次推理搞定整份文件,做发票、合同、档案数字化的可以马上跑起来试试。
21:20
The Verge:AI(RSS)
51
Meta推出无Ray-Ban品牌的智能眼镜,起售价$299

Meta推出全新Meta Glasses系列,首批包括Meta Fury、Meta Adventurer及与Kylie Jenner联名的Meta Glasses by Kylie三款镜框,共七种颜色。新品起售价$299,比Ray-Ban Meta Gen 2便宜约$80,内部规格与后者相同但电池续航稍长。眼镜由EssilorLuxottica设计制造,支持-12到+2.25处方镜片并配备可调节鼻托与镜腿。Meta可穿戴设备副总裁Alex Himel表示将很快推出直接针对隐私问题的更新。

Meta产品更新多模态端侧
20:49
HuggingFace Daily Papers(社区热门论文)
47
Arbor:显式几何约束实现可控3D资产生成

Arbor是一个可训练的附件,为文本条件潜空间3D生成引入约束网格作为原生3D控制接口。约束分三类:包络区域(应有几何)、避让区域(保持空白)和接触区域(物体应接触)。Arbor将约束网格转换为模型token,在冻结去噪器内学习路由附件,使每个潜空间区域只接收相关约束信号。在自动和艺术家控制基准测试中,Arbor在固定约束下提升了约束遵循度,同时保持了对象质量和多样性。

多模态论文/研究
20:24
The Decoder:AI News(RSS)
67
字节跳动Seedance 2.5将AI视频生成延长至30秒

字节跳动在火山引擎FORCE大会上发布五款新AI模型。核心产品Seedance 2.5可生成单次30秒视频片段(无需后期拼接),支持场景变化与节奏切换,并同时处理多达50个额外输入(参考图、音频等),后期编辑可保持原有视觉风格。Seedance 2.0升级原生4K与10bit色深。其他模型包括Doubao 2.1 Pro语言模型、Seedream 5.0 Pro图像模型和Seed-Audio 1.0音频模型。据称Doubao 2.1 Pro价格比Claude Opus 4.6低约80%。Seedance 2.5将于7月初上线。

多模态模型发布视频
18:11
Baidu Inc.@Baidu_Inc
71
百度开源Unlimited OCR,专为一次性读取长文档设计。模型总参数量3B,仅激活500M,在OmniDocBench v1.5和v1.6上取得端到端SOTA。核心创新为参考滑动窗口注意力(R-SWA),模拟人类抄书过程,保持源、近期上下文和后续焦点,同时软遗忘无关信息。凭借恒定KV缓存大小和更低注意力成本,可在单次前向传播中转录40+页,不丢失上下文也不减速。模型已开源至GitHub和Hugging Face。

Baidu AI: We're open-sourcing Unlimited OCR - built to read long documents in one pass. With 3B total parameters and only 500M act...

Hugging Face多模态模型发布
18:03
fofr@fofrAI
23
Gemini的视觉能力令人印象深刻地通过了这项测试 ⚫️🐜⚫️

fofr: New vision benchmark just landed

Google多模态评测/基准
17:03
fofr@fofrAI
39
新的视觉基准刚刚发布。

USDA Forest Service: Ticks can be as small as a poppy seed. There are five ticks in this photo. Can you spot them? Learn more about protectin...

多模态评测/基准
16:50
公众号:卡尔的AI沃茨
58
实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了

火山引擎Force大会上发布豆包Seed 2.1 Pro,重点提升Agent、GUI操作和编程能力:OSWorld 78.8接近GPT-5.5的78.7,Terminal Bench 2.1达71.0;多模态视觉理解进步显著(CharXiv-RQ 85.4等)。支持原生音视频、图片、文本混合理解,256K上下文,可切换快慢思考。实测六项真实工作流(旧项目UI修复与Debug、世界杯主题网站、点球大战小游戏、绘本插画描述、DeepResearch报告、PPT生成)均在不依赖Skill下稳定跑通。适合作为Agent执行层模型。

智能体多模态推理编码
16:37
🚨 AI News | TestingCatalog@testingcatalog
48
OpenAI 正测试双向语音模型 Bidi 1,支持打断与连续对话

OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。

🚨 AI News | TestingCatalog: BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...

OpenAI多模态模型发布语音
16:07
IT之家(RSS)
40
比亚迪超级智能体"迪迪虾"确认登陆腾势N8L闪充版,新车今晚上市

比亚迪腾势超级智能体“迪迪虾”基于整车智能体系,采用活人逻辑,支持根据用户需求操控车辆、理解和执行多步骤复杂指令,并打通手机生态。该智能体将登陆腾势N8L闪充版,该车今晚19:30发布上市,预售价35-40万元,标配第二代刀片电池,插混闪充版纯电续航430km(同级第一),自称“5分钟充好,9分钟充饱”“零下30度,只多3分钟”。新车全球首搭新一代AI智能座舱,配备天神之眼5.0辅助驾驶系统。

智能体产品更新多模态
15:55
X.PIN@thexpin
57
字节跳动刚刚推出了一波新模型: 1️⃣ Doubao 2.1 Pro 面向编程。 2️⃣ Seedance 2.5:4K 视频,每段最长 30 秒。将于 7 月上线,同时推出新的 AI 版权商业化平台。 3️⃣ Seedream 5.0 Pro:图像模型,能处理图像中的文本,支持多层编辑,并输出可编辑的分层设计文件。 4️⃣ Seed-Audio 1.0:零样本多模态音频:一次生成多角色对话、背景音乐和音效。
图像生成多模态模型发布视频
15:26
Chubby♨️@kimmonismus
25
Seedance 2.5 发布。看起来太疯狂了!仍在试图弄清楚 Veo 4 在哪里,以及为什么没有其他产品能接近 Seedance。
多模态大佬观点视频
15:13
HuggingFace Daily Papers(社区热门论文)
45
MeshFlow:等变流匹配网格生成

MeshFlow提出直接生成三角网格的方法,将网格视为三角形汤,避免了序列化为长自回归序列。该方法采用等变最优传输流匹配模型,保持了三角形汤的关键对称性(面的任意排列及每个面内顶点的排列)。通过对Diffusion Transformer架构进行简单有效的修改,构建了可扩展网络来建模速度场,同时维持所需的等变性。引入基于最优传输的训练目标,消除了违反对称性的监督信号,改善了收敛性。MeshFlow的生成质量媲美最先进自回归网格生成器,推理速度提升约18倍。

多模态论文/研究
14:50
公众号:火山引擎
83
火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

火山引擎在FORCE原动力大会上发布豆包大模型2.1 Pro、Seedance 2.5、Seedance 2.0 4K版、Seedream 5.0 Pro及豆包音频生成模型1.0。豆包大模型2.1 Pro在Coding、Agent、VLM方向升级,多Coding评测比肩全球顶尖,Agent国内第一,VLM全球领先。Seedance 2.5支持30秒单段原生直出、50个全模态素材联合输入;Seedream 5.0 Pro支持交互式编辑、多图层分离;豆包音频生成模型1.0可一次直出影视级音频。截至今年6月,豆包大模型日均Token调用量180万亿,同比增长超10倍;火山引擎在中国公有云MaaS市场份额占49.5%第一。同时发布方舟CLI、AgentKit、HiAgent 3.0及AI Trust安全体系。

多模态推理模型发布
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
14:37
🚨 AI News | TestingCatalog@testingcatalog
65
BYTEDANCE 🔥: Seedance 2.5 已正式发布,同时还有更新的 Seedance 2.0。 - Seedance 2.0 现支持 4k 输出 - Seedance 2.5 将能够一次性生成 30 秒视频 - 字节跳动还宣布了一个新的 AI 版权商业化平台 这个视频广告太惊艳了 👀

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

多模态模型发布视频
14:33
数字生命卡兹克@Khazix0918
78
2026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力

豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。

智能体多模态模型发布
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
14:10
公众号:京东JoyAI
精选73
京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)IT之家(RSS)
推荐理由:京东这个实时交互模型不是又一个刷榜模型,它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人,做安防、看护、直播的开发者可以直接试了。
13:50
公众号:火山引擎
精选71
豆包音频生成模型1.0发布,重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由:豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt,长时一致性解决了一直以来‘串戏’的痛点,音频创作者的生产流程可能会被改写。
13:13
HuggingFace Daily Papers(社区热门论文)
60
Unlimited OCR:长序列OCR显存与速度问题的解决方案

针对长序列转录中KV缓存累积导致显存增加和速度下降的问题,研究团队提出Unlimited OCR。该模型以DeepSeek OCR为基线,用提出的Reference Sliding Window Attention(R-SWA)替换解码器所有注意力层,在保持恒定KV缓存的同时降低注意力计算成本。结合DeepSeek OCR编码器的高压缩率,Unlimited OCR在32K标准最大长度下单次前向可转录数十页文档。R-SWA是一种通用解析注意力机制,同样适用于ASR、翻译等任务。代码和模型权重已开源。

DeepSeek多模态论文/研究
13:13
HuggingFace Daily Papers(社区热门论文)
55
UniverSat: 分辨率和模态无关的Transformer用于地球观测

UniverSat是一种基于Vision Transformer的骨干网络,采用通用补丁编码器(Universal Patch Encoder),将来自任意空间、光谱和时间分辨率以及光学和非光学传感器的补丁映射到共享嵌入空间,使用共享权重。这使得单个模型能够在异构多模态数据集上通过自监督训练,生成鲁棒的传感器无关空间特征。在GeoBench、PANGEABench和SpectralEarth等标准地球观测基准的分类和分割任务中,取得了强劲结果。代码和模型已开源。

GitHub多模态数据/训练模型发布
13:10
Orange AI@oran_ge
43
豆包 Seed Audio 1.0:声音模型的 Seedance 时刻

豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。

多模态模型发布语音
13:07
IT之家(RSS)
64
字节跳动豆包视频生成模型 Seedance 2.5 将于7月初上线

字节跳动火山引擎总裁谭待在2026火山引擎FORCE原动力大会上公布,豆包视频生成模型Seedance 2.5目前处于全球企业内测阶段,预计7月初正式上线。该模型支持单段原生30秒视频直接生成,用户可同时导入最多50个全模态参考素材。前代Seedance 2.0已升级具备原生4K视频生成能力。大会还预览了字节跳动全新AI版权商业化平台,周星驰为首批合作对象,用户可在抖音、即梦、剪映等平台使用官方授权模板二次创作经典电影片段,相关模板当日创作量已突破十万次。

多模态模型发布
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
12:20
公众号:数字生命卡兹克
75
火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7,Agent大幅进化,多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token(输入/输出),上下文256k,已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测,可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出,Seedance 2.5支持30秒原生直出。Seedream 5.0 pro(7月初上线)及全新音频生成模型即将发布。

智能体多模态模型发布编码
关联讨论 2 条X:Vista (@vista8)公众号:火山引擎
12:15
小互@xiaohu
59
字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台

字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型,可一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台,允许用户使用官方授权的 IP 电影版权进行创作并参与分成。

多模态模型发布视频
‹ 上一页
1…34567…50
下一页 ›