AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月28日周日
01:22Berryxia.AI76精选苹果Vision负责人跳槽OpenAI,触控OLED MacBook用M5芯片
6月27日周六
22:28Deedy34字节跳动7月初发布Seedance 2.5视频生成模型,生成长度翻倍至30秒
21:24Runway66精选Runway API 推出广告本地化 Recipe
17:29小互64Wan Streamer v0.1:首个端到端Transformer实时音视频对话模型
12:48Ethan Mollick81同事件精选赫库兰尼姆卷轴两千年来首次被读同一事件,精选展示《赫库兰尼姆古卷首次被完整虚拟解读》
10:59IT之家(RSS)59苹果 iOS 27 Beta 2 固件曝光:百度视觉搜索组件现身
09:23ginobefun53GPT-5.6 Sol 预览 / Deep Agents 提示词缓存 / AI 推理成本分析
00:11Google Gemini47Gemini Drops 本月新功能一览
6月26日周五
23:56AK40ViQ:任意分辨率文本对齐视觉量化
20:26AK44自信感知工具编排实现鲁棒视频理解
18:57Alibaba Cloud45NVIDIA与阿里云合作加速Flink多模态数据流处理
16:59IT之家(RSS)48Rokid AR 眼镜亮相:首搭骁龙至尊空间计算协处理器,空间 + AI 双摄
16:20Berryxia.AI60AI实时世界杯解说员项目开源
15:59IT之家(RSS)53中兴通讯发布 AI 智屏 2.0:支持语音助手,红外控制传统家电
15:59IT之家(RSS)56乐奇 Rokid 全球首发 AI 眼镜微信扫一扫功能,还支持一句话打车
13:26Alibaba Cloud46阿里云 HappyHorse 1.1 发布:智能视频创作
11:59IT之家(RSS)67Mistral AI 推出 OCR 4 模型:支持 170 种语言,输出更受人类青睐
11:31Hacker News 热门(buzzing.cc 中文翻译)61AI生成儿童百科全书被曝"身体恐怖"插图漏洞
10:26Alibaba Cloud50阿里云Model Studio上线HappyHorse 1.1
09:16PixVerse65Seedance 2.0 在 PixVerse 支持原生 4K
08:20Orange AI41豆包/Seed 2.1 Pro推理上下文精度遭用户吐槽
08:00HuggingFace Daily Papers(社区热门论文)47PerceptionRubrics: 校准多模态评估以对齐人类感知
08:00HuggingFace Daily Papers(社区热门论文)53Video-MME-Logical:视频时间逻辑推理的受控诊断基准
08:00HuggingFace Daily Papers(社区热门论文)47ProMSA:渐进式多模态搜索智能体用于知识型视觉问答
02:49Runway53Runway Agent 2.0 发布,可生成营销素材
02:19Artificial Analysis57Artificial Analysis 发布 AI 视频编辑排行榜,HappyHorse-1.0 夺冠
01:21宝玉42DeepSeek 招聘多模态工程师与研究员
00:19Artificial Analysis68微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜位列文本到图像第2、图像编辑第3
00:15Google AI Developers73同事件精选Gemini 3.5 Flash 的 Computer Use 工具正式可用同一事件,精选展示《Gemini 3.5 Flash 引入 computer use 功能》
6月25日周四
22:08The Decoder:AI News(RSS)61Grok AI 沦为色情平台:超半数流量用于成人内容
20:18Berryxia.AI39Grok 视频制作便捷,对比 Google Omni 版权问题
19:20公众号:生数科技(Vidu·视频)38生数科技与极豆科技达成战略合作,共建汽车行业AIGC解决方案
16:12HuggingFace Daily Papers(社区热门论文)43MVTrack4Gen:多视角点跟踪作为4D视频生成的几何监督
15:58IT之家(RSS)69百度开源 Unlimited OCR 模型,基于 DeepSeek OCR 架构,30亿参数仅激活5亿
15:37向阳乔木82同事件精选豆包Seed-2.1实测:编程可用,识鱼封神!同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》
15:12HuggingFace Daily Papers(社区热门论文)34ShutterMuse:利用MLLM进行拍摄时摄影指导
14:54Alibaba Cloud65HappyHorse 1.1 在 ComfyUI 以 Partner Node 上线
14:04MarkTechPost(RSS)73同事件精选百度发布Unlimited OCR:3B参数MoE模型,KV缓存恒定实现长文档高效解析同一事件,精选展示《无限制OCR:单次长时域解析》
13:58IT之家(RSS)58谷歌 Chrome 149 升级 AI 交互,引入"Select from screen"功能
13:12HuggingFace Daily Papers(社区热门论文)44V-Zero:无需答案标签的对比证据门控用于细粒度视觉推理
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月28日
01:22
Berryxia.AI@berryxia
精选76
苹果Vision负责人跳槽OpenAI,触控OLED MacBook用M5芯片

2026年6月26日,Mark Gurman称苹果Vision产品组副总裁Paul Meade下周离职加入OpenAI硬件部门。他负责Vision Pro、无屏幕AI智能眼镜及AR眼镜研发。苹果计划首款触控OLED MacBook使用M5 Pro/Max芯片,2026年底到2027年初发布;M7 Pro/Max版本2027年底跟进。苹果此前因涨价市值蒸发2300多亿美元。核心高管流失至OpenAI凸显AI硬件竞争加速。

OpenAI多模态行业动态

推荐理由:Paul Meade 从苹果 Vision Pro 跳槽 OpenAI,不是普通人事变动,而是 AI 硬件竞赛正式开打的信号,做硬件的可以开始紧张了。
6月27日
22:28
Deedy@deedydas
34
字节跳动7月初发布Seedance 2.5视频生成模型,生成长度翻倍至30秒

字节跳动将于7月初发布视频生成模型Seedance 2.5,将生成长度从15秒翻倍至30秒,支持音频+4K视频;参考图片/音频/视频数量提升至50个以上;支持局部编辑(特定角色、闭合、细节),附带版权过滤。其前代Seedance 2已是视频生成模型第一名,ARR达20亿美元,定价$2.5/15秒,累计生成超330万小时视频。对比时间线:Veo 3(2025年5月)首降音视频生成15秒,Kling 3(2026年1月)15秒,Seedance 2(2026年2月)15秒,Seedance 2.5(2026年7月)30秒。中国视频模型持续扩大对美国的领先优势。

多模态模型发布视频
21:24
Runway@runwayml
精选66
广告本地化现在可通过 Runway API 以 Recipe 形式使用。 现在您可以通过单次 API 调用翻译静态广告和图形资产。

Runway: New in Runway, you can now localize ads. One image in, any language out. Input a single ad and get a version for every m...

产品更新多模态

推荐理由:Runway 把广告本地化做成了一键 API,对出海团队是实打实的效率提升,但放在整个 AI 行业里这只是个功能补齐。
17:29
小互@xiaohu
64
Wan Streamer v0.1:首个端到端Transformer实时音视频对话模型

阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms,总延迟约550ms,25fps下流式处理单元160ms,分辨率192p。同步生成语音与面部视频,支持全双工打断,取消外部ASR/TTS/动画模块,通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证,未开放使用。

arXiv多模态模型发布视频
12:48
Ethan Mollick@emollick
同事件精选81
其中一段被复原的文字,两千年来首次被读到:"经过研究和学习的极限努力……拥有同样的实践智慧……"

Stewart Brand: Herculaneum fused scroll read in full. https://scrollprize.org/firstscroll

多模态论文/研究
同一事件,精选展示《赫库兰尼姆古卷首次被完整虚拟解读》
推荐理由:AI 首次从两千年前的火山灰中读出完整段落,而且内容恰恰是关于「研究与智慧」的,这种巧合本身就值得你点开看一眼。
10:59
IT之家(RSS)
59
苹果 iOS 27 Beta 2 固件曝光:百度视觉搜索组件现身

iOS 27 Beta 2 固件代码显示新增 SearchPartnerInferenceProvider 组件,其本地化字符串明确提及“Baidu Visual Search”。该组件为第三方视觉搜索及 AI 服务商的基础设施,目前唯一指名的合作方为百度,未来可能按地区提供不同合作伙伴。本次更新还新增 SystemVoiceAssistant 应用,将 Polaris 音频框架独立为守护进程 polarisd,并新增 bluetoothaudiod 进程。固件包含超 4200 个 dylibs 更新、732 个 Mach-O 可执行文件更新及近 300 个 Kernel Extension 更新。

多模态搜索行业动态
09:23
ginobefun@hongming731
53
GPT-5.6 Sol 预览 / Deep Agents 提示词缓存 / AI 推理成本分析

OpenAI 启动 GPT-5.6 系列有限预览:旗舰 Sol、均衡款 Terra(性能比肩 GPT-5.5 但便宜一半)和低成本 Luna。新增 max 深度推理档与 ultra 模式,Sol 在 Terminal-Bench 2.1 以 88.8% 刷新编码 SOTA。LangChain 拆解 Deep Agents 提示词缓存,可削减 token 成本 49%-80%(claude-haiku -77%、gpt-5.4-mini -80%)。Sean Goedecke 核算 AI 推理服务毛利率可达 70%-80%,DeepSeek-V4-Pro 市场价约 87 美分已贴近成本。

ginobefun: http://x.com/i/article/2070663412787576832

多模态推理行业动态
00:11
Google Gemini@GeminiApp
47
从用语音实时创建图像,到支持小企业的新方式,以下是本月 Gemini Drops 的内容 🧵
Google产品更新多模态语音
6月26日
23:56
AK@_akhaliq
40
ViQ 文本对齐的视觉量化表示,支持任意分辨率。
Hugging Face图像生成多模态论文/研究
20:26
AK@_akhaliq
44
面向鲁棒视频理解的自信感知工具编排
MCP/工具多模态论文/研究
18:57
Alibaba Cloud@alibaba_cloud
45
NVIDIA与阿里云合作加速Flink多模态数据流处理

在Flink Forward Asia Shenzhen 2026大会上,NVIDIA的Chuan Chen分享了NVIDIA与阿里云的技术合作:通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端的高性能多模态流式架构,可应用于AI解说、实时图文信息流和交互式问答等场景。

多模态行业动态部署/工程
16:59
IT之家(RSS)
48
Rokid AR 眼镜亮相:首搭骁龙至尊空间计算协处理器,空间 + AI 双摄

6月26日,Rokid在Rokid Open Day 2026上发布AR眼镜新品,采用空间+AI双摄设计,支持电致变色、6DoF自由度和58° FoV视野。搭载恒玄6nm旗舰芯片、5麦克风拾音及DSP数字音效引擎,首次配备高通骁龙至尊空间计算协处理器(3nm),算力远超Rokid AR Studio、Meta Quest Pro、Pico4等。官方还提及4D高斯泼溅能力,目标两三年内实现空间感知、空间重建与空间理解。

产品更新多模态端侧
16:20
Berryxia.AI@berryxia
60
AI实时世界杯解说员项目开源

开发者@zicohacks利用AI构建了一个实时世界杯解说员。系统像观众一样观看直播,采样最新帧,让GPT-5.4-mini理解比赛内容并生成解说词,再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用,已能较自然跟上比赛节奏,支持英语和法语切换。项目已开源,目前主要挑战是延迟和解说精准度,但方向明确——AI正从辅助内容变为实时内容生产者。

Zico: i tried building an AI commentator for the World Cup it watches the live stream as the viewers, samples the newest frame...

多模态开源/仓库视频
15:59
IT之家(RSS)
53
中兴通讯发布 AI 智屏 2.0:支持语音助手,红外控制传统家电

中兴通讯在上海世界移动通信大会推出 AI 智屏 2.0,搭载 4TOPS 算力 AI 芯片、云台摄像头及 433MHz 无线技术,采用电子相框一体化造型与 10.1 英寸全贴合屏幕,支持“小兴小兴”语音助手。通过 360° 红外和 433MHz 无线可语音控制电视、空调等传统家电,集成温湿度与光线传感器实现场景化控制。覆盖智能管家、康养伙伴(多模态 AI 识别)、伴学搭子(AI 家庭教师/扫描同传)、生活助手(智能订票/点外卖)、用网卫士五大场景。

产品更新多模态语音
15:59
IT之家(RSS)
56
乐奇 Rokid 全球首发 AI 眼镜微信扫一扫功能,还支持一句话打车

乐奇Rokid在6月26日的Rokid Open Day 2026大会上宣布与微信合作,全球首发AI眼镜微信扫一扫功能。用户佩戴眼镜看向微信收款码,即可一句话完成微信支付。Rokid眼镜此前已支持支付宝AI付,成为唯一适配支付宝、微信支付双平台的AI眼镜品牌。此外,眼镜还支持导航信息显示、解锁共享单车、支付停车费等。同时与高德地图合作推出AI打车智能出行助手,支持一句话打车。

产品更新多模态端侧
13:26
Alibaba Cloud@alibaba_cloud
46
别再拍摄了。用 #HappyHorse 1.1 开始创作吧。 通过智能叙事、富有表现力的动作、精细的细节和沉浸式音频体验,制作引人注目的品牌和商业视频。 为追求速度又不愿牺牲质量的创作者而打造。 发布优惠:节省 40% https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI
产品更新多模态视频
11:59
IT之家(RSS)
67
Mistral AI 推出 OCR 4 模型:支持 170 种语言,输出更受人类青睐

法国 AI 初创公司 Mistral AI 于本月 23 日发布文档内容识别模型 OCR 4,支持横跨 10 个语族的 170 种语言,在 OmniDocBench 上获 93.07 分,输出较 GPT 5.5 Pro、Gemini 3.1 Pro Preview 等更受人类青睐。该模型为小型聚焦模型,输出文本并提供边框、区域分类和置信度评分,支持 RAG 语义分块等下游工作负载。基础 API 定价每千页 4 美元,批处理享 50% 优惠;文档人工智能定价每千页 5 美元。

多模态模型发布
11:31
Hacker News 热门(buzzing.cc 中文翻译)
61
AI生成儿童百科全书被曝"身体恐怖"插图漏洞

安全专家lcamtuf购买了一本亚马逊畅销排行第一的AI生成儿童百科全书,发现书中插图出现大量“身体恐怖”缺陷:猫长着人脸、动物与树木融合成脉动的肉团、无头怪物缠绕读者脚踝。这些图片指向美国某头部实验室的旗舰模型生成。作者警告,尽管前沿模型在2025年夏季声称超越博士级智能,但2026年中问世的AI童书仍存在严重质量问题,正在影响儿童认知。当前模型无法保证内容准确性。

图像生成多模态现象/趋势
10:26
Alibaba Cloud@alibaba_cloud
50
HappyHorse 1.1 正在推动下一波AI视频创作。 从 @ComfyUI、@runware 到 @fal、@replicate 和 @Picsart,领先平台已在使用它构建应用。 现已在阿里云Model Studio上可用。 立即开始创作:https://int.alibabacloud.com/m/1000412436/ #HappyHorse #阿里云 #ModelStudio #AI视频 #生成式AI
多模态模型发布视频
09:16
PixVerse@PixVerse_
65
Seedance 2.0 现已在 PixVerse 上支持原生 4K 难点不在于分辨率,而在于快速运动中保持细节清晰。 看看巨龙掠过海面时,鳞片和水花是如何保持清晰的。
产品更新多模态视频
08:20
Orange AI@oran_ge
41
用户指出刚上线 Cola 的 Seed 2.1 Pro 模型(自称原生多模态、多模态最强,相比 2.0 增强 coding 和 Agent 能力)在推理时上下文精度极差:常搞错人物、性别、时间。用户指出错误后模型频繁道歉,态度端正但问题明显。

Orange AI: 刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型 这个模型是原生多模态模型,是目前的多模态最强模型。 相比 2.0 版本,增强了 coding 能力和 Agent 能力,具体的评测可以参考藏师傅的文章 体验地址 http://c...

多模态推理评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
47
PerceptionRubrics: 校准多模态评估以对齐人类感知

PerceptionRubrics 提出基于规则的多模态评估框架,将评估从整体语义匹配转向原子化审计。它配套 1,038 张信息密集图像与超过 12,000 条实例特定规则,这些规则源于环形同行评审共识流水线构建的金标准描述,并提炼为“必须正确”与“易错”双流系统。框架采用门控评分机制:强制视觉事实失败触发二值惩罚。评估揭示三大发现:①可靠性差距——模型能正确验证碎片化元素,但在严格合取约束下暴露脆弱性;②开源-闭源分层——前沿模型存在 8% 感知差距;③人类对齐严格性——门控指标远超传统基准。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
Video-MME-Logical:视频时间逻辑推理的受控诊断基准

Video-MME-Logical围绕五种时间逻辑操作(状态跟踪、顺序计数、时序排序、动态空间性、结构组合)构建,包含25个细粒度任务类别,通过控制对象状态、转换和逻辑组合来分离评估多模态大语言模型(MLLM)的视频时间逻辑推理能力。实验表明,当前SOTA MLLM与人类之间存在显著差距,且随时间逻辑复杂度增加而扩大。即使对多达500K生成样本进行监督微调,仍无法弥合这一推理鸿沟。该基准为分析和改进MLLM的时间逻辑推理提供了可扩展的测试平台。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
ProMSA:渐进式多模态搜索智能体用于知识型视觉问答

ProMSA是一种渐进式多模态搜索智能体,用于知识型视觉问答(KB-VQA)。给定图像-问题对,智能体在明确的工具调用预算和去重机制下,迭代选择图像搜索、文本搜索或停止。训练先通过拒绝采样SFT学习有效工具使用格式,再使用TN-GSPO序列级RL目标优化,该目标按生成长度和工具交互深度归一化更新。在E-VQA和InfoSeek基准上,ProMSA持续优于强RAG和智能体基线,提升了检索和端到端准确率。代码已开源。

智能体多模态论文/研究
02:49
Runway@runwayml
53
推出 Agent 2.0 从简单的提示词到完整生成的营销简报和活动素材,全都在 Runway Agent 内完成。你还可以轻松分析你的表现数据,以改善你的创意,并跨平台、格式和市场进行扩展。 Agent 正在被打造成为最强大的自主智能体,用于真实世界的工作。
智能体产品更新多模态
02:19
Artificial Analysis@ArtificialAnlys
57
Artificial Analysis 发布 AI 视频编辑排行榜,HappyHorse-1.0 夺冠

Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。

多模态视频评测/基准
01:21
宝玉@dotey
42
DeepSeek 正在招聘多模态方向的全职/实习岗位,包括多模态数据工程师(预训练数据工程师)以及多模态理解数据/算法研究员(图像与视频方向)。应聘者可通过私信或发送简历至 talent@deepseek.com 联系。

Xingchao Liu: 🚀 我们组在招(全职/实习都可以): -多模态数据工程师(属于预训练数据工程师) -多模态理解数据/算法研究员(图像 & 视频方向) DM 已开,直接带CV发消息给我,或者带CV发邮件到 talent@deepseek.com

DeepSeek多模态行业动态
00:19
Artificial Analysis@ArtificialAnlys
68
微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜位列文本到图像第2、图像编辑第3

微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名,仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑,最大输出分辨率约 1MP,支持灵活宽高比,上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价:MAI-Image-2.5 为 $48/千图,Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground,其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。

MicrosoftOpenAI图像生成多模态
00:15
Google AI Developers@googleaidevs
同事件精选73
Gemini 3.5 Flash 的 Computer Use 工具正式可用

Google AI 宣布 Gemini 3.5 Flash 的 Computer Use 工具正式可用,支持构建能观察并操作浏览器、移动端和桌面环境的 AI 智能体,可处理长期任务。新特性包括:内置移动与桌面操作系统支持;所有函数调用配备 intent arguments;可定制的客户端函数实现人工接管(HITL);提示词注入检测及可配置的 action-level 安全策略。可用于自动化 QA 测试、业务流程等场景。

智能体Google产品更新多模态
同一事件,精选展示《Gemini 3.5 Flash 引入 computer use 功能》
推荐理由:Computer Use 从浏览器扩展到移动和桌面,Google 正式把 agent 战场拉到全部界面。安全策略的加入说明不是 demo,而是认真考虑落地。
6月25日
22:08
The Decoder:AI News(RSS)
61
Grok AI 沦为色情平台:超半数流量用于成人内容

两位前 xAI 员工估计,Grok AI 超过一半流量用于色情图片、视频、角色扮演聊天等成人内容,甚至代码模型也频繁收到此类请求。xAI 正扩展 Grok 的图像和视频生成能力,填补 OpenAI、Anthropic、Google 回避的领域。据 SpaceX IPO 文件,2026 年第一季度 Grok 每月生成 100 亿张图片和 20 亿个视频。今年早些时候,X 用户持续数周生成真实人物色情图片,xAI 知情后仅在监管压力下才行动。此事令一些研究人员感到尴尬。目前所有联合创始人已离职,公司正将 GPU 资源出租给 Anthropic。

xAI多模态安全/对齐行业动态
20:18
Berryxia.AI@berryxia
39
Grok 现在制作这种视频真的好方便,而且基本可以一次性搞定,而Google Omni 就触发版权问题。
GooglexAI多模态视频
19:20
公众号:生数科技(Vidu·视频)
38
生数科技与极豆科技达成战略合作,共建汽车行业AIGC解决方案

6月24日,生数科技与极豆科技签署战略合作协议。双方将整合生数科技多模态大模型(Vidu等)与极豆科技汽车AI解决方案、AI中台及车规级研发能力,围绕座舱内容、车主服务等场景打造汽车行业AIGC解决方案。重点探索个性化欢迎、亲子互动、旅途影像等场景,通过模型接入与场景编排将内容生成从预置供给升级为实时动态生成。同时将AIGC延伸至通勤、补能、车辆服务等环节,探索API、SDK及私有化部署等交付方式。极豆科技已与30余家车企合作,累计量产装车超1400万辆。

图像生成多模态行业动态视频
16:12
HuggingFace Daily Papers(社区热门论文)
43
MVTrack4Gen:多视角点跟踪作为4D视频生成的几何监督

MVTrack4Gen提出运动感知训练框架,将多视角点跟踪作为额外几何与运动监督信号,用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系,对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标,MVTrack4Gen增强运动感知对应,使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上,该方法达到最优几何一致性和有竞争力的相机精度。

多模态视频论文/研究
15:58
IT之家(RSS)
69
百度开源 Unlimited OCR 模型,基于 DeepSeek OCR 架构,30亿参数仅激活5亿

百度于6月22日开源 Unlimited OCR 模型,总参数量30亿,推理时仅激活5亿。模型延续 DeepSeek OCR 架构,编码端采用两级视觉编码并执行16倍 token 压缩,将1024×1024 PDF 图像压缩为256个视觉 token,缓解长文档解析越生成越慢问题。训练基于 DeepSeek OCR 检查点,冻结 DeepEncoder 后继续4000步,使用约200万份文档在8×16 A800 GPU上完成,单页与多页数据配比约9:1。在 OmniDocBench v1.5 上整体得分93.23(DeepSeek OCR 87.01,DeepSeek OCR 2 89.17),文本编辑距离0.038,公式 CDM 92.61,表格 TEDS 90.93,读序编辑距离0.045;v1.6 得分93.92。GitHub 已获 6.8K Star。

DeepSeek多模态开源生态模型发布
15:37
向阳乔木@vista8
同事件精选82
豆包Seed-2.1实测:编程可用,识鱼封神!

火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。

智能体多模态编码评测/基准
同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》
推荐理由:乔木的实测很有说服力,Seed 2.1 Pro 在编程和 Agent 任务上已能用,多模态识鱼甚至反超 Gemini,对正在选模型的开发者是及时且扎实的参考。
15:12
HuggingFace Daily Papers(社区热门论文)
34
ShutterMuse:利用MLLM进行拍摄时摄影指导

现有美学裁剪基准仅评估事后裁剪,忽略拍摄时对构图和姿态的实时指导。为此提出CaptureGuide-Bench,包含摄影师侧构图决策与细调、主体侧场景条件姿态推荐两任务。评估发现通用MLLM和专用裁剪模型均无法提供可操作姿态指导。进一步构建CaptureGuide-Dataset(13万样本),并开发ShutterMuse——经监督和强化微调的统一MLLM。在基准上,ShutterMuse摄影师侧整体性能最佳,主体侧姿态推荐具有竞争力且推理成本更低。

多模态论文/研究
14:54
Alibaba Cloud@alibaba_cloud
65
HappyHorse 1.1 现已作为 Partner Node 集成于 ComfyUI,一次渲染即可支持原生音频、多角色一致性与电影级构图。新版本提升动态表现力(运动更流畅);增强 R2V,每次最多使用 9 张参考图;实现多角色造型零串扰,背景变化时角色仍保持一致;指令遵循能力增强,可处理超 2500 字符的提示词,单次生成 6-8 个场景;修复皮肤反光和过度锐化;对话与音效同步更紧密。

ComfyUI: HappyHorse 1.1 is now available in ComfyUI as a Partner Node. Native audio. Multi-character consistency. Cinematic frami...

多模态模型发布视频
14:04
MarkTechPost(RSS)
同事件精选73
百度发布Unlimited OCR:3B参数MoE模型,KV缓存恒定实现长文档高效解析

百度推出Unlimited OCR,一个3B参数的MoE模型,推理时仅激活500M参数。其核心创新Reference Sliding Window Attention(R-SWA)将KV缓存大小固定为Lm + n(n默认128),内存和延迟不随输出长度增长。模型基于DeepSeek OCR继续训练4000步,支持32K最大长度,通过DeepEncoder实现16倍token压缩。在OmniDocBench v1.5上整体得分93.23,超出DeepSeek OCR基线6.22分;v1.6得分93.92为最高。Base模式下吞吐达5580 TPS,比DeepSeek OCR提升12.7%,6000 token输出时延迟低35%。适用于整本书转录等场景,代码与权重已在HuggingFace开源。

多模态开源生态模型发布
同一事件,精选展示《无限制OCR:单次长时域解析》
推荐理由:Baidu这个OCR模型用R-SWA把KV缓存压成常量,长文档解析终于不用越跑越慢了。MIT开源,3B总参但推理只消500M,做文档管线的可以直接接。
13:58
IT之家(RSS)
58
谷歌 Chrome 149 升级 AI 交互,引入"Select from screen"功能

谷歌升级 Gemini 3.5 Flash 模型,原生引入“Computer Use”工具,并搭配 Chrome 149 浏览器增强 AI 交互。Chrome 新增“Select from screen”功能,用户可框选屏幕上的图片或文字,直接送入 Gemini 提示词,获得针对性 AI 交互,例如在鞋类网站选中多双运动鞋询问适合的跑步风格。该功能类似 Google Lens,但由对话式 AI 处理。Computer Use 工具使 AI 智能体能在网页、桌面、移动端执行访问网站、填写表单、点击按钮等复杂任务。

Google产品更新多模态搜索
13:12
HuggingFace Daily Papers(社区热门论文)
44
V-Zero:无需答案标签的对比证据门控用于细粒度视觉推理

多模态大语言模型(MLLM)进行细粒度视觉推理时,传统方法依赖强化学习或大规模标注推理轨迹,成本高昂。V-Zero提出无需标注文本答案标签的框架,通过将问题相关区域裁剪与负视觉视图配对,评估学生模型采样轨迹,并门控细粒度token级知识蒸馏,引入轨迹级判别能力。在多个视觉推理基准上,V-Zero持续提升细粒度视觉推理性能并保持强泛化能力,训练速度比监督微调方法快5倍以上,比强化学习基线快10倍以上。代码和数据集将开源。

多模态推理论文/研究
‹ 上一页
12345…50
下一页 ›