AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月23日周二
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
12:20公众号:数字生命卡兹克75火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能
12:15小互59字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台
12:14Berryxia.AI58Seedance 2.5 发布:30 秒原生视频 + 50 全模态素材
12:13HuggingFace Daily Papers(社区热门论文)46密集可验证奖励框架 DR-MV3D:全局地图与局部视图驱动的多视角 3D 推理
11:14Berryxia.AI63百度开源 Unlimited OCR:单次解析多页 PDF,疑似挖角 DeepSeek 技术骨干
09:44小互29字节火山引擎大会发布 Seedance2.5、豆包 Seed2.1 等新模型
08:31向阳乔木48百度开源 Unlimited OCR:3B参数500M激活性能惊艳
08:13Berryxia.AI73百度开源 Unlimited-OCR,R-SWA 实现单次多页 PDF 解析
08:00HuggingFace Daily Papers(社区热门论文)51Tailor-Bench:修剪视觉世界建模评估的长尾
08:00HuggingFace Daily Papers(社区热门论文)68Wan-Streamer v0.1: 端到端实时交互基础模型
08:00HuggingFace Daily Papers(社区热门论文)44IV-CoT:面向结构感知文本到图像生成的隐式视觉思维链
05:07elvis48Fugu Ultra 3D 渲染表现惊艳
01:35Google AI Developers62Google Interactions API 正式可用:统一端点、稳定 schema、Managed Agents 等新功能
01:12Berryxia.AI66百度开源Unlimited-OCR:可一次性处理数百页文档
6月22日周一
23:42SenseTime50商汤SenseTime感谢YouTuber xCreate拆解SenseNova U1,展示文本-图像推理与信息图表生成能力
23:41AK32PerceptionDLM:平行区域感知多模态扩散语言模型
22:56Chubby♨️55GPT-5.6、5.6 Pro及双向语音模型周四发布
22:11Hugging Face:Blog(RSS)69精选PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M
22:05IT之家(RSS)63生数 Vidu Q3 多模态视频大模型上线华为云 MaaS,主打文/图生视频一体化成片
21:26Chubby♨️38Sonnet 5 首次测试已启动
18:09Artificial Intelligence News(RSS)44欧莱雅与OpenAI合作,将美宝莲虚拟试妆引入ChatGPT
17:05IT之家(RSS)71同事件精选让大模型从"一问一答"走向"边看边说",京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”》
15:05IT之家(RSS)62阿里巴巴发布视频生成模型 HappyHorse 1.1
08:00HuggingFace Daily Papers(社区热门论文)43HeRA:面向多模态大语言模型的逐头表示对齐方法
08:00HuggingFace Daily Papers(社区热门论文)35SingGuard:政策自适应多模态LLM护栏模型系列
08:00HuggingFace Daily Papers(社区热门论文)43ABACUS:适配统一基础模型以桥接图像计数理解与生成
08:00HuggingFace Daily Papers(社区热门论文)60VeriEvol: 通过可验证进化指令扩展多模态数学推理
08:00HuggingFace Daily Papers(社区热门论文)42语义浏览:图像生成的可控多样性
08:00HuggingFace Daily Papers(社区热门论文)36ChartWalker:面向跨图表RAG任务的基准框架
07:04elvis58Elvis Saravia:从精细提示转向循环+口述+验证器的新范式
02:06Rohan Paul51乌克兰50万小时无人机影像用于AI训练
00:09Berryxia.AI61苹果换帅后2027年产品规划:带摄像头AirPods、折叠屏iPhone与二十周年Pro机型
6月21日周日
08:00HuggingFace Daily Papers(社区热门论文)55交错式语音语言模型在文本中隐式工作
08:00HuggingFace Daily Papers(社区热门论文)61Look Light, Think Heavy:多模态Chain-of-Thought推理能做什么、不能做什么
08:00HuggingFace Daily Papers(社区热门论文)37Libretto:赋予LLM智能体音乐结构感知
04:08HuggingFace Daily Papers(社区热门论文)51Lexical Consensus:人工智能体基于具身经验的词汇习得与共享意义
6月20日周六
21:50OpenBMB39@aijoey 用 MiniCPM-V 4.6 搭建视觉智能体安全监控 demo
21:00IT之家(RSS)52高通 CEO 安蒙:智能眼镜市场有望比肩手机
17:23🚨 AI News | TestingCatalog55ClickUp Brain2 新增 Artifacts 功能
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 3 条X:Vista (@vista8)公众号:火山引擎X:卡兹克 (@Khazix0918)
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
12:20
公众号:数字生命卡兹克
75
火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7,Agent大幅进化,多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token(输入/输出),上下文256k,已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测,可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出,Seedance 2.5支持30秒原生直出。Seedream 5.0 pro(7月初上线)及全新音频生成模型即将发布。

智能体多模态模型发布编码
关联讨论 3 条X:Vista (@vista8)公众号:火山引擎X:卡兹克 (@Khazix0918)
12:15
小互@xiaohu
59
字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台

字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型,可一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台,允许用户使用官方授权的 IP 电影版权进行创作并参与分成。

多模态模型发布视频
12:14
Berryxia.AI@berryxia
58
字节跳动发布视频生成模型 Seedance 2.5,版本从 2.0 直接跳升至 2.5,预示大幅迭代。新版本支持单段 30 秒原生视频生成,无需拼接;同时可输入最多 50 个全模态参考素材,极大提升创作素材容量。定价尚未公布,但用户预期可能大幅上涨。

Berryxia.AI: 字节已经发布了Seedance 2.5 了,直接起跳就是半个点,都不是0.1 说明这次的迭代应该蛮大的。 还挺期待的看看到底有哪些变化,应该有很多产品都会第一时间接入自家的产品了。 开始吧~·

多模态模型发布视频
12:13
HuggingFace Daily Papers(社区热门论文)
46
密集可验证奖励框架 DR-MV3D:全局地图与局部视图驱动的多视角 3D 推理

多视角 3D 视觉问答(MV3D-VQA)需整合局部观测为 3D 场景并规划信息视角。现有多模态大模型仅用答案级稀疏监督,导致跨视角推理不一致。DR-MV3D 提出地图级密集可验证奖励框架,将任务分解为异心全局地图构建、问题条件化视角轨迹规划、自我中心定位回答预测。引入全局一致性奖励(利用冻结 3D 视觉基础模型 VGGT 和 SAM3 对齐预测地图)和局部轨迹奖励(监督有序视角选择),并通过轨迹级策略优化(GRPO)训练全流程。在 MindCube、VSI-Bench 和 BLINK 上优于强多图像基线,验证过程级密集监督的有效性。

具身智能多模态论文/研究
11:14
Berryxia.AI@berryxia
63
百度开源 Unlimited OCR:单次解析多页 PDF,疑似挖角 DeepSeek 技术骨干

百度在 HuggingFace 开源 Unlimited OCR 模型,核心卖点为 One-Shot Long-Horizon Parsing(单次长时解析),一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA(参考滑动窗口注意力)模拟人类抄写时的注意力模式——每个 token 看到完整图像,输出端只维护前 128 个状态,32K 上下文,KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系,核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

DeepSeek多模态开源/仓库模型发布
09:44
小互@xiaohu
29
字节火山引擎大会发布 Seedance2.5、豆包 Seed2.1 等新模型

字节跳动今日在 2026 火山引擎大会上发布 Seedance2.5,同时推出全新豆包 Seed2.1 模型,声称能力达 Opus4.6 水平,以及新款图像模型 Seeddream 5.0。具体参数、性能分数及定价信息尚未公布。

产品更新图像生成多模态视频
08:31
向阳乔木@vista8
48
百度开源 Unlimited OCR:3B参数500M激活性能惊艳

百度开源 Unlimited OCR 模型,仅3B参数、500M激活参数,在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术,并附带了技术解读和开源地址。

多模态开源/仓库端侧
08:13
Berryxia.AI@berryxia
73
百度开源 Unlimited-OCR,R-SWA 实现单次多页 PDF 解析

百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

Berryxia.AI: 这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...

多模态开源/仓库模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
51
Tailor-Bench:修剪视觉世界建模评估的长尾

Tailor-Bench评估视觉世界模型模拟非常规物理交互的能力,设计三种渐进难度场景:常规(常见工具-任务组合)、非常规(属性兼容替代品)、不可能(违反属性工具)。在统一协议下,预测生成与描述生成分别测试无引导推理与忠实实现。实验表明模型性能从常规到非常规再到不可能逐步退化,暴露物理建模的长尾差距。失败分析显示图像模型无法实现正确状态变化,视频模型还有时间不一致,说明模型依赖表面视觉模式而非内化物理原理。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
Wan-Streamer v0.1: 端到端实时交互基础模型

Wan-Streamer v0.1 是原生流式、端到端的交互基础模型,在单一 Transformer 中统一建模语言、音频和视频的输入与输出,序列表示为交错视觉、音频、文本 token,通过块因果注意力实现增量流式。无需外部 VAD、ASR、TTS、视频生成等模块,感知、推理、生成、响应时序等由单一模型联合学习。整套栈围绕流式化重新设计,支持 25 fps 下 160 ms 的流式单元。模型侧响应延迟约 200 ms,结合 350 ms 双向网络延迟后总交互延迟约 550 ms,实现亚秒级全双工音视频通信。

多模态模型发布视频语音
08:00
HuggingFace Daily Papers(社区热门论文)
44
IV-CoT:面向结构感知文本到图像生成的隐式视觉思维链

统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架,将视觉条件查询分解为结构查询与语义查询的级联:结构查询先形成潜在视觉计划,语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息,推理时无需草图或中间解码,单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。

图像生成多模态推理论文/研究
05:07
elvis@omarsar0
48
天哪!Fugu Ultra 在这些 3D 渲染中表现得极其出色。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新多模态
01:35
Google AI Developers@googleaidevs
62
Google Interactions API 正式可用:统一端点、稳定 schema、Managed Agents 等新功能

Google Interactions API 现已正式可用(GA),通过统一 /interactions 端点提供稳定 schema,同时支持模型推理与自主智能体。关键更新包括:Managed Agents — 单次 API 调用即可启动安全远程 Linux 沙箱进行代码执行与网页浏览,默认使用 antigravity-preview-05-2026 智能体或自定义指令;简化 schema — 每个操作作为独立 step 形成线性流;后台执行 — 设置 background=True 实现异步运行并轮询结果;扩展工具生态 — 原生支持 Computer Use、File Search、Google Maps,新增 Gemini API Docs MCP server 与 gemini-interactions-api Skill;媒体生成 — 基于 Google Search 的 Nano Banana 2 图像生成、Lyria 3 音乐生成及多说话人 TTS。

智能体Google产品更新多模态
01:12
Berryxia.AI@berryxia
66
百度开源Unlimited-OCR:可一次性处理数百页文档

百度PaddlePaddle在HuggingFace发布Unlimited-OCR,核心创新R-SWA(Reference Sliding Window Attention)使解码时KV Cache保持恒定,避免随页数爆炸。该模型可一次性处理数百页文档,速度和稳定性优于逐页处理。在OmniDocBench上得分93%,比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底,直接理解整篇文档结构与布局。

Adina Yakup: Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...

DeepSeekHugging Face多模态开源/仓库
6月22日
23:42
SenseTime@SenseTime_AI
50
商汤SenseTime感谢YouTuber xCreate拆解SenseNova U1,展示文本-图像推理与信息图表生成能力

商汤SenseTime发布推文,感谢YouTuber xCreate对SenseNova U1模型的详细拆解,重点展示其文本-图像交错推理(text-image interleaved reasoning)和信息图表(infographic)生成能力。推文附有逐步指南,指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。

GitHubHugging Face图像生成多模态
23:41
AK@_akhaliq
32
PerceptionDLM 平行区域感知与多模态扩散语言模型
多模态论文/研究
22:56
Chubby♨️@kimmonismus
55
据X用户Kim消息,本周四将发布多个新GPT模型,包括GPT-5.6、5.6 Pro以及双向语音模型GPT-Bidi-1。早期测试显示语音模型表现卓越。引用推文指出,5.6 Pro在正确提示词下可完成任意任务,GPT-Bidi-1知识截止于2025年8月,自GPT-4o时代以来备受期待。其余GPT-5.6模型此前以kindle alpha版本测试,预计将推出新checkpoint。

Chetaslua: This Thursday 🤞 We already tested 5.6 pro a lot ( this model is special like with right prompt it can do anything) GPT-...

OpenAI多模态模型发布
22:11
Hugging Face:Blog(RSS)
精选69
PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face多模态模型发布部署/工程

推荐理由:OCR模型并没有因为VLM的兴起而消失,PP-OCRv6用1.5M到34.5M参数覆盖50种语言,对需要轻量、准确OCR的产品来说,这是一个务实的选择。
22:05
IT之家(RSS)
63
生数 Vidu Q3 多模态视频大模型上线华为云 MaaS,主打文/图生视频一体化成片

6 月 22 日,生数科技多模态视频生成大模型 Vidu Q3 上线华为云 MaaS,面向企业营销、内容制作等行业提供视频生成服务。Vidu Q3 是全球首个“为剧而生”的视频大模型,支持 16 秒声画同出、1080P 画质,具备稳定多镜头叙事与精准切镜能力及多国语言文字渲染。本次上线两个版本:Vidu Q3 Turbo 极速版包含 T2V、I2V、H2V、R2V 四种能力,推理快、成本低;Vidu Q3 Pro 专业版包含 T2V、I2V、H2V 三种能力,画面细节最优,最高支持 4K 分辨率,适合广告大片等精品创作。

多模态模型发布视频
21:26
Chubby♨️@kimmonismus
38
Sonnet 5 首次亮相。模型速度极快,且未使用参考图。看来下周会很忙。Kim 评论称,若测试确认,这将是一次很棒的发版。

Jayden Davis: BREAKING: First Look at Sonnet 5 🚨 SVG of Nintendo Switch 2 This model is hella fast and it is impressive since I didn'...

Anthropic图像生成多模态模型发布
18:09
Artificial Intelligence News(RSS)
44
欧莱雅与OpenAI合作,将美宝莲虚拟试妆引入ChatGPT

欧莱雅在VivaTech 2026宣布与OpenAI合作,将美宝莲虚拟试妆(基于ModiFace AR技术)直接集成到ChatGPT。合作覆盖消费者购物工具、产品发现、广告试点及内部AI应用。欧莱雅还将使用OpenAI的生命科学推理模型GPT-Rosalind,从理肤泉品牌开始研究皮肤微生物组,以开发新护肤品。OpenAI模型将用于欧莱雅内部生成式AI内容平台CreAItech,支持图像和视频生成。欧莱雅称2025年电商销售占比超30%,已有7.3万名员工接受生成式AI培训。

OpenAI多模态行业动态
17:05
IT之家(RSS)
同事件精选71
让大模型从"一问一答"走向"边看边说",京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,这是全球首个全栈开源的 interaction 模型和系统,获 vLLM-Omni day-0 原生支持。该模型具备三重突破:主动判断(持续观察视频流自主决定何时说话)、实时响应(面向正在发生的视频流即时响应)、适时智能体委托(复杂任务转交后台模型,前台继续观察)。支持摄像头、直播流、监控流等视频输入,以及语音输入输出、可视化界面、长期记忆和 vLLM 部署。在 58 个真人盲评案例中,对比豆包视频通话助手总体胜率 77.6%,对比 Gemini 视频通话助手总体胜率 87.9%。

多模态模型发布视频
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》
推荐理由:京东开源了首个全栈实时视频交互模型,让大模型能持续观察并主动响应,开发者可以直接用代码搭建安防、导购等实时AI助手,实用性很强。
15:05
IT之家(RSS)
62
阿里巴巴发布视频生成模型 HappyHorse 1.1

阿里巴巴今日发布视频生成模型 HappyHorse 1.1,在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度系统性升级。技术规格与 1.0 版本一致,单次生成 3 到 15 秒,支持 720p 和 1080p 分辨率及自由宽高比。HappyHorse 官网、阿里云百炼和千问云均已接入最新版本。同日,HappyHorse 联合虎鲸文娱集团启动“Horsepower”AI 影像大赛,优胜者可获百万商单合作,张纪中等担任评委。

多模态模型发布视频
08:00
HuggingFace Daily Papers(社区热门论文)
43
HeRA:面向多模态大语言模型的逐头表示对齐方法

HeRA在单个注意力头级别执行跨模态对齐,基于柏拉图表示假说,利用互K近邻(MKNN)度量定义对比损失,作为匹配局部拓扑结构的可微代理。训练时选择MKNN对齐分数最低的注意力头进行对齐,发现对齐最差的头反而带来最大收益。在多个MLLM和18项基准上的评估表明,HeRA一致提升视觉密集任务性能,并通过自然抑制对语言先验的过度依赖,有效缓解视觉幻觉。代码已开源。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
35
SingGuard:政策自适应多模态LLM护栏模型系列

SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列,可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式,并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准,含56,340个样本,覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族(35个数据集)上均取得平均F1 SOTA;动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。

arXivGitHub多模态推理
08:00
HuggingFace Daily Papers(社区热门论文)
43
ABACUS:适配统一基础模型以桥接图像计数理解与生成

ABACUS是一个统一的视觉语言模型,无需基准特定训练即可处理对象计数、人群计数、指代表达式计数和计数忠实的图像生成。它基于3B参数基础模型,通过三项创新适配目标定位:基于目标图的密度感知自适应缩放实现空间定位;GRPO边界感知计数策略消除裁剪边界错误;循环一致GRPO策略让理解分支自我批判生成输出,无需外部标注缩小理解-生成差距。在七个基准上取得SOTA,超越任务专用专家和更大通用模型。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
VeriEvol: 通过可验证进化指令扩展多模态数学推理

VeriEvol 是一个迭代框架,将多模态数学推理的奖励可靠性问题转化为可验证的数据构造问题。其类型感知进化模块将低难度图像-问题种子改写为更难的图像化提示;HTV-Agent 验证器在多项反证失败后才接受答案。在五个视觉数学基准上,将进化 SFT 数据从 10K 扩展至 250K 样本,平均准确率从 35.42 升至 54.73;固定 backbone、SFT 初始化和 GRPO 配方后,VeriEvol 相比未进化 RL 基线累积提升 +3.88,其中进化提示贡献 +1.82,验证器贡献 +2.06。项目开源全部提示、数据、模型、代码及验证轨迹。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
语义浏览:图像生成的可控多样性

现有文本到图像模型虽保真度高,但生成样本单一。现有多样性方法往往产生偶然变化而非有意义的设计选择。本文提出可控多样性方法“语义浏览”,让用户沿可解释变化轴系统遍历结构化图像画廊。核心思路是将语义决策与像素生成分离,直接在文本层面诱导多样性:利用视觉语言模型(VLM)操作完整场景上下文,并通过智能体工作流强制执行与原始提示一致的结构化变化。该方法生成多样且可导航的设计空间,每种变化对应一个可理解的语义决策。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
36
ChartWalker:面向跨图表RAG任务的基准框架

ChartWalker是一个面向跨图表检索增强生成(RAG)任务的新框架。它采用层次知识图谱构建方法,按粒度组织实体与关系,并设计结构感知采样算法生成语义一致的多跳推理路径,显式控制查询难度与粒度,以解决现有基准中查询与证据词汇重合度高、推理链逻辑不一致的问题。基于该框架发布ChartWalker-Bench基准,覆盖多领域与多类型跨图表查询。主流RAG范式评估显示显著性能差距,同时提供ChartWalker-Agent基线辅助分析。

检索增强多模态论文/研究
07:04
elvis@omarsar0
58
Elvis Saravia(DAIR.AI)称他如今很少直接向智能体提示,而是依靠循环(loops)让智能体自主完成大部分工作。他转而花更多时间编写验证器(verifiers),通过文本、音频、图像提供丰富指令弥补智能体知识缺口。引用推文补充,2026年6月起应放弃手动编辑提示词,改用语音听写10分钟,将碎片、警示、示例和氛围直接灌给模型--大语言模型最擅长从语言中重构潜在意图。这标志着AI智能体交互正从精细提示转向循环+口述+验证器的新范式。

Guinness Chen: Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...

智能体多模态大佬观点
02:06
Rohan Paul@rohanpaul_ai
51
乌克兰50万小时无人机影像用于AI训练

无人机能生成AI实验室无法从网络抓取的真实数据。来自乌克兰的50万小时真实战斗无人机全动态视频(含烟雾、天气、地形、阴影、热信号及快速移动等复杂条件)正被打包用于AI模型训练。这类物理世界转换而成的标注视频将大幅缓解AI训练面临的数据墙问题。

多模态数据/训练行业动态
00:09
Berryxia.AI@berryxia
61
苹果换帅后2027年产品规划:带摄像头AirPods、折叠屏iPhone与二十周年Pro机型

据Bloomberg报道,苹果计划2027年推出三款产品:内部代号B798的带摄像头AirPods、第二代折叠屏iPhone及纪念iPhone诞生二十周年的特别版Pro机型。最激进的是AirPods,在耳机柄内置计算机视觉摄像头,可捕捉用户视野,苹果将其定位为“AI在身体上的下一个战场”,使耳机从音乐工具变为AI视觉接口。新CEO John Ternus的首要任务被指是重整苹果设计团队,为产品线变革铺路。

Mark Gurman: Power On: The No. 1 priority for new Apple CEO John Ternus should be revamping the company's design team and reprioritiz...

多模态端侧行业动态
6月21日
08:00
HuggingFace Daily Papers(社区热门论文)
55
交错式语音语言模型在文本中隐式工作

通过logit lens分析不同家族和规模的交错式语音语言模型,发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列,随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练,交错数据和文本LM初始化是诱发该机制的关键因素。

多模态论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
61
Look Light, Think Heavy:多模态Chain-of-Thought推理能做什么、不能做什么

系统评估12个多模态任务(14个非推理模型、8个推理模型),发现:①CoT并非免费午餐——在视觉定位、物体计数等感知任务中反而降低性能,在数学、科学、多图像推理中有效;②现有开源多模态推理模型相比原始模型整体提升有限,可能因过度侧重数学推理而牺牲其他能力;③视觉推理是瓶颈,模型呈现“Look Light, Think Heavy”模式——语言反思起伏,视觉反思持续减弱,缺乏全程深度视觉内省。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
37
Libretto:赋予LLM智能体音乐结构感知

Libretto是一个面向LLM智能体的符号音乐生成与修订框架,采用包含显式onset槽、声部和小节组织的LLM原生语法,并在节奏、和声、旋律、织体、形式与变奏的语料校准统计空间中评估每首作品。同一结构轴支持检索、诊断、复制风险控制及迭代自修订。在填空生成、参考引导整曲生成、渐变变形与教育音乐生成等任务中,Libretto将符号音乐从原始token序列转化为语言模型智能体可测量、可编辑的对象。

智能体多模态论文/研究
04:08
HuggingFace Daily Papers(社区热门论文)
51
Lexical Consensus:人工智能体基于具身经验的词汇习得与共享意义

Lexical Consensus 是一个研究AI智能体通过具身经验习得、稳定并运用词汇意义的框架。使用冻结DINOv2视觉嵌入、Carroll式假词和可解释词汇学习器,实验发现感知连贯性梯度主导学习效果:原生类别最易习得,远析取概念接近随机。CIFAR-100解离实验证实,感知距离显著预测习得准确率(partial R²=0.245, p<1e-7),语义距离无显著解释力。双向评估显示,样例机制在标签到图像检索中优于质心原型,命名与检索是分离的能力。控制实验表明,冻结的感知几何同时支撑了词汇基础并限制了无需表征适应即可习得的范围。

arXiv多模态论文/研究
6月20日
21:50
OpenBMB@OpenBMB
39
@aijoey 用 MiniCPM-V 4.6 搭建视觉智能体安全监控 demo

@aijoey 用 MiniCPM-V 4.6 搭建了视觉智能体安全监控 demo:四个 CCTV 实时画面,模型观察近期帧窗口,判断活动是否正常,仅在识别到真实事件时调用 raise_alert(reason, severity)。模型持续将场景分类为“常规/无紧急”,只在高速公路出现警车蓝灯时触发警报,推理为“警车蓝灯亮起,可能表示紧急情况”。该演示展示了小 VLM 超越图像描述、实现实际智能体行为的潜力。

Joey: Built a vision-agent security monitoring demo with MiniCPM-V 4.6. @OpenBMB Four CCTV style feeds run on a live clock. Mi...

智能体多模态教程/实践
21:00
IT之家(RSS)
52
高通 CEO 安蒙:智能眼镜市场有望比肩手机

高通 CEO 安蒙认为,AI 智能体将改变应用和设备使用方式。他设想的入口之一是内置摄像头和显示屏的智能眼镜,用户告诉数字助理需求,AI 智能体即可协调多个应用完成流程。安蒙指出应用不会消失但会变化,智能体将成为新应用。苹果 Siri、三星 Bixby 等数字助理能力持续提升。未来手机和新设备将围绕 AI 智能体重新设计。高通正参与 40 多种 AI 设备设计,包括智能首饰、带摄像头的耳机、智能胸针和手表。安蒙最看好智能眼镜,预计其规模最终可与智能手机相当——去年全球智能手机出货超 12 亿部。

智能体多模态大佬观点端侧
17:23
🚨 AI News | TestingCatalog@testingcatalog
55
ClickUp 将通过 Brain2 添加 artifacts 👀 > 它将能够创建幻灯片、原型、网站或仪表板。 > Brain 从工作区上下文中提取信息,因此输出基于真实项目数据 > Artifacts 在频道内内联渲染,并保持完全交互。 当要求 Brain 制作演示文稿时,它现在将在线程中直接返回一个已完成、专业、可导航的幻灯片组,随时可以分享或放入任务中。
产品更新多模态
‹ 上一页
1…45678…50
下一页 ›