全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

6月25日周四

11:58IT之家（RSS）57苹果 iOS 27 独立 Siri 应用默认调用 Siri AI，可切换 ChatGPT

11:58IT之家（RSS）58交通运输部等：开展智能驾驶"端到端"大模型研发与测试

11:12HuggingFace Daily Papers（社区热门论文）52DomainShuttle：面向开放域主题驱动的文本到视频生成

10:18Berryxia.AI74PaddleOCR PP-OCRv6 上架 HuggingFace

09:58IT之家（RSS）56快手系芯片公司"凌川科技"用上韬定律，全国产 3D 堆叠芯片完成流片

08:00HuggingFace Daily Papers（社区热门论文）56RedVox：语音模型在跨语言场景中的安全性与公平性差距

08:00HuggingFace Daily Papers（社区热门论文）51LiveEdit：面向实时扩散的流式视频编辑

08:00HuggingFace Daily Papers（社区热门论文）48Qwen-Image-2.0-RL 技术报告

08:00HuggingFace Daily Papers（社区热门论文）37DanceOPD：面向流匹配模型的on-policy生成场蒸馏框架

08:00HuggingFace Daily Papers（社区热门论文）54ViQ：任意分辨率的文本对齐视觉量化表示

08:00HuggingFace Daily Papers（社区热门论文）51面向鲁棒视频理解的置信感知工具编排

08:00HuggingFace Daily Papers（社区热门论文）48机器人控制的上下文世界建模

08:00HuggingFace Daily Papers（社区热门论文）40EO-WM：物理信息驱动的概率地球观测预测世界模型

07:58IT之家（RSS）542026年Q1全球智能眼镜出货量同比增83%，AR与无显示眼镜领涨

06:13🚨 AI News | TestingCatalog60Google Flow Agent 现可基于街景生成图片视频

04:04MarkTechPost（RSS）57Gradium 发布实时语音翻译模型 stt-translate 和 s2s-translate

01:07Google DeepMind：Blog（RSS）70精选Gemini 3.5 Flash 引入 computer use 功能

00:23elvis64Elvis Saravia：完全用语音与AI智能体交互，而非打字提示

00:18Rohan Paul64Genspark Design 发布：由 Claude Opus 4.7 驱动的可编辑设计系统

6月24日周三

23:29Hacker News 热门（buzzing.cc 中文翻译）78Krea 2 技术报告

23:17Runway57Runway 推出单图广告本地化功能

22:41OpenBMB26MiniCPM-V 4.6 本地照片助手，注重隐私

19:31OpenRouter：Announcements（RSS）73精选OpenRouter推出统一图像API

18:16Orange AI54Cola Seed 2.1 Pro 上线，最强多模态模型

17:55The Decoder：AI News（RSS）49Mistral 发布 OCR 4 模型：在盲测中 72% 情况下超越竞品

16:44IT之家（RSS）39荣耀产品线总裁方飞：7月将发布下一代终端操作系统AgenticOS

16:15meng shao50邵猛用 TRAE Work 测试豆包2.1 Pro，视觉还原和前端设计能力超预期

15:10OpenBMB65精选MiniCPM-V 4.6 在 Apple Core AI 上高速运行

14:50Alibaba Cloud60阿里云发布Qwen3.7-Plus多模态智能体

13:12AYi70用户丢截图给 StepFun step-3.7-flash，2分多钟生成可用的文章头图生成器

12:45Baidu Inc.59百度发布 Unlimited-OCR 演示

12:42IT之家（RSS）74精选OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

11:55HuggingFace Daily Papers（社区热门论文）54FlowR2A：多模态驾驶规划的奖励到动作分布学习

11:51小互61百度开源 Unlimited OCR：用 R-SWA 技术实现"一次推理数十页"文档抄写

10:49HuggingFace Daily Papers（社区热门论文）51CF-World：一个用于测试T2I模型因果推理的反事实基准

10:49HuggingFace Daily Papers（社区热门论文）57ReMMD：面向多模态虚假信息检测的现实多语言多图像智能体验证框架

10:27IT之家（RSS）62火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性

10:20Alibaba Cloud13阿里云FFA2026议程公布，Apache Fluss 1.0发布

09:10公众号：豆包（字节）77精选今天，豆包正式推出专业版

09:02向阳乔木30Doubao Seed 2.1 多模态能力极强

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月25日

11:58

IT之家（RSS）

57

苹果 iOS 27 独立 Siri 应用默认调用 Siri AI，可切换 ChatGPT

iOS 27 引入独立 Siri 应用，采用聊天机器人风格，用户可在文本框输入发起 AI 聊天，支持上传图片和文件附件、查看历史对话。该应用默认调用 Siri AI，用户需长按输入框并点击“Ask…”按钮，在弹出的选择窗口中手动切换至 ChatGPT。目前仅支持 Siri AI 和 ChatGPT 两个选项，且关闭并重新打开应用后选择会回到 Siri，设置中暂不支持永久将 ChatGPT 设为默认模型。

OpenAI 产品更新多模态

11:58

IT之家（RSS）

58

交通运输部等：开展智能驾驶"端到端"大模型研发与测试

6月25日，交通运输部等五部门印发《“人工智能+交通运输”典型应用场景创新行动方案》。方案提出开展智能驾驶“端到端”大模型研发与测试，面向公路货运、园区运输等场景推进智能测评技术研发与虚实结合测试场建设。依托公路感知设施，利用多模态大模型提升路网全要素感知，开展交通流态势推演与疏导策略自动生成。鼓励采用视觉大模型、智能机器人实现基础设施智能巡检，推动智能列车与运行控制系统研发，探索公路自由流收费“无感通行”新模式。

多模态政策/监管

11:12

HuggingFace Daily Papers（社区热门论文）

52

DomainShuttle：面向开放域主题驱动的文本到视频生成

DomainShuttle 提出一种面向开放域主题驱动文本到视频生成（S2V）的方法，支持域内（高保真保留参考主体特征）和跨域（允许主体无关属性随文本提示灵活变化）两种场景。该方法引入 Domain-MoT 模块，通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模；提出 Video-Reference DualRoPE 方案，将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模；设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明，DomainShuttle 在多种开放域场景中相比现有方法实现显著提升，兼具高主体保真度与生成灵活性。

arXiv 多模态视频论文/研究

10:18

Berryxia.AI@berryxia

74

PaddleOCR PP-OCRv6 上架 HuggingFace

PaddleOCR 的 PP-OCRv6（对应 PaddleOCR 3.7）正式上线 HuggingFace，精度进一步提升，并新增 transformers 和 ONNX Runtime 两个推理后端。用户可通过统一 API 在不同后端之间无缝切换，无需大幅修改代码。PP-OCRv6 是工业界广泛使用的开源 OCR 方案，此次上架 HF 并支持多后端，降低了工程接入门槛，尤其利好希望在 transformers 生态中直接使用高性能 OCR 的开发者。

Cheng Cui: PP-OCRv6 is now on @HuggingFace! 🎉 Not just better accuracy- PaddleOCR 3.7 also adds transformers & ONNX Runtime backen...

Hugging Face 产品更新多模态开源生态

09:58

IT之家（RSS）

56

快手系芯片公司"凌川科技"用上韬定律，全国产 3D 堆叠芯片完成流片

人工智能芯片公司凌川科技近日完成数亿元A+轮融资，由啟赋资本领投，新国都、金浦投资、朝晖资本、百度风投等参与。该公司由快手集团与北京市人工智能基金联合发起，前身为快手异构计算与芯片事业部，自研SL200视频智能SOC芯片已在快手部署数万颗、服务7亿用户。其采用全国产3D堆叠技术的下一代芯片已于4月完成流片，针对散热、一致性、可靠性等关键问题做了设计，是韬（τ）定律面向互联网数据中心应用的具体呈现。

多模态推理行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

56

RedVox：语音模型在跨语言场景中的安全性与公平性差距

语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准，覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示，即使在非对抗性条件下，漏洞依然存在；在非英语语言中问题更严重，且当请求来自语音输入时风险被放大。通过调查数据贡献者，研究还揭示了语音数据收集中的个人隐私挑战，指出自然语音安全研究面临更广泛的社会技术难题。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

LiveEdit：面向实时扩散的流式视频编辑

流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架，通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器，实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算，将推理速度提升至12.66 FPS，在流式基线中取得最优视觉质量，适用于交互式与增强现实场景。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Qwen-Image-2.0-RL 技术报告

Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation（OPD）提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型，覆盖文生图的对齐、美学、肖像保真度，以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示，Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84（+2.61），文生图 Elo 1193（+78），图像编辑 Elo 1349（+93）。

图像生成多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

37

DanceOPD：面向流匹配模型的on-policy生成场蒸馏框架

DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架，将每个样本路由至单一能力场，查询低噪声学生诱导状态，以速度MSE作为训练目标，使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源（包括无分类器指导等operator定义的速率场），在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力，同时保持锚点生成质量不受损。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

ViQ：任意分辨率的文本对齐视觉量化表示

ViQ 是一种视觉量化表示框架，通过两阶段学习（文本对齐预训练与特征离散化）在离散表示中平衡语义与细节，并支持原生分辨率输入。预训练借助语言模型增强语义监督，离散化阶段采用近端表示学习逐步压缩特征空间，结合位置感知多头量化实现任意分辨率处理。多模态任务上，ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力，同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速，适用于不同大语言模型和训练方案。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

面向鲁棒视频理解的置信感知工具编排

视频推理模型假设每帧可靠，在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段：通过统一接口组织异构视觉工具，每个工具接收子查询和经可靠性-相关性评分筛选的可信帧，返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合（高/中/低）与置信-成本GRPO奖励，联合优化正确性、可靠性和效率。在八个任务上，Robust-TO清洗输入准确率56.4%，超过最强开源基线10.6%p和Gemini-2.5-Pro（46.2%）；五种腐蚀下保持54.3%，高出最强开源基线5.8%p，且准确率下降最小。

智能体具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

机器人控制的上下文世界建模

传统VLA模型因仅依赖当前观测和语言指令，难以泛化到相机视角或机器人形态变化的新场景。In-Context World Modeling（ICWM）将系统辨识作为上下文适应问题：机器人通过短暂自生成、任务无关交互历史，自主推断系统变量，从而理解当前系统的世界动态。ICWM利用上下文窗口捕获系统运行方式，无需参数更新即可适应新配置。在仿真和真实机器人上的实验表明，ICWM在新相机视角下显著优于标准VLA基线。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

40

EO-WM：物理信息驱动的概率地球观测预测世界模型

EO-WM是一种基于视频扩散Transformer的多光谱地球观测预测模型，将天气作为条件信号，稀疏观测与未观测地表状态视为不确定性来源。模型通过物理信息条件框架区分气候基线、天气异常和累积物理应力信号（如持续高温与干旱胁迫），并引入极端夏季基准和季节性匹配对基准，分别评估极端天气下植被退化预测的严重性感知能力及天气强迫变化下的响应保真度。实验表明，EO-WM在NDVI下降幅度预测上相对误差降低5.63%，方向命中率相对提升7.80%，同时保持标准像素级指标竞争力。模型与基准将开源。

多模态数据/训练论文/研究

07:58

IT之家（RSS）

54

2026年Q1全球智能眼镜出货量同比增83%，AR与无显示眼镜领涨

市场调查机构CounterPoint Research报告显示，2026年第一季度全球智能眼镜出货量同比增长83%。其中VR眼镜出货量同比下降17%，AR眼镜同比增长136%，无显示智能眼镜同比增长210%。AR眼镜领域，Birdbath/平面棱镜方案份额从82%降至58%，波导方案从18%升至42%。Birdbath市场中RayNeo以41%份额领先，VITURE以34%紧随其后。波导AR市场中Rokid以41%居首，Meta占38%。无显示智能眼镜方面，Meta全球份额升至接近84%。中国市场由小米（含米家）和阿里巴巴引领。

多模态端侧行业动态

06:13

🚨 AI News | TestingCatalog@testingcatalog

60

Google Flow Agent 现可基于街景生成图片视频

Google Flow Agent 新增 Google Maps Street View 实景锚定功能，支持根据用户提示中的地名或街道地址，为图片和视频生成提供真实世界细节。用户需启用 Agent 模式并在提示词中包含具体地点。目前该功能仅限美国街景位置可用。

Google Flow: Google Flow 🤝 @GoogleMaps Street View Your agent in Google Flow can now generate images and videos grounded in @GoogleM...

Google 产品更新图像生成多模态

04:04

MarkTechPost（RSS）

57

Gradium 发布实时语音翻译模型 stt-translate 和 s2s-translate

Gradium 发布两款实时语音翻译模型：stt-translate（语音转文本）和 s2s-translate（语音转语音）。两者覆盖英语、法语、德语、西班牙语、葡萄牙语共 5 种语言、20 个语言对，将转录和翻译合并为一步，传统 3 模型级联缩减为 2 模型。stt-translate 在 BLEU 和 MetricX 指标上领先 gemini-3.5-live-translate，BLEU 领先 gpt-realtime-translate，MetricX 可比。s2s-translate 平均延迟 3.0s，优于 gpt-realtime-translate（3.6s），略逊于 gemini-3.5-live-translate（2.9s）。支持从目录选择输出语音或克隆自己的声音，通过单条双工 WebSocket 传输。

产品更新多模态语音

01:07

Google DeepMind：Blog（RSS）

精选70

Gemini 3.5 Flash 引入 computer use 功能

Google DeepMind 宣布，computer use 现作为内置工具集成于 Gemini 3.5 Flash，开发者可构建跨浏览器、移动端和桌面的智能体，实现视觉感知、推理与操作。此前该功能仅以独立模型形式存在于 Gemini 2.5。3.5 Flash 已支持函数调用及 Search、Maps 等内置工具，新增的 computer use 可提升持续软件测试和跨专业应用知识工作等长周期企业自动化任务的性能。安全方面采用针对性对抗训练，并可选配两项企业防护系统：要求用户确认敏感操作，以及在检测到间接 prompt 注入时自动停止任务。可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。

智能体 DeepMind Google 产品更新

关联讨论 2 条Hacker News 热门（buzzing.cc 中文翻译）X：Google AI for Developers (@googleaidevs)

推荐理由：把 computer use 能力塞进轻量级的 Flash 模型，意味着在浏览器里跑视觉 agent 的成本会大幅降低，做企业自动化的团队可以立即试起来，安全措施也给了落地信心。

00:23

elvis@omarsar0

64

Elvis Saravia：完全用语音与AI智能体交互，而非打字提示

作者从打字提示转向完全用语音与AI智能体交互，发现通过音频能提供更丰富的细节，语音越长越详细，结果越好。这种交互方式还能并行化更多工作，让智能体执行更长时间任务。作者开发了新功能：录制屏幕、截图、追踪鼠标动作、用语音标注解释智能体难以处理的设计和精确功能开发。结论是提示模态越丰富，智能体结果越可靠，虽然消耗更多token成本更高，但可靠性值得。这些模式可存储为可重用技能，效果天差地别。

智能体多模态大佬观点

00:18

Rohan Paul@rohanpaul_ai

64

Genspark Design 发布：由 Claude Opus 4.7 驱动的可编辑设计系统

Genspark 推出 Genspark Design，由 Claude Opus 4.7 驱动。用户可将粗糙提示词转化为可编辑的 UI 原型、海报、视频、HTML 动画和工作代码。设计作为可复用系统，支持保存 Logo、颜色、字体、间距和组件并跨资产应用。核心是分层输出：文本、图像、背景、组件保持分离，用户可直接修改设计本身，无需要求模型重新生成。支持上传 Figma 文件或保存设计，一键生成可交付代码（基于 Genspark Code），无需设计背景即可使用。

Genspark: 🎨 Introducing Genspark Design The next-gen AI for design and creation, powered by Claude Opus 4.7. From rough idea to p...

产品更新多模态编码

6月24日

23:29

Hacker News 热门（buzzing.cc 中文翻译）

78

Krea 2 技术报告

Krea 2 是一系列基础模型，兼顾审美多样性与创意控制。采用扩散 Transformer（DiT）架构，集成 iREPA、改进 VAE 和 Qwen3-VL，通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统，支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十，独立实验室模型中排名第二。

Hugging Face 图像生成多模态开源生态

关联讨论 1 条X：Krea AI (@krea_ai)

23:17

Runway@runwayml

57

Runway 新功能，现可本地化广告。一张图片输入，任意语言输出。输入单一广告，即可获得适用于每个市场的版本。全部一键完成。

产品更新图像生成多模态

22:41

OpenBMB@OpenBMB

26

Nice work 👍👍@TechlatestNet Telegram 上的本地照片助手，搭载 MiniCPM-V 4.6，无需云端 OCR，正是注重隐私的用户所需。

TechLatest.Net: Most AI assistants can read text, write code, and automate workflows. #LLMs #AI #Aiassistants #Aigateway #AIModels #Open...

多模态端侧行业动态

19:31

OpenRouter：Announcements（RSS）

精选73

OpenRouter推出统一图像API

OpenRouter推出统一图像API，整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式，通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述；通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持（如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费）。OpenAI的GPT 5系列图像模型支持SSE流式预览，启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API，建议现有用户切换。

智能体产品更新图像生成多模态

关联讨论 1 条X：OpenRouter (@OpenRouter)

推荐理由：OpenRouter 把 30+ 图像模型收进一个 API，参数自动发现和流式预览让频繁切换模型的开发者省去不少适配麻烦，尤其对 Agent 工作流很友好。

18:16

Orange AI@oran_ge

54

Cola Seed 2.1 Pro 上线，最强多模态模型

Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型，号称目前多模态最强模型。相比 2.0 版本，该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址：colaos.ai。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体多模态模型发布编码

17:55

The Decoder：AI News（RSS）

49

Mistral 发布 OCR 4 模型：在盲测中 72% 情况下超越竞品

Mistral AI 推出 OCR 4 模型，专用于从 PDF、Word 文件和 PowerPoint 演示文稿等文档中提取文本。据公司称，该模型在盲测中有 72% 的测试案例表现优于竞争对手。

多模态模型发布

16:44

IT之家（RSS）

39

荣耀产品线总裁方飞：7月将发布下一代终端操作系统AgenticOS

荣耀产品线总裁方飞在MWC26上海宣布，荣耀将于今年7月发布以人为中心的下一代终端操作系统AgenticOS。该系统具备意图驱动（以意图为中心而非应用）、自然交互（声音、手势、眼神等）、主动智能（Agent内核，主动规划/服务/执行）及天生跨端（一脑调度万端，多设备多Agent协同）四大特性。此外，年初发布的“机器人手机”Robot Phone预计今年下半年上市，搭载行业最小的4DoF云台系统，体积比主流方案缩小70%。

智能体产品更新多模态端侧

16:15

meng shao@shao__meng

50

邵猛用 TRAE Work 测试豆包2.1 Pro，视觉还原和前端设计能力超预期

邵猛使用 TRAE Work 测试了字节跳动最新发布的豆包2.1 Pro 模型。官方称豆包2.1 系列在 Coding 和 Agent 能力上显著提升，VLM 能力保持领先，综合能力介于 Claude Opus 4.6 和 4.8 之间。实测中，模型先思考整体规划与实现过程，再读取设计图理解场景和细节，调用最合理的 Skill 规划网页逻辑，分步骤实现后通过本地预览和视觉验证确保效果。最终输出在视觉还原、交互和技术实现上非常细致，包括布局、字体选择、自适应布局，甚至为每个部分配上具有实际意义的图片而非占位符。

多模态编码评测/基准

15:10

OpenBMB@OpenBMB

精选65

🥳感谢分享，@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行，实在令人印象深刻--尤其是在 Apple Core AI 上以不到 2B 参数跑出。干得漂亮，推动高效多模态 AI 向前发展。🫡

MLBoy_DaisukeMajima: 📸 MiniCPM-V 4.6 - one of the strongest vision models under 2B params - now runs at ~51 tok/s on iPhone 17 Pro via Apple...

多模态开源/仓库端侧

推荐理由：社区把 MiniCPM-V 4.6 搬上 iPhone 17 Pro，跑出 51 tok/s，还给了代码和模型，做端侧多模态的可以直接跑起来了。

14:50

Alibaba Cloud@alibaba_cloud

60

认识 Qwen3.7-Plus，为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行，它专为长期运行的现实世界智能体工作流而设计。今天在阿里云上试用，限时 20% 折扣。 🔗 ： https://int.alibabacloud.com/m/1000414123/

智能体多模态模型发布

13:12

AYi@AYi_AInotes

70

用户丢截图给 StepFun step-3.7-flash，2分多钟生成可用的文章头图生成器

用户将截图丢给 StepFun 的 step-3.7-flash 模型（运行在 Codex 中），2 分多钟生成可用的网页版文章头图生成器，支持修改文案和导出 PNG，总成本仅 $0.06。模型能自行理解参考图并实现完整功能逻辑，但视觉还原度仅六七分，手绘涂鸦风需手动调整。StepFun 同步推出 Startup Program，早期团队可获 API 额度、生态支持及资源对接。

图像生成多模态教程/实践

12:45

Baidu Inc.@Baidu_Inc

59

百度发布了 Unlimited-OCR，推荐通过这个演示体验。

AK: Baidu just released Unlimited-OCR

产品更新多模态

12:42

IT之家（RSS）

精选74

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

6月23日，部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1，位于设置模型选择器中，与标准语音和高级语音并列。该模型支持边说话边监听，用户可在对话中途打断并发出新指令，例如要求从1数到10时中途喊停倒数，模型会立即切换执行。OpenAI 尚未官宣，预计本周启动更大范围测试。

OpenAI 多模态模型发布语音

推荐理由：Bidi 1 让 ChatGPT 语音从回合制变成双向并行，打断后能立即响应，这是语音交互真正的升维，普通人很快就能感受到对话自然感的质变。

11:55

HuggingFace Daily Papers（社区热门论文）

54

FlowR2A：多模态驾驶规划的奖励到动作分布学习

FlowR2A通过flow-matching解码器学习奖励条件动作分布，将基于评分方法（密集奖励监督但固定动作词汇）与基于锚点方法（动态生成提案但稀疏监督）统一到单一生成模型中。模型从密集轨迹-奖励对中学习分布，引入细粒度每时间步奖励条件和奖励噪声增强，以平衡硬安全约束与软进度目标。测试时支持通过奖励引导和锚定采样实现可控生成。在NAVSIM v1和v2基准上达到最新最优结果，多模态提案质量显著高于此前方法。

具身智能多模态论文/研究

11:51

小互@xiaohu

61

百度开源 Unlimited OCR：用 R-SWA 技术实现"一次推理数十页"文档抄写

百度开源全新 Unlimited OCR 模型，采用参考滑动窗口注意力（R-SWA）技术。模型 3B 参数、500M 激活，在标准 32K 上下文下可一次前向推理处理数十页文档，无需切页。R-SWA 将原件与已写文字区分：原件全程保留，已写文字仅关注最近 128 个 token，使显存和算力不随页数增长，有别于传统 OCR 逐页清空拼接的方式。

多模态开源/仓库模型发布

10:49

HuggingFace Daily Papers（社区热门论文）

51

CF-World：一个用于测试T2I模型因果推理的反事实基准

CF-World是一个反事实基准，用于测试文本到图像（T2I）模型在系统性违背现实世界先验规则下生成图像的能力。每个场景分三个递进层级：事实生成、显式反事实生成和隐式反事实生成。评估采用VLM-based评估器CF-Eval，引入两个指标：Prior Resistance Rate（PRR）衡量克服固有先验的能力，Reasoning Retention Rate（RRR）评估无显式视觉线索时的推理依赖生成。实验表明，所有模型在反事实场景中性能急剧下降，原因是T2I模型将世界知识与视觉外观编码为紧密耦合模式，过度依赖训练数据中的频繁视觉共现，在反事实任务中退回至熟悉常识先验。

arXiv 多模态推理论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

57

ReMMD：面向多模态虚假信息检测的现实多语言多图像智能体验证框架

提出ReMMD框架，包含基准ReMMDBench（500样本、2756张图片、5种单语及2种跨语言设置、多图像帖子、5类真实性标签与8类失真标签）及持久记忆验证器ReMMD-Agent。该Agent将帖子分解为原子点，构建可重用证据集，输出结构化L1/L2/L3预测。在闭源系统、开源LVLMs、MMD-Agent和T2-Agent对比中，ReMMD-Agent搭配GPT-5.2取得最佳五类真实性性能，准确率41.80%，macro-F1 39.12%，成本较MMD-Agent降低17.5%，较T2-Agent降低79.9%。项目已在HuggingFace开源。

智能体多模态论文/研究

10:27

IT之家（RSS）

62

火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性

火山引擎昨日发布豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），首次支持文本、音频等多模态参考生成，端到端输出目标音频，长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围，直接产出成片级音频。模型一次支持 2 分钟音频创作，可多次延长且保持音色统一；实现零样本多模态生成，支持音色与风格解耦控制。火山方舟已开启 API 邀测，个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

10:20

Alibaba Cloud@alibaba_cloud

13

阿里云FFA2026议程公布，Apache Fluss 1.0发布

阿里云宣布距FFA2026大会仅剩2天，全部11个分论坛议程已上线，覆盖7大Data+AI方向：多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相，具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。

智能体多模态开源/仓库数据/训练

09:10

公众号：豆包（字节）

精选77

今天，豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线，面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型，支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式，专业版接入豆包2.1 Pro模型。定价：标准套餐68元/月（连续包月），加强套餐200元/月，高级套餐500元/月。大学生认证后标准套餐38元/月，持续6个月。

智能体产品更新多模态

推荐理由：豆包专业版不是简单的会员升级，而是把Agent能力装进办公场景，操作本地电脑、生成应用这些功能，让AI从对话工具变成了真正的生产力帮手。

09:02

向阳乔木@vista8

30

感动了，Doubao Seed 2.1 别的能力不说，多模态强的一批！

多模态大佬观点

1 2 345 6…50