6月28日

01:22

Berryxia.AI@berryxia

精选76

2026年6月26日，Mark Gurman称苹果Vision产品组副总裁Paul Meade下周离职加入OpenAI硬件部门。他负责Vision Pro、无屏幕AI智能眼镜及AR眼镜研发。苹果计划首款触控OLED MacBook使用M5 Pro/Max芯片，2026年底到2027年初发布；M7 Pro/Max版本2027年底跟进。苹果此前因涨价市值蒸发2300多亿美元。核心高管流失至OpenAI凸显AI硬件竞争加速。

OpenAI 多模态行业动态

推荐理由：Paul Meade 从苹果 Vision Pro 跳槽 OpenAI，不是普通人事变动，而是 AI 硬件竞赛正式开打的信号，做硬件的可以开始紧张了。

6月27日

22:28

Deedy@deedydas

字节跳动7月初发布Seedance 2.5视频生成模型，生成长度翻倍至30秒

字节跳动将于7月初发布视频生成模型Seedance 2.5，将生成长度从15秒翻倍至30秒，支持音频+4K视频；参考图片/音频/视频数量提升至50个以上；支持局部编辑（特定角色、闭合、细节），附带版权过滤。其前代Seedance 2已是视频生成模型第一名，ARR达20亿美元，定价$2.5/15秒，累计生成超330万小时视频。对比时间线：Veo 3（2025年5月）首降音视频生成15秒，Kling 3（2026年1月）15秒，Seedance 2（2026年2月）15秒，Seedance 2.5（2026年7月）30秒。中国视频模型持续扩大对美国的领先优势。

多模态模型发布视频

21:24

Runway@runwayml

精选66

广告本地化现在可通过 Runway API 以 Recipe 形式使用。现在您可以通过单次 API 调用翻译静态广告和图形资产。

Runway: New in Runway, you can now localize ads. One image in, any language out. Input a single ad and get a version for every m...

产品更新多模态

推荐理由：Runway 把广告本地化做成了一键 API，对出海团队是实打实的效率提升，但放在整个 AI 行业里这只是个功能补齐。

17:29

小互@xiaohu

Wan Streamer v0.1：首个端到端Transformer实时音视频对话模型

阿里通义实验室Wan团队发布Wan Streamer v0.1，首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms，总延迟约550ms，25fps下流式处理单元160ms，分辨率192p。同步生成语音与面部视频，支持全双工打断，取消外部ASR/TTS/动画模块，通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证，未开放使用。

arXiv 多模态模型发布视频

12:48

Ethan Mollick@emollick

同事件精选81

其中一段被复原的文字，两千年来首次被读到："经过研究和学习的极限努力……拥有同样的实践智慧……"

Stewart Brand: Herculaneum fused scroll read in full. https://scrollprize.org/firstscroll

多模态论文/研究

同一事件，精选展示《赫库兰尼姆古卷首次被完整虚拟解读》

推荐理由：AI 首次从两千年前的火山灰中读出完整段落，而且内容恰恰是关于「研究与智慧」的，这种巧合本身就值得你点开看一眼。

10:59

IT之家（RSS）

苹果 iOS 27 Beta 2 固件曝光：百度视觉搜索组件现身

iOS 27 Beta 2 固件代码显示新增 SearchPartnerInferenceProvider 组件，其本地化字符串明确提及“Baidu Visual Search”。该组件为第三方视觉搜索及 AI 服务商的基础设施，目前唯一指名的合作方为百度，未来可能按地区提供不同合作伙伴。本次更新还新增 SystemVoiceAssistant 应用，将 Polaris 音频框架独立为守护进程 polarisd，并新增 bluetoothaudiod 进程。固件包含超 4200 个 dylibs 更新、732 个 Mach-O 可执行文件更新及近 300 个 Kernel Extension 更新。

多模态搜索行业动态

09:23

ginobefun@hongming731

GPT-5.6 Sol 预览 / Deep Agents 提示词缓存 / AI 推理成本分析

OpenAI 启动 GPT-5.6 系列有限预览：旗舰 Sol、均衡款 Terra（性能比肩 GPT-5.5 但便宜一半）和低成本 Luna。新增 max 深度推理档与 ultra 模式，Sol 在 Terminal-Bench 2.1 以 88.8% 刷新编码 SOTA。LangChain 拆解 Deep Agents 提示词缓存，可削减 token 成本 49%-80%（claude-haiku -77%、gpt-5.4-mini -80%）。Sean Goedecke 核算 AI 推理服务毛利率可达 70%-80%，DeepSeek-V4-Pro 市场价约 87 美分已贴近成本。

ginobefun: http://x.com/i/article/2070663412787576832

多模态推理行业动态

00:11

Google Gemini@GeminiApp

从用语音实时创建图像，到支持小企业的新方式，以下是本月 Gemini Drops 的内容 🧵

Google 产品更新多模态语音

6月26日

23:56

AK@_akhaliq

ViQ 文本对齐的视觉量化表示，支持任意分辨率。

Hugging Face 图像生成多模态论文/研究

20:26

AK@_akhaliq

面向鲁棒视频理解的自信感知工具编排

MCP/工具多模态论文/研究

18:57

Alibaba Cloud@alibaba_cloud

NVIDIA与阿里云合作加速Flink多模态数据流处理

在Flink Forward Asia Shenzhen 2026大会上，NVIDIA的Chuan Chen分享了NVIDIA与阿里云的技术合作：通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端的高性能多模态流式架构，可应用于AI解说、实时图文信息流和交互式问答等场景。

多模态行业动态部署/工程

16:59

IT之家（RSS）

Rokid AR 眼镜亮相：首搭骁龙至尊空间计算协处理器，空间 + AI 双摄

6月26日，Rokid在Rokid Open Day 2026上发布AR眼镜新品，采用空间+AI双摄设计，支持电致变色、6DoF自由度和58° FoV视野。搭载恒玄6nm旗舰芯片、5麦克风拾音及DSP数字音效引擎，首次配备高通骁龙至尊空间计算协处理器（3nm），算力远超Rokid AR Studio、Meta Quest Pro、Pico4等。官方还提及4D高斯泼溅能力，目标两三年内实现空间感知、空间重建与空间理解。

产品更新多模态端侧

16:20

Berryxia.AI@berryxia

AI实时世界杯解说员项目开源

开发者@zicohacks利用AI构建了一个实时世界杯解说员。系统像观众一样观看直播，采样最新帧，让GPT-5.4-mini理解比赛内容并生成解说词，再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用，已能较自然跟上比赛节奏，支持英语和法语切换。项目已开源，目前主要挑战是延迟和解说精准度，但方向明确——AI正从辅助内容变为实时内容生产者。

Zico: i tried building an AI commentator for the World Cup it watches the live stream as the viewers, samples the newest frame...

多模态开源/仓库视频