13:53

公众号：通义实验室（千问）

Qwen3.5-LiveTranslate 发布：开口即同传

通义实验室（千问）发布 Qwen3.5-LiveTranslate，实现“开口即同传”——用户说话的同时即可获得翻译结果，支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音

13:40

Kling AI@Kling_ai

Kling AI落地好莱坞，工业化应用案例引关注

在戛纳展示的Kling AI视频生成技术已深度融入好莱坞工业级制作流程。其首个公开应用于剧集《David之家》的项目，吸引了超过4400万全球观众，位列美国新剧前十并登顶Prime Video。该技术能够无缝对接实拍制作，以高标准交付大量高质量镜头，证明了AI作为全球电影制作可靠、高效新基础的潜力。

多模态行业动态视频

13:05

Berryxia.AI@berryxia

Gemini 3.5 Flash 发布，已可在 ZenMux 免费体验

Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash，ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中，该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画，生成效果流畅自然。其性能全面升级，在多项 Agent 专属评测榜单中位列第一，多模态理解能力（MMMU-Pro 达 83.6%）也显著超越前代。模型完全兼容主流 API 格式，支持按量计费与套餐方案，便于开发者快速接入。

Google 多模态评测/基准

12:55

IT之家（RSS）

XREAL 确认 Project Aura 智能眼镜年内出货，搭载安卓 XR 与 Gemini AI

在2026年谷歌I/O开发者大会上，XREAL展示了基于安卓XR系统的Project Aura智能眼镜，并确认产品将于2026年底前出货。眼镜采用分离式设计，配备外接计算模块兼触控板，整机重量低于90克。硬件搭载自研X1S芯片和高通骁龙XR平台，通过三个摄像头实现手势控制。系统原生运行谷歌空间应用，支持Google Maps 3D导航和YouTube沉浸式视频播放，并集成Gemini AI以将2D应用自动转换为3D窗口。当前版本续航约4小时，但软件功能尚未完全就绪，最终规格可能调整。

产品更新多模态端侧

12:36

Kling AI@Kling_ai

Kling AI推出全球首个原生4K视频生成模型

4月23日，Kling AI正式推出全球首个原生4K视频生成模型，专为专业内容创作设计。该功能支持一键生成真4K画质视频，显著提升画面细节与制作效率。模型已获得好莱坞团队、动画工作室等多方采用。好莱坞制片人指出，这是其工作流中首个使用的原生4K基础模型；Wonder Studios强调，原生4K从底层生成避免了传统放大技术的角色变形问题，保持了画面一致性；动画导演则认为，该模型在保留艺术色调与复杂特效纹理方面优于同类产品。

多模态模型发布视频

11:55

IT之家（RSS）

国外红绿灯也能预测：高德红绿灯倒计时宣布出海，将逐步覆盖全球

产品更新多模态推理

11:34

Rohan Paul@rohanpaul_ai

SenseNova U1开源发布，革新原生多模态生成

商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模，将视觉、语言与图像生成视为一个统一问题，而非分立模块的链式处理，从而减少了信息损失。该模型采用MoT架构（38B-Active 3B MoE），在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案，为行业提供了前沿参考。

SenseTime: 🔥 New week, New SenseNova-U1 Drop - and this one goes Deep!🔥 📄 The full Technical Report is OUT - the most detailed d...

图像生成多模态开源生态模型发布

11:11

歸藏(guizang.ai)@op7418

谷歌 Genie 3 实现街景交互生成与风格化

谷歌 Genie 3 新增了基于 Google 街景生成可交互虚拟世界的功能。用户可以选择美国任意街景地点作为首帧图像，生成对应的可探索环境，带来强烈的代入感。该功能还支持风格化处理，能将现实场景转化为海底世界、末日废土等不同风格的虚拟场景。

Google 产品更新多模态视频

11:05

Berryxia.AI@berryxia

Google DeepMind 发布 Gemini 3.5 Flash：性能大幅提升，但成本显著增加

Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在性能与速度的平衡上取得突破。其智能指数得分为 55，较上一代大幅提升，超越了 Grok 4.3 和 Claude Sonnet 4.6。模型在智能体任务和降低幻觉率方面进步显著，输出速度超过 280 tokens/s。然而，其 API 定价相比前代模型上涨约 3 倍，运行基准测试的成本更是达到 5.5 倍。这意味着 Gemini 3.5 Flash 在实现“更快更智能”的同时，也显著改变了 Flash 系列以往低成本的市场定位。

Artificial Analysis: Google's new Gemini 3.5 Flash is the clear leader on the Intelligence vs Speed Pareto frontier and makes large gains on ...

智能体 DeepMind 多模态模型发布