08:19

小互@xiaohu

Google 智能眼镜展示让你"不用掏手机"就能完成日常的事情让 Gemini 帮你点咖啡，手机放兜里，眼镜只在最后一步确认时提示即可

Google 产品更新多模态端侧

08:10

Simon Willison 博客

llm-gemini 0.32

项目 llm-gemini 发布了 0.32 版本，本次更新主要新增了对谷歌最新发布的模型 gemini-3.5-flash 的支持。发布信息同步提供了关于 Gemini 3.5 Flash 的技术笔记，以及作者使用升级后的插件绘制的图像示例，展示了该模型的实际应用效果。

Google 产品更新开源/仓库

08:05

Berryxia.AI@berryxia

Gemini Omni：不止于真实，更懂推理

Google 发布的 Gemini Omni 模型核心能力升级，它不仅能生成高度真实的场景，更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出，初期将优先支持视频内容的生成与输出。

Google 产品更新多模态视频

08:05

Berryxia.AI@berryxia

Gemini 3.5 flash 使用反重力工具，一句话使用多个Agent同时写作构建整个城市的过程，还挺有意思的。

智能体 Google 教程/实践

08:05

Berryxia.AI@berryxia

Google DeepMind发布Gemini Omni，迈向"生成万物"愿景

Google DeepMind在I/O大会上发布了Gemini Omni模型，旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合，在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性，并支持通过自然语言进行实时编辑和风格调整，将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API，不过其实际效果，尤其是在中文生成方面，仍存在一些讨论。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

Google 多模态模型发布视频

08:05

Berryxia.AI@berryxia

Google I/O 2026大会总结：迈向Agentic Gemini时代

2026年Google I/O大会的主题为“Agentic Gemini时代”，旨在将AI从聊天工具进化为能自主思考、执行任务的“世界模型”。本次大会未发布Gemini 4.0，而是推出了更务实的Gemini 3.5系列，核心包括：速度极快且为智能体优化的Gemini 3.5 Flash；能理解物理世界、实现任意模态生成的全新“世界模型”Gemini Omni；以及可24/7自主工作的智能体Gemini Spark。同时，Android XR智能眼镜和AI集成的Googlebook笔记本等硬件亮相。整体上，Google正将Gemini深度整合至其全生态，巩固其在自主AI赛道上的领先地位。

智能体 Google 多模态现象/趋势

08:02

Ethan Mollick@emollick

该推文展示了2025年7月（两年前）AI视频生成模型所能达到的"最先进"技术水平，并以此作为当前讨论的参照。引用部分提供了关键上下文：早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示（如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等），生成相应的视频内容。推文作者通过展示这一历史技术状态，回应了关于生成内容细节真实性的讨论。

Ethan Mollick: I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...

Google 多模态大佬观点视频

07:55

IT之家（RSS）

谷歌酝酿 Gboard 输入法升级，能根据上下文提供高情商回复

谷歌正在测试 Gboard 输入法的三项新 AI 功能，包括自定义提示词输入框、根据描述起草完整内容以及支持读取屏幕上下文或对话内容以提供更贴合语境的回复建议。此次升级标志着 Gboard 的 AI 能力从固定的润色、改写预设，转向更灵活的个性化写作辅助。新功能将允许用户以自然语言指令（如“让语气更幽默”）直接定制文本风格，并可能结合图库截图等屏幕信息自动组织回复。

Google 产品更新多模态

07:49

小互@xiaohu

看看 Gemini Omni的实力一句话就是：视频版的香蕉🍌 当然远不至于视频的编辑能力，它应该是世界模型的雏形… 通用AGI的初始形态…

Google 多模态现象/趋势视频

07:33

Google AI Developers@googleaidevs

精选73

通过使用Gemini API中的新托管代理功能，@Ramp在无需接触后端基础设施的情况下构建了其高级财务代理。了解更多 ↓

智能体 Google 产品更新

推荐理由：Google把agent构建的后端复杂度藏起来了，Ramp没碰基础设施就上了金融agent，这对所有想做agent的产品团队都是个明确信号，门槛降了不少。

07:32

Ethan Mollick@emollick

Google在Gemini网站上隐藏了思考痕迹。你必须使用三点菜单才能调出摘要，但这些摘要过于简略，几乎无法使用。它是否进行了网络搜索？是否检查了结果？你无从得知。这使得Gemini不适合任何需要准确性的严肃工作。

Google 大佬观点搜索

07:32

Ethan Mollick@emollick

ChatGPT/Codex 与 Claude/Code/Cowork 之间的能力差距正在缩小，因为 Anthropic 和 OpenAI 正在趋同于单一的体验。 Google 的体验则在分化：Studio、Gemini、Antigravity 及其他 Google AI 应用正变得越来越不同。谁将胜出？

Anthropic Google OpenAI 现象/趋势