AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 936 条
全部一手资讯X论文
标签「Google」清除
Berryxia.AI@berryxia · 5月20日65

兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) Gemini 3.5 Flash 从输入提示词到生成完整 HTML 动画网页(树干慢慢长出、分支递归展开、最后随风摇摆),全程只用了 77.56 秒! 整体效果非常惊艳:树形态自然优雅、生长动画丝滑、视频和内容呈现都顶级! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发. Google I/O 2026 今天刚发布,现在立刻就能通过 API 调用! 还有免费额度可以白嫖~ 速度是真的没话说,还完美保留了旗舰级模型的能力。 专为 Agent 设计,在 MCP Atlas、Toolathlon、Finance Agent 等多项榜单直接拿下第一! 多模态理解也极强:MMMU-Pro 83.6%、CharXiv Reasoning 84.2%,全面超越上一代 Gemini 3.1 Pro。 完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 直接体验 正式版 → http://zenmux.ai/google/gemini-3.5-flash 免费试用 → http://zenmux.ai/google/gemini-3.5-flash-free

译Gemini 3.5 Flash已在ZenMux平台首发并提供免费体验。该模型从提示词到生成完整HTML动画仅用77.56秒,速度极快且效果出色。其专为Agent设计,在MCP Atlas、Toolathlon等多项榜单中排名第一。多模态理解能力显著提升,MMMU-Pro达83.6%,全面超越上一代模型。该模型兼容主流API格式,支持按量计费和Builder套餐,可无缝集成现有工具链。

Berryxia.AI@berryxia · 5月20日70

这个测试提示词非常好用强烈推荐👇🏻 Prompt: Create an HTML simulation that draws a recursive binary tree fractal using Canvas. Start from a single trunk, then recursively branch into left/right segments with decreasing length and slight random angle variation. Animate the tree growing from trunk to full canopy, then gently swaying as if in the wind. 快去试试3.5Flash和其他模型能力的对比吧!

译一个生成递归二叉树HTML动画的测试提示词被广泛用于评估AI模型能力。Gemini 3.5 Flash于Google I/O 2026后在ZenMux平台迅速上线,官方测试显示其使用该提示词生成完整动画仅需约78秒,效果出色。文章推荐用户立即在ZenMux等平台免费体验Gemini 3.5 Flash,并通过该提示词与其他模型进行对比,直观感受其在速度和生成质量上的表现。

AYi@AYi_AInotes · 5月20日70

Damn,Google这是憋了个大的啊,这个必须得玩一下,Android 党有福了(⚆_⚆)📱 #GoogleIO

译哇,Google这次憋了个大招啊,这个必须得玩一下,Android党有福了(⚆_⚆)📱 #GoogleIO

凡人小北@frxiaobei · 5月20日10

Google 新发布的东西都不想体验了,股票走势说明了一切。 但是可以考虑抄个底,静待 pro 发布。

歸藏(guizang.ai)@op7418 · 5月20日55

谷歌 Genie 3 这个新功能很有意思 可以选择美国谷歌街景的任何一个地点作为首帧图片,然后生成 Google Genie 3 可互动的世界。 比如非常知名的黄石公园啊,城市之类的地方,然后你就可以进去游览了,代入感很强 而且你可以对这个街景的内容做风格化,比如:变成海底世界、末日后的世界之类的

译谷歌 Genie 3 新增了基于 Google 街景生成可交互虚拟世界的功能。用户可以选择美国任意街景地点作为首帧图像,生成对应的可探索环境,带来强烈的代入感。该功能还支持风格化处理,能将现实场景转化为海底世界、末日废土等不同风格的虚拟场景。

Berryxia.AI@berryxia · 5月20日17

看到这个图觉得Google 这个发布会。。。。。

歸藏(guizang.ai)@op7418 · 5月20日56

AI Studio 昨晚更新主要有两个: 1. 支持从 Google Docs 和 Google Sheets 里面拉数据。你可以把谷歌表格直接作为开发应用的数据库。 2. 支持在网页里开发安卓应用程序。 我试了一下,这个 3.1 Pro 的安卓开发水平确实不如前端。 但更吊的是,它在 Studio 里塞了一个安卓模拟器,我去,太离谱了!

译AI Studio此次更新主要包含两项能力升级:一是能够直接从Google Docs和Google Sheets拉取数据,并将其作为应用的后端数据库;二是新增了在网页环境中开发安卓应用程序的功能。实测显示,其内置的3.1 Pro模型在安卓开发场景的表现目前尚不及前端开发。但此次更新的最大亮点是在平台内直接集成了一个安卓模拟器,这一设计极大简化了开发与测试流程。

ginobefun@hongming731 · 5月20日66

http://x.com/i/article/2056903923454414848 # BestBlogs 早报 · 05-20|Google I/O 2026、Karpathy 加入 Anthropic、Claude Managed Agents 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-20 ## 导语 智能体生态在同一天迎来三个关键节点。Google I/O 把 Gemini 3.5、Antigravity CLI 与 WebMCP 一次性补齐,让一个开发者就能调度子智能体跑完整条工作流;Anthropic 同期把 Managed Agents 推进企业安全边界,又拿下 Karpathy 重返一线研发。再往下,Martin Fowler、Cline、Spotify 与 LiteRT-LM 分别给出代码可维护性、智能体成熟度、个性化推荐与端侧推理的工程化样本。 如果把今天浓缩成一条线索:整个行业正在把「智能体」从单点能力,拼装成一条可工程化、可被企业安全约束消费的完整生产链路。 模型层、编排层、运行时、连接器、推荐与代码治理同时在补齐,而不是某个明星模型再涨几个 benchmark。 更具体地说,今天值得用一杯咖啡的时间慢慢消化的是三件事:第一,Google 把 Antigravity 2.0 / Antigravity CLI / Managed Agents / Android CLI / WebMCP 这一长串原本属于不同团队的能力,第一次拼成了一条完整链路;第二,Anthropic 用 Self-hosted Sandbox 与 MCP Tunnels 把「企业内执行 + 私有数据接入」两块最硬的合规阻力同时拆开;第三,Karpathy 加入 Anthropic 这条信号,在「人才结构」「研究文化」「行业站队」三个维度都会发酵很久。其余 14 条精选与扩展阅读,本质上是给这条主线条做注脚——从工程治理(Martin Fowler)、智能体成熟度(Cline)、端侧推理(LiteRT-LM)、推荐范式迁移(Spotify)到内容溯源(OpenAI),每一条都在告诉我们「智能体落到工程里到底意味着什么」。 ## 精讲一:Google I/O 2026 开发者主题演讲全览 Google I/O 2026 把过去一年的 AI 投资全部押在了「智能体」这条主线上,模型、平台、运行时一次性补齐。在这次发布里,最值得开发者关注的不是某一项 demo,而是 Google 第一次把「构建—运行—交付智能体」整条工程链路一次性铺到了开发者面前。 关键事实:Gemini 3.5 系列模型登场,覆盖从 Pro 到 Flash 的多档位;Antigravity 2.0 与全新的 Antigravity CLI 让一个开发者就能并发调度多个专用子智能体跑完复杂工作流,平台内置跨平台终端沙箱、凭据掩码与硬化的 Git 策略;Managed Agents 通过 Gemini API 一行调用即得到一个带远端 sandbox 的完整 agent;Antigravity SDK 则把整套 agent harness 开放给企业自托管。 Android 与 Web 两端也在补齐。Android CLI 把 Android Studio 的能力封装成任意 LLM 都能调用的工具​,支持下载 SDK、设备真机运行等重型操作;同时开源了一批 Android skills,帮助 LLM 跑通 Jetpack Compose 迁移、Navigation 3 迁移这类「重」流程。Web 端推出的 WebMCP(Chrome 149 起进入 Origin Trial)让浏览器内智能体可以直接消费网页的结构化能力,而不是再靠脆弱的 DOM 抓取。 为什么重要:过去两年我们看到的多数 AI 发布会,要么只是「模型变强了几个百分点」,要么只是「IDE 加了 Copilot」。Google I/O 2026 的特殊之处在于:它把过去散落在五六个团队里的 agent harness、sandbox、CLI、SDK、Studio、Bench、Migration agent 一次性串起来,让一个独立开发者也能像调度团队一样调度子智能体。这条线索和今天另一头的 Anthropic Managed Agents 几乎是镜像的——两家头部公司都在赌「一年内 agent 进入企业生产环境」这件事必须发生。 值得展开的几条细节:第一,Antigravity 2.0 第一次让「一个开发者并发驱动多个子智能体」从概念变成日常工作流,sandbox、凭据掩码、Git 策略这些原本属于平台安全团队的能力被前置到 IDE 默认体验里,这在「单兵开发者」与「企业内部平台团队」之间画了一条新的能力分界线。第二,Managed Agents 通过 Gemini API 一行调用即得到一个完整 agent 实例,让以前需要自己维护 K8s + sandbox + observability 的中小团队,可以直接复用 Google 的运行时;同时 Antigravity SDK 又开放了反向选项——大企业可以拿走整个 agent harness 自托管,把 agent loop 也放回自家 VPC。第三,Android Bench 这次把 Gemma 4 等开源权重模型也纳入了榜单,跟之前的「闭源主导榜单」形成对照,意味着 Google 自己也愿意让开发者基于客观榜单做模型选择。 阅读建议:先抓 Antigravity CLI 与 Managed Agents 这两个动作,再去看 Android CLI 与 WebMCP 是怎么把「移动端 / 浏览器端工程能力」往智能体可调用的方向拆开。原文一次性给出了所有跳转链接,非常适合作为你这一周的入口索引。 ## 精讲二:Karpathy 重返一线研发:宣布加入 Anthropic Andrej Karpathy 在 X 上官宣加入 Anthropic,这是近一两年最具信号意义的一次 AI 人才流动。 关键事实:Karpathy 是 OpenAI 创始成员之一,先后担任 OpenAI 研究科学家与特斯拉 AI 总监;过去两年他从大厂体系出来,独立做 nanoGPT、minGPT 与「zero-to-hero」系列教学,是「学者—工程师」融合路径上最具影响力的代表人物之一。他在公告里强调:加入 Anthropic 是为了重返前沿 LLM 研究第一线,同时继续在教育方向上投入。 为什么重要:第一层信号是技术站队——一个对 LLM 训练栈最熟悉、且没有平台利益绑定的研究者,主动选择 Anthropic,这本身就是对 Anthropic 未来几年 LLM 路线的强背书,跟今天 Claude Managed Agents 把企业沙箱、MCP Tunnels 一次性补齐互为印证。第二层信号是行业人才结构——头部 AI 公司开始为「长期影响力型研究者」预留位置,而不再把高杠杆人才当成纯生产资源消耗。从今天往前看的几个季度,预计其他实验室的招聘策略与研究文化都会被这条信号轻微改写。 与今天其他故事的关系:Karpathy 这条新闻和精讲三的 Managed Agents 几乎可以放在一起读——Anthropic 同时在「研究人才」与「企业级 agent 产品形态」两条线上加码,对应的是它对未来两年「模型 + 产品 + 安全边界」整体卡位的判断。 值得多想的一层:Karpathy 过去两年最反复强调的事情是「教育优先 / 工程化 ML stack 的可读性」。他这次选择 Anthropic,而不是回到 OpenAI、也没有继续完全独立做研究 + 教学,背后大概率是他认可了 Anthropic 当前的研究文化与产品节奏——这家公司愿意把高杠杆研究者放在「研究 + 长期方向」位置上,而不是把他们当成季度交付资源消耗。结合今天 Managed Agents 的发布看,Anthropic 在过去一年里以一种相当克制的节奏,把「研究能力 → 产品形态 → 企业级合规」三层逐步搭起来;Karpathy 加入会进一步把研究侧的「可教学 / 可复现 / 公开 stack」气质带进产品决策。 阅读建议:原推文很短,但建议顺着 Karpathy 过去一年的「LLM training stack 教程」「nanoGPT 重写」与他对 RL / agent 的几条公开发言一起看,会更理解他这次选择的语境。 ## 精讲三:Claude Managed Agents 新功能:自托管沙箱与 MCP 隧道 | Claude Anthropic 把 Claude Managed Agents 推进到真正的企业级形态:从今天起,Managed Agents 可以在「你控制的 sandbox」中执行工具,并通过 MCP Tunnels 安全连接到企业私有 MCP 服务器与内部数据库。 关键事实​:两件事并行发布。第一,自托管 Sandbox(公测)——工具执行可以落在企业自己的基础设施,或交给 Cloudflare、Daytona、Modal、Vercel 这类合作 sandbox 提供商;agent loop(编排、上下文管理、错误恢复)仍跑在 Anthropic 侧。第二,MCP Tunnels(研究预览)——智能体通过单条出向连接,安全访问内网 MCP 服务器、私有数据库、工单系统、CRM,不再需要把内网 API 暴露到公网。 为什么重要:这两件事拼出了 enterprise agent 商业化的两块关键拼图:「在企业安全边界内执行任务」与「合规连接私有数据」。过去阻挡 agent 真正进入大企业生产环境的,从来不是模型能力不够,而是「工具执行落在哪条网络」「私有数据怎么不出域被访问」这类合规问题。Anthropic 用 sandbox + MCP Tunnel 两层组合,把这两个最硬的合规阻力同时拆开。 与今天其他故事的关系:和精讲一的 Google Antigravity SDK / Managed Agents API 形成清晰对照——头部两家都在赌「企业级 agent 商业化」这一年必须落地;和精讲二的 Karpathy 加盟串在一起读,能感受到 Anthropic 在研究、产品、合规这三条线上同时加码的节奏。 值得多看的工程细节:sandbox 那一层并不是简单的「换个容器」。文章里给的几条对照很有意思——Cloudflare 用 microVM + isolates 做大规模超低开销隔离,强调零信任凭据注入与可审计 egress;Daytona 强调「长会话有状态、可暂停可恢复」,更像一台 24/7 可登的远程开发机;Modal 直接把 sandbox 跑在自家 AI 工作负载容器运行时上,亚秒级冷启,按需弹性 CPU / GPU;Vercel 把 VM 安全、VPC peering 与「凭据在网络边界注入、永不进入 sandbox 内部」做成默认行为。同时 Amplitude、Clay、Rogo 三家客户案例分别覆盖了「品牌可控的设计 agent」「自主运转的 GTM agent」「机构金融的合规 analyst agent」三类典型企业场景,可以作为评估自家业务匹配度的参照。 阅读建议:原文里 Cloudflare、Daytona、Modal、Vercel 四家 sandbox 提供商的实际能力差异值得花十分钟对照——它们在「冷启延迟」「长会话保活」「VPC 接入」「凭据注入」上各有取舍,决定了你团队接入时该选谁。 ## 速览 1. 面向编码智能体的可维护性传感器 · Martin Fowler Martin Fowler 把「可维护性」从一个抽象目标变成可操作的工程信号:在 AI 编码智能体的工作回路里挂一组「传感器」——静态分析、循环复杂度、重复度、架构契约检测——给智能体提供实时反馈,让它能自我纠正。文章给的样例项目是一个数据驱动的内部分析仪表盘,作者按照「coding 期 / pipeline 期 / 定时 / 生产运行时」四个时间窗,分别讨论该挂哪些传感器、用什么阈值告警。他特别指出:当 AI 改一个小需求开始影响 5 个文件以上,往往就是「内部质量出现裂缝」的第一个信号——这条经验法则今天就能搬到团队 PR review 流程里。对正在让 Claude / Cursor / Antigravity 接管整个 repo 的团队,这套思路比单纯「写规则文件」要可持续得多。 2. 别构建垃圾:AI 智能体成熟度的四个层级 · AI Engineer Cline 的 Ara Khan 在 AI Engineer 大会上给出一套非常务实的四级智能体成熟度框架:L1 直接用 LangChain / LangGraph 跑通 PoC(通常 30 分钟就能验证一个 agent flow 是否值得做),L2 用状态机精修关键路径,L3 引入「伪 RL」反馈管线做评测与回滚,L4 上升到架构纪律与前沿 API 行为治理。她特别强调一点:标准框架在 PMF 验证期非常有效,但越往企业级走,框架的「刚性」就越变成阻力,团队必须有勇气在某个时间点拆掉框架、自己写 harness。她还把「prompt 越短越好」「不要让 agent 自己回忆历史,把状态显式管起来」「不要把前沿模型当稳定 API 用」这几条工程纪律单独拎出来强调。配合今天 Google Antigravity SDK 与 Anthropic Managed Agents 一起看,这四级框架基本就是大多数团队未来一年的 agent 路线图。 3. 让 Skill 自己训练自己:8 阶段 Loop、3 层评测、5 维 AND 门控 · 腾讯云开发者 腾讯云开发者团队提出并实现了一个叫 skill-evolver 的自进化框架,把 Karpathy 的 autoresearch 外循环、Anthropic skill-creator 的评测引擎、Stanford Meta-Harness 的 trace 诊断思想缝合成一个完整管线:8 阶段 Loop 负责一轮一轮自我改写,3 层评测(单元 / 集成 / 真实业务)负责打分,5 维 AND 门控负责防止「在一个维度上拿高分补另一个维度低分」。作者在文中给出了 19 轮零回滚的自进化记录与一个真实业务 skill 的实战结果。对正在大量积累 SKILL.md 的团队,这是一篇罕见地从「prompt → harness → 训练框架」一路推到落地的中文实战长文。 4. 五分钟回顾 LLM 的最近六个月 · Simon Willison's Weblog Simon Willison 在 PyCon US 2026 做了一场五分钟闪电演讲,覆盖 LLM 最近六个月的关键变化,被他本人称为「2025 年 11 月拐点之后的回顾」。核心论点有两个:一是过去半年「最佳模型」头衔在 Anthropic、OpenAI、Google 三家之间易手了五次,单一模型领先已不再是常态;二是 2025 年 11 月之后,编码智能体真正进入「可靠到敢交给它跑」的阶段,而本地模型在能力上也开始大幅超出预期。文章是带注释的幻灯片,非常适合作为这半年技术变迁的索引,配合精讲一今天 Google I/O 的发布读,能立体感受「拐点之后行业到底走到哪了」。 5. Project Glasswing:Mythos 漏洞研究模型给我们的启示 · The Cloudflare Blog Cloudflare 把 Anthropic 的 Mythos Preview 模型接入了自家 Project Glasswing 漏洞研究流水线,扫了 50 多个内部仓库。文章最有价值的不是「模型多强」,而是工程化结论:Mythos 在漏洞链利用与 PoC 生成上确实跨越了一个量级,但要把它跑到「可扩展、可信噪比可控、可挂载到日常 CI」的状态,必须自己搭一层 harness——包括 recon agent、子领域 agent 拆解、噪音去重、跨仓批量调度等。Cloudflare 给出了一个非常具体的多阶段 pipeline 图,可以直接当作团队接入 Mythos 类模型的参考蓝本。 6. 使用 LiteRT-LM 实现超快速的端侧 GenAI · Google Developers Blog LiteRT-LM 是 Google 用来在端侧部署 Gemma 4 的跨平台运行时,已经在 Chrome、ChromeOS、Pixel Watch 以及 Google AI Edge Gallery 应用里上线。文章重点说了三件事:GPU/NPU 加速与精细的算子调度让 ~2.58GB 的 Gemma 4 E2B 在 Apple 移动 CPU 上跑出仅 607MB 的物理内存占用;多 Token 预测(MTP)只需两行配置即可启用,最高带来 2.2× 解码加速;高级会话管理让上下文切换不再需要重跑整段历史。在 Android 上,Gemma 4 还可以作为系统服务通过 AICore 调用,让多个 App 共享同一份模型实例与 KV cache。这是今天少数没在 I/O 主舞台被特别 highlight、但实际工程含量很高的 Google 发布之一,对手机厂商、IM 厂商、笔记应用都是直接可用的端侧推理底座。 7. LLM 时代的个性化推荐:Spotify 生成式推荐引擎的三大技术支柱 · AI Engineer Spotify 的 Shivam Verma 在 AI Engineer 大会上详解 Spotify 如何用一个统一 LLM 驱动的生成式推荐引擎,替换掉过去碎片化的多模型推荐流水线。Spotify 当前管理着超过 1 亿首音乐、数百万播客、40 万有声书,月活 7.5 亿,过去的传统推荐架构(trad-rec)下,候选生成、排序、各产品入口都各自维护独立模型,组织上形成深度孤岛。三大技术支柱:用户基础嵌入(User Foundation Embedding,把全平台行为压成一个长期向量)、语义 ID 目录分词(把音乐 / 播客 / 有声书目录按语义而非随机 ID 分 token)、软分词实时个性化(让同一个 transformer backbone 在 home / search / ads / podcast 不同入口下做实时偏置)。这是一份非常清晰的「把 LLM 思路反向应用到推荐」的工程参考,对所有还在维护多套推荐流水线的内容平台都是一次值得对照的范式迁移。 ## 扩展阅读 Gemini 3.5 Flash 在 Google I/O 大会发布 · @sundarpichai Sundar Pichai 在 I/O 主舞台亲自宣布 Gemini 3.5 Flash 即刻上线,覆盖 Antigravity 与 Google 全线产品和 API。重点信号是:3.5 Flash 在几乎所有基准测试上超越前代 3.1 Pro,编码能力显著提升,同时在「智能 / 输出速度」象限里独占右上角——智能水平对标最佳前沿模型,但每秒 Token 数是其他前沿模型的 4 倍。这条公告的隐含信息是:Google 选择用一颗「智能足够 + 4 倍速度」的中档模型作为今年 Antigravity 的默认 agent backbone,对应的是「一个开发者并发驱动多个子智能体」这种新工作流对模型吞吐的硬需求。配合精讲一的 Antigravity CLI 一起看,理解 Google 这次为什么敢把「子智能体并发」作为主推。 Google DeepMind 发布 Gemini Omni · @demishassabis Demis Hassabis 官宣 Google DeepMind 的新多模态模型 Gemini Omni:能同时接收照片、视频、音频作为输入,并生成全新场景,首发能力聚焦在视频上。Hassabis 特别强调它是迈向「任意输入 / 任意输出」通用 AI 接口的一块基础拼图——可以理解为多模态版本的「主干模型」,让创作者能直接喂视频做迭代修改,而不是切换十几个工具。 Google 推出 Gemini Spark:全天候自主 AI 代理 · @GeminiApp Gemini Spark 是 I/O 上一个新的产品品类:一个 24/7 的个人 AI 代理,你给它分配任务它就在后台跑,哪怕手机和笔记本都关机也照常工作;在执行重大操作前会主动跟你确认。这是 Google 第一次把「常驻型 personal agent」当作产品级概念正式发布,对应的是过去一两年大家在讨论的「ambient AI / personal OS」愿景的一次具体落地。值得留意的是「执行重大动作前要回头跟用户确认」这条产品规则——它实际上是 Google 在产品层为 agent 设的一道默认 human-in-the-loop 边界,跟今天 Anthropic Managed Agents 在基础设施层设的 sandbox + tunnel 边界遥相呼应。 Ettin 重排序模型系列发布 · Hugging Face Blog Hugging Face 一次性发布了六款基于 Ettin ModernBERT 编码器 训练的 CrossEncoder 重排序模型,从极小到大尺寸全覆盖,在 MTEB 检索基准上达到同尺寸 SOTA,并支持高达 8K token 的长上下文。同时附带了完整的训练配方与蒸馏数据集。对正在搭 retrieve-then-rerank 流水线的 RAG / 搜索团队,这一组模型直接进入「现成可换」的选项池。 智能体开发全生命周期 · LangChain Interrupt 26 主题演讲 LangChain 在 Interrupt 26 上发布了一套覆盖智能体完整开发生命周期的工具集:Deep Agents 0.6、LangSmith Sandboxes GA、Context Hub、LLM Gateway,以及一个全新的、专为 agent trace 设计的数据库 Smith DB,搭配自主运转的 LangSmith Engine。从基础设施角度看,它和今天 Google / Anthropic 的发布形成了一个有意思的三角——前者各自押注「平台 + 模型 + sandbox」整套垂直栈,而 LangChain 押的是横切多家模型、覆盖 dev / test / deploy / monitor 的横向工具链。 Snapchat 如何每秒服务十亿次预测 · ByteByteGo ByteByteGo 这期长文拆解了 Snap 的 Bento ML 平台架构,介绍它如何在 100ms 内完成「候选拉取 → 特征获取 → 深度模型排序」整套流程,并支撑每秒超过 10 亿次预测。Snap 每天有 4.77 亿日活,每个用户的每一次刷新都在触发数百个模型调用,系统留给整条链路的预算只有 100 毫秒。文章重点拆了它如何处理排序工作负载的「不对称性」、特征存储如何拆分为 online / offline 两套(Robusta 负责双向同步、每天处理 10 万亿事件、在线特征库容量达 80TB),以及持续反馈循环如何稳定地把线上信号回灌训练。和今天 Spotify 那条生成式推荐放在一起读,能看到「传统 ranker 极致工程化」与「LLM 思路重写推荐范式」两条路线的最新实践,对所有做高 QPS 推荐 / 排序系统的团队都是一份非常有用的工程对照。 内核级真相:为什么 eBPF 正在取代用户空间代理 · InfoQ InfoQ 这篇文章 论证了 eBPF 之于安全可观测性的根本优势:把探针直接挂到 Linux 内核的系统调用接口上,容器级攻击者无法禁用它,且相比传统用户空间安全 agent CPU 开销降低 60-80%。文章还覆盖了在云原生环境下 eBPF 怎么和 Cilium、Tetragon、Pixie 这类项目配合,提供从网络可见性到进程行为审计的端到端能力。对 SRE / 安全工程团队是一篇可以直接引用到架构评审里的好弹药,尤其值得在「是否要升级到 eBPF-based 安全 stack」这类决策里作为背景材料。 推进内容溯源:构建更安全更透明的 AI 生态 · OpenAI Blog OpenAI 宣布了一套多层的内容溯源策略:通过 C2PA 合规给 AI 生成内容打可验证签名元数据;与 Google DeepMind 合作,在图像里嵌入跨平台耐久的 SynthID 像素级水印;同时上线一个公开的验证工具,让用户能直接确认一张图是否经过 OpenAI 工具生成或编辑。文章把「元数据 + 像素水印 + 公共验证工具」三层组合讲得很清楚,是当下「AI 生成内容真实性」议题里少见的、有具体落地动作的官方表态。配合今天 Gemini Omni、Gemini 3.5 一起读,能感受到头部模型公司正在为「下半年大量多模态内容上线」提前铺溯源底座。 ## 今日阅读路径 如果你今天只有 30 分钟,按下面这条路径读完,基本能拿到当前 agent / LLM 行业最重要的几条信号: 1. 先读精讲一《Google I/O 2026 开发者主题演讲全览》(10 分钟)——一次性把握 Google 这次「构建—运行—交付智能体」整条工程链路的拼图,是今天理解所有其他故事的语境。 1. 再读精讲三《Claude Managed Agents 新功能:自托管沙箱与 MCP 隧道》(10 分钟)——和精讲一形成对照,看 Anthropic 怎么从合规与安全边界角度切 enterprise agent 这块蛋糕。 1. 最后读精讲二《Karpathy 重返一线研发》(3 分钟)——一条很短的推文,但能帮你把前两条新闻的「行业站队」信号串起来。 如果还有 20 分钟,加读速览第 1 篇 Martin Fowler《可维护性传感器》——它给出了「让 agent 不变成代码污染源」的工程方法论;以及速览第 4 篇 Simon Willison 《五分钟回顾 LLM 的最近六个月》——把今天发生的所有事放回过去半年的拐点叙事里。 如果你是做端侧推理、推荐系统或安全可观测性的工程同学,还可以挑速览第 6 篇 LiteRT-LM、第 7 篇 Spotify 生成式推荐,以及扩展阅读里的 Snapchat 十亿预测、eBPF 内核级真相一起读,它们能直接迁移到你下一个 sprint 的工程设计里。 如果你只读今天一句话,把它记成:​「agent 已经不再是模型层的故事,而是平台、运行时、合规与人才同步发生位移的故事」。其他细节都是这条主线的注脚。 明天见。

译今日科技圈三事共同指向智能体工程化趋势。Google I/O 2026将Gemini模型、Antigravity CLI与WebMCP等工具整合为完整开发链路,支持子智能体并发调度。Anthropic同步发布Claude Managed Agents的自托管沙箱与MCP Tunnels,解决了企业安全执行与私有数据接入问题。此外,Andrej Karpathy宣布加入Anthropic,被视为对其研究路线的重要背书。三者表明行业焦点已从提升模型基准,转向构建可工程化、可安全落地的智能体生产系统。

ginobefun@hongming731 · 5月20日56

#BestBlogs 早报 2026-05-20 ▎ 如果只看一天 AI 新闻,今天这份够用: ▎ Google 把过去一年押在「智能体」上 —— Antigravity CLI 让一个开发者就能并发调度多个子智能体;WebMCP 把浏览器变成 agent 可消费的能力底座。 ▎ Karpathy 重返一线研发选了 Anthropic,比任何一篇技术博客都更像「下一阶段路线背书」。 ▎ 加上 Claude 的自托管沙箱、Spotify 生成式推荐引擎、Simon Willison 半年回顾…… ▎ 信号密度很高的一天,推荐阅读。

译2026年5月20日,AI领域释放密集信号。Google通过Antigravity CLI和WebMCP强化智能体生态;Andrej Karpathy加入Anthropic,被视为对其发展路径的背书。此外,Claude自托管沙箱、Spotify生成式推荐引擎等进展,表明AI正从基础模型竞争转向具体应用、工具和基础设施构建。

Rohan Paul@rohanpaul_ai · 5月20日74

Gemini 3.5 Flash now outruns Gemini 3.1 Pro on several real-work automation tests. - With 4x faster output tokens per second - A really powerful agent model fast enough and cheap enough for everyday work - Flash beats Gemini 3.1 Pro on several hard agent and coding benchmarks, including 76.2% Terminal-Bench 2.1, 83.6% MCP Atlas, and 1,656 Elo GDPval-AA. - Available in the Gemini app, AI Mode in Search, Gemini API, Antigravity, Android Studio, and Google’s enterprise agent products. - When coupled with the updated Antigravity harness, 3.5 Flash becomes a powerful engine for deploying collaborative subagents to tackle problems at scale. so one subagent might inspect a folder, another might rewrite code, another might test the result, and another might summarize what changed.

译谷歌推出Gemini 3.5 Flash模型,其输出速度提升至四倍,在终端基准测试等多项高难度任务中超越了Gemini 3.1 Pro。该模型以高速度与低成本,成为适合日常工作的强大代理工具。它已登陆Gemini应用、搜索AI模式及企业级产品等平台。配合升级的Antigravity工具,Gemini 3.5 Flash可驱动协作子代理,大规模并行处理代码审查、重写与测试等复杂任务,实现高效自动化工作流。

StepFun@StepFun_ai · 5月20日68

Welcome, another 3.5 Flash 👋

译Google推出Gemini 3.5 Flash模型,现已向所有用户开放,并集成到其产品与API中。相比Gemini 3.1 Pro,3.5 Flash在几乎所有基准测试中均有提升,编程能力进步尤为显著。该模型性能媲美顶尖模型,但生成速度极快(比其他前沿模型快4倍),在“智能与输出速度”的评估维度中位于顶尖象限,实现了效率与效果的卓越平衡。

meng shao@shao__meng · 5月20日76

Gemini 推出个人 7*24 运行的 Agent「Gemini Spark」 官方对它的介绍有三个重点可以关注: 1. 7*24 云端运行,手机、电脑关机也能继续 2. 自主执行,但始终在你指挥下,重大操作前会向你确认 3. 连接 Gmail、Calendar、Drive 等,在真实工作流里动手 https://gemini.google/overview/agent/spark/ 产品架构:Tasks / Skills / Schedules · Tasks:执行引擎,一次性或复杂多步任务,接入 Workspace(邮件、文档、表格、幻灯片等) · Skills:个性化能力,把常做事项固化成可复用「Skills」 · Schedules:定时触发器,按时间或条件自动触发(如每周一 9:00 扫收件箱、生成周报式待办并预留深度工作时间) 官方示例可以参考: 找实习并跟踪、每周收件箱复盘、从 50 封邮件生成 ghostwriter 技能、整理 Drive 并打标签、询盘邮件自动写入 Client Tracker 并建文件夹 能力边界(官方强调的场景) · 复杂待办:多步骤、跨应用串联;可选 Personal Intelligence 连接更多应用,让 Agent 在你的数字生态里「连点成线」。 · 收件箱:订阅与行业资讯汇总、长线程提炼、起草回复、优先级整理、发票/收据挖掘与归档。 · 协作与生活:群旅行邮件链 → 行程与表格、群发同步;家居账单 → 预测性提醒、Keep 补货清单。 · 网页侧:多站比价、调研、协助预订(仍强调需你监督)。 底层模型:Gemini 3.5 Flash;基于 Antigravity 开发。 默认打通的 Google 应用:Gmail、Calendar、Drive、Docs、Sheets、Slides、YouTube、Maps——默认关闭,需在设置中逐项开启。

译Google 发布了名为「Gemini Spark」的个人 AI 代理,它能全天候在云端独立运行,即使手机或电脑关机,任务仍会继续。其核心能力在于自主执行复杂的多步骤任务(如邮件处理、文件管理),但操作始终在用户指令下进行,重大步骤前需确认。产品架构包括执行任务的“Tasks”、可复用的“Skills”以及定时触发的“Schedules”。它默认深度集成 Gmail、日历、云端硬盘等 Google Workspace 应用,未来还计划通过 MCP 支持第三方应用。

meng shao@shao__meng · 5月20日64

Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?! Gemini 3.0 发布时,最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力;Nano Banana 和 Veo 在多模态生成方面也是断档的强(发布时,后来被超越了) 现在 Google I/O 发布的 Gemini Omni,又是一个原生多模态的「理解 + 生成」模型,当前主攻视频,可用任意组合输入(图、文、视频、音频)产出或编辑视频。 来看看官方对 Omni 和 Veo 的对比: 1. 工作方式 Veo:多模态常被压成文本再生成 Omni:从底层原生多模态设计 2. 提示词 Veo:需非常具体、逐帧描述 Omni:可只给意图,由推理补细节 3. 编辑 Veo:多为单次生成 Omni:多轮对话式编辑,每步叠加上一步 4. 知识 Veo:偏视觉模式匹配 Omni:结合 Gemini 的世界知识、物理直觉 注意:这里的 Veo 代表了 Veo、Sora、Seedance 等几乎全部之前的视频生成模型,这个对比感觉几乎是吊打了。 Omni 三大能力 1. 对话式视频编辑(核心差异化) · 用自然语言改已有视频,每轮指令建立在上一轮结果上。 · 强调 一致性:角色、物理、场景记忆在多轮修改后仍连贯。 · 典型操作:换背景、改机位、换物体/角色、改动作、加特效,无需每次重述整段 prompt。 2. 世界知识 + 物理直觉 · 物理: 重力、动能、流体等,用于更可信的运动(如弹珠连锁轨道)。 · 知识: 历史、科学、文化语境,用于科普/叙事类内容(如粘土定格「蛋白质折叠」)。 · 文字: 不只「能写字」,而是文字与画面动作、节奏同步(如字母表 26 项 + 对应 lower third)。 3. 任意参考物组合(Reference anything) · 图、文、视频、音频可混用为「配料」,合成一条叙事。 · 能力包括:动作/风格迁移、参考图换角色(保留动作与口型)、草图仅作运动引导转实拍、分镜图按节拍生成等。 · 音频: 首发主要支持 人声参考;其他音频输入类型将陆续开放。

译Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。

meng shao@shao__meng · 5月20日67

Google Stitch 也在 Google I/O 2026 首日发布了五个重要更新(Google 真是每年 I/O 爆一次啊,都憋着呢?) # Google Stitch 这次更新,让它从「等一整屏生成完」变成「边做边改、边预览边同步代码」,一起看看主要更新。 1. Streaming 生成/编辑过程实时流到画布;未完成即可纠偏;尊重系统 减少动态 偏好 2. 从现有设计起步 从 代码库 / .fig / 活站 生成 DESIGN.md;入口在主提示框上方及每个提示框内;公开仓库分析靠 Gemini Agents API 3. In-place AI Edits 点选 + 指令 局部改(换图、删元素、挪区块);支持直接上传替换图片 4. Motion + HTML Canvas JS / SVG / Shader 在 HTML 原生 canvas 上渲染;默认原生 HTML;选中屏可点按、测 hover(双击进编辑) 5. Import / Export .fig → DESIGN.md;一键导出 Netlify(可 claim 的 live URL)、Lovable、Bolt Bonus:代码库 <-> Stitch 通过 MCP + Agent Skills(Antigravity 等)导入屏到 Stitch,视觉改完后,同步回代码库 官方入口:http://stitch.withgoogle.com Skills 仓库:google-labs-code/stitch-skills # 非常值得单独理解的三个「架构级」变化 1. DESIGN.md 成为中枢,而不只是文档 上月已 开源 DESIGN.md(单文件描述产品 look & feel,面向 agent)。本次把它推到工作流中心: · 进:代码 / Figma / 网站 → 自动生成 DESIGN.md → 再在 Stitch 里续设计 · 出:.fig 上传也能抽出 DESIGN.md · 横移:一键落到 Netlify / Lovable / Bolt 含义:设计意图被结构化、可版本化、可被 coding agent 读写,降低「截图 + 口头描述」的信息损耗。 2. 画布从「展示层」变成「可交互运行时」 · 默认原生 HTML 渲染(不再只是静态 mock) · 动效、hover、按钮可在画布内试——更接近 原型 + 前端预览,而不是纯视觉稿 · 与 局部编辑、流式生成 组合:改一小块 → 立刻看交互与动效,而不是等整屏重绘 对团队:设计评审可更早覆盖 状态与动效;对工程:输出更接近可落地的前端形态(仍须以实际导出/同步质量为准)。 3. Bonus 才是「设计—开发闭环」的完整拼图 前五条偏 Stitch 产品内体验;Bonus 明确 Agent + MCP 路径: · 从 现有代码库 把 screen 导入 Stitch · 在 Stitch 视觉编辑(vibe design) · 经 MCP 写回 仓库 这与 Cursor / Antigravity 等 coding agent 生态对齐,Stitch 定位为 可视化编辑层,代码库仍是 source of truth(双向同步的具体粒度、冲突策略需看 skills 文档与实测)。

译Google Stitch 在 I/O 2026 推出五大核心更新,标志着从异步生成转向实时可交互协作模式。新增 Streaming 功能,支持边生成边预览与纠偏;能从代码、Figma 或网站自动生成 DESIGN.md 作为设计中枢;画布升级为原生 HTML Canvas 交互运行时,可实时测试动效;支持一键导出至 Netlify 等平台,打通设计到部署流程;通过 Agent 与 MCP 技术,实现视觉设计与代码仓库双向同步,形成完整设计-开发闭环,定位为连接设计师与开发者的可视化编辑枢纽。

歸藏(guizang.ai)@op7418 · 5月20日59

昨天谷歌 I/O 大会在编程上的动作,主要是把 Antigravit 的整个生态整合了。 Gemini 的 CLI 现在也叫 Antigravit CLI,还发布了对应的 SDK。 Antigravit 这个软件本身也迭代到了 2.0 版本,现在更像 Codex,而不像原来的 Cursor。 我大概试了一下。 用我的 PPT Skills 和一个文档测试了 Gemini 3.5 Flash 和 Antigravit 的配合。效果上肯定是比之前的 Antigravit 好用的,但功能差得有点多。 主要有以下几个问题: 1. 权限审批太繁琐:大家都已经开始用自动权限了,它还得一个一个去审批,非常耗时,用起来很不习惯。 2. 细节体验不到位: - 比如其他产品都内置了浏览器(像 Codex 就可以直接预览效果),它连个直接打开的按钮都没有。 - 如果输出了网页,你还得自己去找到输出文件夹,再手动打开对应的网页。 整体效果还是比较初期和早期的,但好歹 Gemini 3.5 Flash 的 Agent 能力感觉比较强。如果用来做一些基础的工作还是可以的。 在我这个 PPT Skills 的测试结果来看,如果不编写复杂代码,初次生成结果的排版出错比较少。 这得益于 Gemini 原生较强的多模态能力,所以它对复杂排版的感知比较好。如果大家要用 PPT Skills 的话,可以试试在 Antigravit 里面用。

译谷歌在I/O大会上整合Antigravit生态,推出Antigravit CLI和SDK,并升级至2.0版本,功能更接近Codex。测试显示,与Gemini 3.5 Flash配合后效果有所提升,但存在权限审批繁琐和细节体验不足的问题,如缺乏内置浏览器支持。Gemini的Agent能力较强,适合基础工作,特别是在PPT Skills测试中,其多模态能力有助于减少排版错误。整体仍处于早期阶段。

Demis Hassabis@demishassabis · 5月20日81

Gemini 3.5 Flash is amazing! - Performs better than 3.1 Pro on coding &amp; agentic tasks - 4x faster than other frontier models - 12x faster in @antigravity - 800 tokens/sec! - Often at less than half the cost And Pro to come… Try it in @antigravity, @GeminiApp &amp; more - enjoy!

译Gemini 3.5 Flash 太棒了! - 在编码和智能体任务上表现优于 3.1 Pro - 速度比其他前沿模型快 4 倍 - 在 @antigravity 中快 12 倍 - 达到 800 tokens/sec! - 成本通常不到一半 Pro 版本即将到来… 在 @antigravity、@GeminiApp 等平台体验吧 - 享受吧!

NotebookLM@NotebookLM · 5月20日40

We're currently experiencing some system issues 🛠️ If you are on a paid plan, you might notice temporary restrictions on your usage and limits. We're working to get this resolved and bring your quotas back to normal ASAP! Thank you so much for your patience and understanding 🙏

译我们目前正经历一些系统问题 🛠️ 如果您使用的是付费计划,可能会注意到使用量和限制暂时受到约束。我们正在努力解决此问题,并尽快恢复您的配额! 非常感谢您的耐心和理解 🙏

Rohan Paul@rohanpaul_ai · 5月20日69

Google Gemini 3.5 Flash is super strong model for its class. Beats Gemini 3.1 Pro on so many benchmarks. An agent model with 4x faster tokens per second. And @aimlapi just added gemini 3.5 Flash to their API and keeping it FREE for 24hrs. Setup instructions in comment.

译Google Gemini 3.5 Flash 是其类别中非常强大的模型。在众多基准测试中超越了 Gemini 3.1 Pro。 这是一个代理模型,每秒处理的令牌速度快4倍。 @aimlapi 刚刚将 Gemini 3.5 Flash 添加到其 API 中,并且在24小时内免费提供。 设置说明见评论。

Chubby♨️@kimmonismus · 5月20日61

Google's Antigravity 2.0 built the core framework of a working operating system in 12 hours, spinning up 93 sub-agents and processing billions of tokens for under $1,000 in compute costs. On stage, the team booted Doom on the AI-built OS. Just imagine all the possibilities in the future!

译Google Antigravity 2.0 在12小时内构建了一个可运行操作系统的核心框架,启动了93个子代理,处理了数十亿个token,计算成本不到1000美元。 在舞台上,团队在AI构建的操作系统上启动了Doom。 想象一下未来所有的可能性!

meng shao@shao__meng · 5月20日56

Google 真的要把宝都押在每年的 I/O 上啊,Gemini 3.1 拉了几个月后,Gemini 3.5 憋到 I/O 终于发布了 Gemini 3.5 Flash 各项评测几乎全面超越 Gemini 3.1 Pro,还更快,更便宜,你就说 Gemini 3.1 有多拉吧,哦,不对,Gemini 3.5 有多强吧 😂

meng shao@shao__meng · 5月20日67

Antigravity 2.0 在 Google I/O 2026 首日发布(1.0 我还没用过 😂) 官方对它的定义: Antigravity 2.0 从「带 Agent Manager 的 IDE」走向「Agent-first 原生应用」。 btw... 这界面是不是似曾相识,Codex App、Cursor Agents 都是这样的界面布局,这会是 Agent App 的主流走向吗? btw... +1 官方演示有亮点,2:15 时,选择文件夹时,赫然出现了 “Codex” 文件夹 😁

译在 Google I/O 2026 上,Antigravity 2.0 正式发布。其核心定位从“带Agent Manager的IDE”彻底转向“Agent-first原生应用”。这是一个全新的独立桌面应用,基于多Agent团队、定时任务、原生语音及与Google产品的一键集成进行重构。值得注意的是,其界面布局与Codex App、Cursor Agents相似,这或许预示了未来Agent应用的主流界面方向。此外,演示中出现的“Codex”文件夹也暗示了其与相关工具生态的潜在关联。

Google DeepMind@GoogleDeepMind · 5月20日10

Build your next story with Gemini Omni.

译用Gemini Omni构建你的下一个故事。

Google Gemini@GeminiApp · 5月20日52

Gemini 3.5 Flash can translate complex electrical engineering constraints into an interactive UI. It can build an interactive circuit helper to design and simulate electronics with a physical build guide while generating an interactive simulation of the circuit.

译Gemini 3.5 Flash可以将复杂的电气工程约束转化为交互式界面。 它能够构建一个交互式电路助手,用于设计和模拟电子元件,同时提供物理构建指南,并生成电路的交互式模拟。

🚨 AI News | TestingCatalog@testingcatalog · 5月20日60

AI/ML API platform now supports Gemini 3.5 Flash and offers 24 hours of FREE token usage for model testing! &gt; AI/ML API is an AI platform for developers and SaaS entrepreneurs looking to integrate cutting-edge AI capabilities into their products. Check the details below 👇

译AI/ML API平台现已支持Gemini 3.5 Flash,并提供24小时免费token使用以供模型测试! > AI/ML API是一个面向开发者和SaaS创业者的AI平台,旨在帮助他们将前沿AI能力集成到产品中。 详情请查看下方 👇

Ethan Mollick@emollick · 5月20日68

Got to play with a little of this before launch as well. My experience as a social scientist was that it was more bioscience focused right now, but I think Google has been the leading lab in releasing serious AI tools to accelerate science &amp; expect to see them improve fast.

译谷歌DeepMind发布实验性AI工具集Gemini for Science,旨在为科学研究全流程提供支持。该工具包含三大组件:基于NotebookLM的文献洞察工具,可自动生成数据表与报告;基于Co-Scientist的假设生成工具,通过多智能体辩论评估研究假设;以及基于AlphaEvolve的计算发现工具,能并行测试大量代码以加速建模。工具集体现了AI作为科研力量倍增器的理念,目前在生物科学领域应用较为突出,并将持续迭代优化。

小互@xiaohu · 5月20日61

Google I/O 2026 开发者大会 完整中英文双语视频 Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发 Gemini 3.5 Flash升级为:行动大脑 Gemini Spark:远端个人 AIAgent 入口 Gemini Omni:多模态世界模型雏形

小互@xiaohu · 5月20日60

Google 智能眼镜 展示 让你"不用掏手机"就能完成日常的事情 让 Gemini 帮你 点咖啡,手机放兜里,眼镜只在最后一步确认时提示即可

Berryxia.AI@berryxia · 5月20日63

Gemini Omni 不仅仅是构建看起来真实的场景,它还能推理接下来应该发生什么。 它将对物理学的直观理解与 Gemini 对历史、科学和文化背景的知识相结合。 今天开始向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,首先支持视频输出,通过

译Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。

Berryxia.AI@berryxia · 5月20日46

Gemini 3.5 flash 使用反重力工具,一句话使用多个Agent同时写作构建整个城市的过程,还挺有意思的。

Berryxia.AI@berryxia · 5月20日71

Google I/O 大会发布会重要的一个发布就是它! Google DeepMind今天直接把“从任何东西生成任何东西”这件事,迈出了第一步。 他们发布了Gemini Omni。 不仅仅是又一个视频生成工具,而是想把Gemini和生成媒体系统彻底融合。 它真正懂物理、懂历史、懂文化、懂故事逻辑。 你能定义一个角色,然后随便扔进任何场景,它都能保持一致的外貌、动作和光影。 你能用自然语言改风格、加效果,或者直接把你自己拍的视频重新想象——改环境、加物体、换动作,全程对话式操作。 以前生成视频是“拍完一段就结束”,现在它是活的、可编辑的、能持续演进的世界。 视频终于不再是死的内容,是可以被实时重写的“世界素材”。 Gemini Omni Flash已经在Gemini App、Flow by Google和YouTube Shorts上线,几周后也会开放API。 PS:有人说效果不如SD2,尤其中文就更不用说了。 但是支持片段编辑的效果还不错。

译Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。

Berryxia.AI@berryxia · 5月20日63

兄弟们,Google I/O 2026 昨晚 Keynote 完整总结! 不想看长文就看一图流总结吧~· Sundar Pichai 主讲,主题直指「Agentic Gemini 时代」AI 不再是聊天机器人,而是能自主思考、执行任务、跨设备运行的「世界模型」! 昨晚这场 2 小时 keynote 没有放出大家之前狂猜的 Gemini 4.0 / Veo 4,而是聚焦更务实、更落地的 Gemini 3.5 系列 + Omni 世界模型,直接把 AI 推向操作系统级智能体。 Google 这波操作,稳扎稳打,强调「自主执行 + 跨平台一致性」! 模型最大亮点: • Gemini 3.5 Flash:立刻可用!速度暴增(输出可达 289 tokens/秒),上下文更强,专为 agentic 任务优化,比之前快 4 倍,已成默认模型。 • Gemini Omni(最大惊喜!):全新多模态「世界模型」! 任意输入→任意输出(文本生视频/图像/音频,视频直接编辑,图像生成动作)。 它懂物理世界(重力、动能),可在聊天里实时生成/编辑视频,已整合 Nano、Genie、Veo 等能力。 Google 说:这是从「预测文本」到「模拟现实」的飞跃,还用来训练机器人了! • Gemini 3.5 Pro:下个月上线,更强推理版。 • Gemini Spark:24/7 always-on 自主 Agent,能个性化、后台持续工作,帮你自动处理邮件、日历、跨 App 任务,几乎零干预! 📱 Gemini App 彻底重做: 采用 Neural Expressive 新设计语言,动画更流畅、色彩更鲜艳、地形感更强,体验直接起飞! 🌐 全生态落地重磅功能: • Search 升级:搜索框变「AI Agents」信息代理,能主动收集、总结、持续跟踪信息,甚至「你睡觉时它还在干活」。 • Workspace / Gmail / Android Auto:AI 代理深度集成,自动生成回复、智能表单、跨 App 操作。 • 创意工具全面增强:Generative Media 直接用 Omni 驱动视频/图像/音乐生成。 • 其他:Ask YouTube、Universal Cart 通用购物车、SynthID 水印全行业推广。 🕶️ 硬件与跨设备: • Android XR 智能眼镜正式预览(非概念机)! 与 Samsung、Warby Parker、Gentle Monster 合作,今年秋季推出。 首批是轻量音频眼镜(≈50g,无显示屏,靠手机算力),支持 Gemini 实时翻译、抬头通知、视觉搜索。 2027 年才有带微 LED 显示的 AR 版。 • Googlebook + Aluminium OS:Android Show 已提前官宣,昨晚进一步演示 Magic Pointer 等 AI 深度集成,Android 正式杀入笔记本战场! 👨‍💻 开发者福利: • Google Antigravity 2.0 大升级:独立桌面/CLI 工具,支持多代理并行 coding(现场演示 93 个子代理 12 小时从零造 OS!)。 • Agent-First 开发新命令:/goal、/grill-me 等,让 AI 自主完成复杂任务。 • Gemma 开源家族、Chrome AI 智能体 Web 也有更新。 📊 总结与我的分析: Google 这场 Keynote 是「巩固而非爆炸」。 没有参数战,而是把 Gemini 真正变成操作系统级智能体,重点推动 Android、Search、眼镜等产品真实落地。 在 Agentic AI 赛道上,Google 与 OpenAI、Anthropic 保持同步,甚至在「多模态世界模拟」上领先一步! #GoogleIO

译2026年Google I/O大会的主题为“Agentic Gemini时代”,旨在将AI从聊天工具进化为能自主思考、执行任务的“世界模型”。本次大会未发布Gemini 4.0,而是推出了更务实的Gemini 3.5系列,核心包括:速度极快且为智能体优化的Gemini 3.5 Flash;能理解物理世界、实现任意模态生成的全新“世界模型”Gemini Omni;以及可24/7自主工作的智能体Gemini Spark。同时,Android XR智能眼镜和AI集成的Googlebook笔记本等硬件亮相。整体上,Google正将Gemini深度整合至其全生态,巩固其在自主AI赛道上的领先地位。

Ethan Mollick@emollick · 5月20日62

For those saying "the tomato sauce blood from the sword wound that flying Shakespeare inflicted on the pizza robot while the otters discussed Spirit Airlines wasn't thick enough" or whatever... this was state of the art in July 2025 (2 years) for "an otter using wifi on a plane"

译该推文展示了2025年7月(两年前)AI视频生成模型所能达到的“最先进”技术水平,并以此作为当前讨论的参照。引用部分提供了关键上下文:早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示(如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等),生成相应的视频内容。推文作者通过展示这一历史技术状态,回应了关于生成内容细节真实性的讨论。

小互@xiaohu · 5月20日55

看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形... 通用AGI的初始形态...

Google AI Developers@googleaidevs · 5月20日73

Using the new Managed Agents in the Gemini API, @Ramp built their advanced finance agents without touching the backend infrastructure. Learn more ↓

译通过使用Gemini API中的新托管代理功能,@Ramp在无需接触后端基础设施的情况下构建了其高级财务代理。 了解更多 ↓

Ethan Mollick@emollick · 5月20日64

Google has hidden thinking traces on the Gemini site. You have to use the 3 dot menu to pull up summaries, which are so minimal as to be unusable. Did it do web searches? Did it check results? You can't tell. This makes Gemini unsuitable for any serious work you need correct.

译Google在Gemini网站上隐藏了思考痕迹。你必须使用三点菜单才能调出摘要,但这些摘要过于简略,几乎无法使用。 它是否进行了网络搜索?是否检查了结果?你无从得知。这使得Gemini不适合任何需要准确性的严肃工作。

Ethan Mollick@emollick · 5月20日59

The gap between what you can do on ChatGPT/Codex and Claude/Code/Cowork is closing, as Anthropic &amp; OpenAI converge on a single experience. Google's experiences are diverging: Studio &amp; Gemini &amp; Antigravity &amp; the other Google AI apps are increasingly different. Which will win?

译ChatGPT/Codex 与 Claude/Code/Cowork 之间的能力差距正在缩小,因为 Anthropic 和 OpenAI 正在趋同于单一的体验。 Google 的体验则在分化:Studio、Gemini、Antigravity 及其他 Google AI 应用正变得越来越不同。 谁将胜出?

Josh Woodward@joshwoodward · 5月20日71

Introducing Gemini Spark! Our 24/7 personal AI agent designed to proactively manage tasks and help you navigate your digital life, all under your direction. Coming to trusted testers this week, and as a Beta for US Google AI Ultra subscribers next week!

译推出 Gemini Spark! 我们设计的全天候个人AI代理,旨在主动管理任务并帮助您驾驭数字生活,一切都在您的掌控之下。 本周将向受信任的测试人员推出,下周将作为Beta版面向美国 Google AI Ultra 订阅用户开放!

Google Gemini@GeminiApp · 5月20日61

Create videos with your own voice and likeness using avatars with Gemini Omni. When you create an avatar, you have an AI digital version of yourself so you can easily generate videos that look and sound like you. No need to upload your image every time.

译使用Gemini Omni,你可以用自己的声音和形象创建数字分身视频。 当你创建一个数字分身后,你就拥有了自己的AI数字版本,可以轻松生成外观和声音都像你的视频,无需每次都上传你的图像。

Orange AI@oran_ge · 5月20日56

看 Google IO 的的感受是这样的: 前半段,Google 太强了,真的什么都做了,从模型到应用,牛逼 后半段,Google 太乱了,怎么什么都做三遍,功能都一样,累了

译看 Google IO 的感受是这样的: 前半段,Google 太强了,真的什么都做了,从模型到应用,牛逼 后半段,Google 太乱了,怎么什么都做三遍,功能都一样,累了

宝玉@dotey · 5月20日51

Antigravity 2.0 和 Codex 长一个样😂 Google 舍得拉下脸抄一下 UI/UX 也不是坏事,这样不会像 Gemini UI 那样难用了

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
13:05
Berryxia.AI@berryxia
65
Gemini 3.5 Flash上线,极速性能全面进化

Gemini 3.5 Flash已在ZenMux平台首发并提供免费体验。该模型从提示词到生成完整HTML动画仅用77.56秒,速度极快且效果出色。其专为Agent设计,在MCP Atlas、Toolathlon等多项榜单中排名第一。多模态理解能力显著提升,MMMU-Pro达83.6%,全面超越上一代模型。该模型兼容主流API格式,支持按量计费和Builder套餐,可无缝集成现有工具链。

Google编码评测/基准
13:05
Berryxia.AI@berryxia
70
一个生成递归二叉树HTML动画的测试提示词被广泛用于评估AI模型能力。Gemini 3.5 Flash于Google I/O 2026后在ZenMux平台迅速上线,官方测试显示其使用该提示词生成完整动画仅需约78秒,效果出色。文章推荐用户立即在ZenMux等平台免费体验Gemini 3.5 Flash,并通过该提示词与其他模型进行对比,直观感受其在速度和生成质量上的表现。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

Google教程/实践编码
12:55
AYi@AYi_AInotes
70
哇,Google这次憋了个大招啊,这个必须得玩一下,Android党有福了(⚆_⚆)📱 #GoogleIO

Google: Native @Android development is now supported in @GoogleAIStudio so you can build high-quality Android apps with just a p...

Google产品更新编码
12:36
凡人小北@frxiaobei
10
Google 新发布的东西都不想体验了,股票走势说明了一切。 但是可以考虑抄个底,静待 pro 发布。
Google大佬观点
11:11
歸藏(guizang.ai)@op7418
55
谷歌 Genie 3 实现街景交互生成与风格化

谷歌 Genie 3 新增了基于 Google 街景生成可交互虚拟世界的功能。用户可以选择美国任意街景地点作为首帧图像,生成对应的可探索环境,带来强烈的代入感。该功能还支持风格化处理,能将现实场景转化为海底世界、末日废土等不同风格的虚拟场景。

Google产品更新多模态视频
11:05
Berryxia.AI@berryxia
17
看到这个图觉得Google这个发布会。。。。。
Google其他
10:10
歸藏(guizang.ai)@op7418
56
AI Studio更新:集成谷歌数据与安卓开发新能力

AI Studio此次更新主要包含两项能力升级:一是能够直接从Google Docs和Google Sheets拉取数据,并将其作为应用的后端数据库;二是新增了在网页环境中开发安卓应用程序的功能。实测显示,其内置的3.1 Pro模型在安卓开发场景的表现目前尚不及前端开发。但此次更新的最大亮点是在平台内直接集成了一个安卓模拟器,这一设计极大简化了开发与测试流程。

Google产品更新编码
10:05
ginobefun@hongming731
66
Google I/O 2026、Karpathy加入Anthropic与Claude企业安全更新

今日科技圈三事共同指向智能体工程化趋势。Google I/O 2026将Gemini模型、Antigravity CLI与WebMCP等工具整合为完整开发链路,支持子智能体并发调度。Anthropic同步发布Claude Managed Agents的自托管沙箱与MCP Tunnels,解决了企业安全执行与私有数据接入问题。此外,Andrej Karpathy宣布加入Anthropic,被视为对其研究路线的重要背书。三者表明行业焦点已从提升模型基准,转向构建可工程化、可安全落地的智能体生产系统。

AnthropicGoogle现象/趋势
10:05
ginobefun@hongming731
56
2026年5月20日 AI早报

2026年5月20日,AI领域释放密集信号。Google通过Antigravity CLI和WebMCP强化智能体生态;Andrej Karpathy加入Anthropic,被视为对其发展路径的背书。此外,Claude自托管沙箱、Spotify生成式推荐引擎等进展,表明AI正从基础模型竞争转向具体应用、工具和基础设施构建。

AnthropicGoogle编码行业动态
10:04
Rohan Paul@rohanpaul_ai
74
谷歌发布Gemini 3.5 Flash:速度更快、性价比更高的代理模型

谷歌推出Gemini 3.5 Flash模型,其输出速度提升至四倍,在终端基准测试等多项高难度任务中超越了Gemini 3.1 Pro。该模型以高速度与低成本,成为适合日常工作的强大代理工具。它已登陆Gemini应用、搜索AI模式及企业级产品等平台。配合升级的Antigravity工具,Gemini 3.5 Flash可驱动协作子代理,大规模并行处理代码审查、重写与测试等复杂任务,实现高效自动化工作流。

Rohan Paul: Gemini 3.5 in few more hours. 🔥

智能体Google推理模型发布
09:19
StepFun@StepFun_ai
68
Google推出Gemini 3.5 Flash模型,现已向所有用户开放,并集成到其产品与API中。相比Gemini 3.1 Pro,3.5 Flash在几乎所有基准测试中均有提升,编程能力进步尤为显著。该模型性能媲美顶尖模型,但生成速度极快(比其他前沿模型快4倍),在"智能与输出速度"的评估维度中位于顶尖象限,实现了效率与效果的卓越平衡。

Sundar Pichai: Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @a...

Google多模态编码行业动态
09:14
meng shao@shao__meng
76
Gemini 推出个人 7*24 运行的 Agent「Gemini Spark」

Google 发布了名为「Gemini Spark」的个人 AI 代理,它能全天候在云端独立运行,即使手机或电脑关机,任务仍会继续。其核心能力在于自主执行复杂的多步骤任务(如邮件处理、文件管理),但操作始终在用户指令下进行,重大步骤前需确认。产品架构包括执行任务的“Tasks”、可复用的“Skills”以及定时触发的“Schedules”。它默认深度集成 Gmail、日历、云端硬盘等 Google Workspace 应用,未来还计划通过 MCP 支持第三方应用。

Google: Introducing Gemini Spark ✨ It's your 24/7 personal AI agent that helps you navigate your digital life, taking action on ...

智能体Google产品更新
09:14
meng shao@shao__meng
64
Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?!

Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle多模态模型发布
09:14
meng shao@shao__meng
67
Google Stitch 在 I/O 2026 发布五大核心更新

Google Stitch 在 I/O 2026 推出五大核心更新,标志着从异步生成转向实时可交互协作模式。新增 Streaming 功能,支持边生成边预览与纠偏;能从代码、Figma 或网站自动生成 DESIGN.md 作为设计中枢;画布升级为原生 HTML Canvas 交互运行时,可实时测试动效;支持一键导出至 Netlify 等平台,打通设计到部署流程;通过 Agent 与 MCP 技术,实现视觉设计与代码仓库双向同步,形成完整设计-开发闭环,定位为连接设计师与开发者的可视化编辑枢纽。

Stitch by Google: Your vibe design partner just got more collaborative! To celebrate I/O, here are 5 major upgrades (and one big bonus!): ...

GoogleMCP/工具产品更新
09:10
歸藏(guizang.ai)@op7418
59
谷歌Antigravit 2.0测试与Gemini编程体验

谷歌在I/O大会上整合Antigravit生态,推出Antigravit CLI和SDK,并升级至2.0版本,功能更接近Codex。测试显示,与Gemini 3.5 Flash配合后效果有所提升,但存在权限审批繁琐和细节体验不足的问题,如缺乏内置浏览器支持。Gemini的Agent能力较强,适合基础工作,特别是在PPT Skills测试中,其多模态能力有助于减少排版错误。整体仍处于早期阶段。

智能体Google大佬观点编码
09:08
Demis Hassabis@demishassabis
81
Gemini 3.5 Flash 太棒了! - 在编码和智能体任务上表现优于 3.1 Pro - 速度比其他前沿模型快 4 倍 - 在 @antigravity 中快 12 倍 - 达到 800 tokens/sec! - 成本通常不到一半 Pro 版本即将到来… 在 @antigravity、@GeminiApp 等平台体验吧 - 享受吧!
智能体Google模型发布编码
09:05
NotebookLM@NotebookLM
40
我们目前正经历一些系统问题 🛠️ 如果您使用的是付费计划,可能会注意到使用量和限制暂时受到约束。我们正在努力解决此问题,并尽快恢复您的配额! 非常感谢您的耐心和理解 🙏
Google行业动态
09:04
Rohan Paul@rohanpaul_ai
69
Google Gemini 3.5 Flash 是其类别中非常强大的模型。在众多基准测试中超越了 Gemini 3.1 Pro。 这是一个代理模型,每秒处理的令牌速度快4倍。 @aimlapi 刚刚将 Gemini 3.5 Flash 添加到其 API 中,并且在24小时内免费提供。 设置说明见评论。

AI/ML API: .@Google : "We're releasing Gemini 3.5 Flash" Us: *We're offering it for free* free for 24hrs via our API find instructi...

Google多模态模型发布
09:03
Chubby♨️@kimmonismus
61
Google Antigravity 2.0 在12小时内构建了一个可运行操作系统的核心框架,启动了93个子代理,处理了数十亿个token,计算成本不到1000美元。 在舞台上,团队在AI构建的操作系统上启动了Doom。 想象一下未来所有的可能性!
智能体Google产品更新
08:44
meng shao@shao__meng
56
Gemini 3.5发布,性能全面超越前代

Google 真的要把宝都押在每年的 I/O 上啊,Gemini 3.1 拉了几个月后,Gemini 3.5 憋到 I/O 终于发布了 Gemini 3.5 Flash 各项评测几乎全面超越 Gemini 3.1 Pro,还更快,更便宜,你就说 Gemini 3.1 有多拉吧,哦,不对,Gemini 3.5 有多强吧 😂

Google DeepMind: Introducing Gemini 3.5: our newest family of models combining frontier intelligence with real-world action. The first re...

智能体Google编码评测/基准
08:44
meng shao@shao__meng
67
Antigravity 2.0 在 Google I/O 2026 发布,定位 Agent-first 原生应用

在 Google I/O 2026 上,Antigravity 2.0 正式发布。其核心定位从“带Agent Manager的IDE”彻底转向“Agent-first原生应用”。这是一个全新的独立桌面应用,基于多Agent团队、定时任务、原生语音及与Google产品的一键集成进行重构。值得注意的是,其界面布局与Codex App、Cursor Agents相似,这或许预示了未来Agent应用的主流界面方向。此外,演示中出现的“Codex”文件夹也暗示了其与相关工具生态的潜在关联。

Google Antigravity: Introducing Antigravity 2.0, a new standalone desktop application that delivers fully on that original glimpse of a trul...

智能体Google产品更新
08:42
Google DeepMind@GoogleDeepMind
10
用Gemini Omni构建你的下一个故事。
Google其他
08:38
Google Gemini@GeminiApp
52
Gemini 3.5 Flash可以将复杂的电气工程约束转化为交互式界面。 它能够构建一个交互式电路助手,用于设计和模拟电子元件,同时提供物理构建指南,并生成电路的交互式模拟。
Google产品更新多模态
08:37
🚨 AI News | TestingCatalog@testingcatalog
60
AI/ML API平台现已支持Gemini 3.5 Flash,并提供24小时免费token使用以供模型测试! > AI/ML API是一个面向开发者和SaaS创业者的AI平台,旨在帮助他们将前沿AI能力集成到产品中。 详情请查看下方 👇

AI/ML API: .@Google : "We're releasing Gemini 3.5 Flash" Us: *We're offering it for free* free for 24hrs via our API find instructi...

Google产品更新多模态
08:32
Ethan Mollick@emollick
68
谷歌DeepMind发布实验性AI工具集Gemini for Science,旨在为科学研究全流程提供支持。该工具包含三大组件:基于NotebookLM的文献洞察工具,可自动生成数据表与报告;基于Co-Scientist的假设生成工具,通过多智能体辩论评估研究假设;以及基于AlphaEvolve的计算发现工具,能并行测试大量代码以加速建模。工具集体现了AI作为科研力量倍增器的理念,目前在生物科学领域应用较为突出,并将持续迭代优化。

Pushmeet Kohli: The results of the research happening in my team @GoogleDeepMind have convinced me that the next era of scientific disco...

智能体DeepMindGoogle产品更新
08:19
小互@xiaohu
61
Google I/O 2026 开发者大会 完整中英文双语视频 Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发 Gemini 3.5 Flash升级为:行动大脑 Gemini Spark:远端个人 AIAgent 入口 Gemini Omni:多模态世界模型雏形
智能体Google多模态教程/实践
08:19
小互@xiaohu
60
Google 智能眼镜 展示 让你"不用掏手机"就能完成日常的事情 让 Gemini 帮你 点咖啡,手机放兜里,眼镜只在最后一步确认时提示即可
Google产品更新多模态端侧
08:05
Berryxia.AI@berryxia
63
Gemini Omni:不止于真实,更懂推理

Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。

Google产品更新多模态视频
08:05
Berryxia.AI@berryxia
46
Gemini 3.5 flash 使用反重力工具,一句话使用多个Agent同时写作构建整个城市的过程,还挺有意思的。
智能体Google教程/实践
08:05
Berryxia.AI@berryxia
71
Google DeepMind发布Gemini Omni,迈向"生成万物"愿景

Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

Google多模态模型发布视频
08:05
Berryxia.AI@berryxia
63
Google I/O 2026大会总结:迈向Agentic Gemini时代

2026年Google I/O大会的主题为“Agentic Gemini时代”,旨在将AI从聊天工具进化为能自主思考、执行任务的“世界模型”。本次大会未发布Gemini 4.0,而是推出了更务实的Gemini 3.5系列,核心包括:速度极快且为智能体优化的Gemini 3.5 Flash;能理解物理世界、实现任意模态生成的全新“世界模型”Gemini Omni;以及可24/7自主工作的智能体Gemini Spark。同时,Android XR智能眼镜和AI集成的Googlebook笔记本等硬件亮相。整体上,Google正将Gemini深度整合至其全生态,巩固其在自主AI赛道上的领先地位。

智能体Google多模态现象/趋势
08:02
Ethan Mollick@emollick
62
该推文展示了2025年7月(两年前)AI视频生成模型所能达到的"最先进"技术水平,并以此作为当前讨论的参照。引用部分提供了关键上下文:早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示(如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等),生成相应的视频内容。推文作者通过展示这一历史技术状态,回应了关于生成内容细节真实性的讨论。

Ethan Mollick: I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...

Google多模态大佬观点视频
07:49
小互@xiaohu
55
看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形… 通用AGI的初始形态…
Google多模态现象/趋势视频
07:33
Google AI Developers@googleaidevs
精选73
通过使用Gemini API中的新托管代理功能,@Ramp在无需接触后端基础设施的情况下构建了其高级财务代理。 了解更多 ↓
智能体Google产品更新

推荐理由:Google把agent构建的后端复杂度藏起来了,Ramp没碰基础设施就上了金融agent,这对所有想做agent的产品团队都是个明确信号,门槛降了不少。
07:32
Ethan Mollick@emollick
64
Google在Gemini网站上隐藏了思考痕迹。你必须使用三点菜单才能调出摘要,但这些摘要过于简略,几乎无法使用。 它是否进行了网络搜索?是否检查了结果?你无从得知。这使得Gemini不适合任何需要准确性的严肃工作。
Google大佬观点搜索
07:32
Ethan Mollick@emollick
59
ChatGPT/Codex 与 Claude/Code/Cowork 之间的能力差距正在缩小,因为 Anthropic 和 OpenAI 正在趋同于单一的体验。 Google 的体验则在分化:Studio、Gemini、Antigravity 及其他 Google AI 应用正变得越来越不同。 谁将胜出?
AnthropicGoogleOpenAI现象/趋势
07:12
Josh Woodward@joshwoodward
71
推出 Gemini Spark! 我们设计的全天候个人AI代理,旨在主动管理任务并帮助您驾驭数字生活,一切都在您的掌控之下。 本周将向受信任的测试人员推出,下周将作为Beta版面向美国 Google AI Ultra 订阅用户开放!
智能体Google产品更新
07:08
Google Gemini@GeminiApp
61
使用Gemini Omni,你可以用自己的声音和形象创建数字分身视频。 当你创建一个数字分身后,你就拥有了自己的AI数字版本,可以轻松生成外观和声音都像你的视频,无需每次都上传你的图像。
Google产品更新多模态视频
07:06
Orange AI@oran_ge
56
看 Google IO 的感受是这样的: 前半段,Google 太强了,真的什么都做了,从模型到应用,牛逼 后半段,Google 太乱了,怎么什么都做三遍,功能都一样,累了
Google大佬观点行业动态
06:42
宝玉@dotey
51
Antigravity 2.0 和 Codex 长一个样😂 Google 舍得拉下脸抄一下 UI/UX 也不是坏事,这样不会像 Gemini UI 那样难用了

Google Antigravity: Introducing Antigravity 2.0, a new standalone desktop application that delivers fully on that original glimpse of a trul...

智能体Google产品更新语音
‹ 上一页
1…1011121314…24
下一页 ›