AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 936 条
全部一手资讯X论文
标签「Google」清除
Josh Woodward@joshwoodward · 5月29日41

We’ve heard your feedback about hitting limits too quickly on @GeminiApp. We're rolling out several fixes to make your quota stretch further and feel more predictable… 🧵

译我们已收到关于在@GeminiApp上过快达到使用限制的反馈。我们正在推出多项修复措施,以使您的配额使用更持久、体验更可预测… 🧵

Google AI@GoogleAI · 5月29日24

Some fun Gemini Omni use cases from the community 🧵👇

译一些来自社区的有趣Gemini Omni用例 🧵👇

Rohan Paul@rohanpaul_ai · 5月29日23

Google Omni deserves a more hype.

译Google Omni 值得更多关注。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日63

GOOGLE 🔥: Both Nano Banana 2 and Nano Banana Pro are now in General Availability on the APIs! > NEW: Nano Banana 2 now supports video files as an input prompt. > The 1K and 2K output capabilities are generally available for both models, while the 4K capability remains in preview. > General Availability means that these models are backed by enterprise-grade infrastructure and security.

译Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Google AI Developers@googleaidevs · 5月29日52

Save countless hours of manual migration work. Watch messy legacy code autonomously modernize into Next.js in this example from @Antigravity, powered by Gemini 3.5 Flash.

译节省大量手动迁移工作。观看混乱的遗留代码在 @Antigravity 的示例中,由 Gemini 3.5 Flash 驱动,自主现代化为 Next.js。

Google Gemini@GeminiApp · 5月29日62

You’re in luck! Users in India can now upload videos (from their camera roll or saved files) and use Gemini Omni to edit and transform them. Give it a try and let us know what you think.

译好消息!印度用户现在可以上传视频(来自相册或已保存文件),并使用Gemini Omni进行编辑和转换。快来试试,并告诉我们你的想法。

Google AI Developers@googleaidevs · 5月29日71

🍌 Nano Banana Pro [gemini-3-pro-image] and Nano Banana 2 [gemini-3.1-flash-image] are now GA and ready for production via the Gemini API. Check out these great community examples to see the capabilities of both models in action 🧵↓

译🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓

Google AI Developers@googleaidevs · 5月29日71

🍌 Nano Banana Pro [gemini-3-pro-image] and Nano Banana 2 [gemini-3.1-flash-image] are now GA and ready for production via the Gemini API. Check out these great community examples to see the capabilities of both models in action 🧵↓

译🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓

Google AI@GoogleAI · 5月29日41

We wanted to see if we could take simple, physical materials (like cardboard and markers) and use AI to bring them to life. What was the result? A short film starring a bunch of TPUs getting ready for the big stage at Google I/O 2026! Working with director Laurie Rowan and Nexus Studios, we kept human artistry at the center of the film by blending puppetry and 3D animation with our models to do the following ↓ Nano Banana: Generated beautifully stylized first frames from the raw puppet footage and basic 3D animations. @GoogleAIStudio: Built a custom tool inside the platform to test these frames at scale, ensuring pixel-perfect consistency Gemini Omni & experimental @GoogleDeepMind Models: Merged the base animation and stylized frames to elevate the final piece to a cinematic level. Our AI pipelines were specifically designed to protect the crafty details that give these films their heart, like the tiny human imperfections of puppetry, or the nuance an animator can build into an expression.

译Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事,创作中融合了木偶戏与3D动画。核心工具包括:Nano Banana(从原始木偶镜头和基础3D动画生成风格化首帧)、Google AI Studio(构建定制工具以大规模测试帧并确保一致性)、以及Gemini Omni和Google DeepMind的实验性模型(合并基础动画与风格化帧,提升至电影级画面)。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节,例如木偶戏的细微不完美感。

AYi@AYi_AInotes · 5月29日48

那些说@Google Omni拉胯,说不如seedance 2.0的人看过来, Omni演示的把一个普通人手变成活体解剖演示, 肌肉、肌腱、骨骼全都看得清清楚楚,这用在生物医学相关的课上,简直就是最完美的解剖教学啊🤯

译推文回应了关于Google Omni能力的争议,展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构,被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0,强调了该技术在教育领域的独特应用价值。

Google Gemini@GeminiApp · 5月29日58

Great news: Users in India can now upload and edit videos directly with Gemini Omni! Get started in the app or http://gemini.google.com: > Upload your video > Tell Gemini the change you want to make > Enjoy your new creation We can't wait to see what you make!

译好消息:印度用户现在可以直接使用Gemini Omni上传和编辑视频了! 在应用或 http://gemini.google.com 中开始使用: > 上传您的视频 > 告诉Gemini您想要进行的更改 > 享受您的新作品 我们迫不及待想看到您的创作!

OpenRouter@OpenRouter · 5月28日69

TIP: You can use Flex and Priority tiers for supported models (OpenAI, Google Vertex, & more) Pricing available on each model page. Docs: https://openrouter.ai/docs/guides/features/service-tiers

译提示:您可以为支持的模型(OpenAI、Google Vertex 等)使用 Flex 和 Priority 层级。 定价信息请查看各模型页面。文档:https://openrouter.ai/docs/guides/features/service-tiers

Chubby♨️@kimmonismus · 5月28日46

Bloomberg leaked Apple's full iOS 27 Siri redesign. Two years of delays, biggest update in Siri's history, etc. So what's the actual architecture? It runs on Google Gemini. And the new interface has a dropdown menu where you pick ChatGPT or Claude instead. Apple rebuilt Siri from scratch and the conclusion was apparently "let users choose someone else's model." Apple is also shipping: AI-powered web search that competes with Perplexity, natural language Shortcuts creation, and AI photo editing

译Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。

NotebookLM@NotebookLM · 5月28日52

ICYMI, check out our public notebook summarizing all of the top announcements from Google I/O 2026. Access it here: https://goo.gle/4dR9MiQ

译如果你错过了,可以查看我们公开的笔记本,其中总结了 Google I/O 2026 的所有重要公告。 访问地址:https://goo.gle/4dR9MiQ

🚨 AI News | TestingCatalog@testingcatalog · 5月28日45

ICYMI 👀: Users with access to Google Genie experiment now can use locations from Google Maps to generate virtual worlds. “Golden Gate Bridge” 🤖

译如果你错过了 👀:现在,拥有 Google Genie 实验访问权限的用户可以使用 Google 地图中的地点来生成虚拟世界。 “金门大桥” 🤖

Berryxia.AI@berryxia · 5月28日58

Google直接把本地AI从“玩具”干成了真正的生产力武器。 他们刚刚发布最新一代Coral板,搭载Gemma系列模型,能在设备端实时完成: - 板载语音翻译 - 自然语言直接控制硬件 - 视觉+声音生成音乐 完全不需要云端,不需要联网,不需要把数据传出去。 以前大家总觉得本地AI“差点意思”,现在Google用硬件+模型的深度结合,直接把延迟、隐私、成本这些老大难问题一次性解决。 Coral板今年夏天就上线,这波操作等于把AI的战场从云端彻底拉回到了你手里的设备上。

译Google发布最新Coral开发板,搭载Gemma系列模型,实现高效的本地设备端AI。核心演示包括板载实时语音翻译、通过自然语言控制硬件,以及利用视觉与声音生成音乐。此次升级的关键在于无需云端联网,解决了传统本地AI在延迟、隐私和成本方面的痛点。通过硬件与模型的深度结合,Google将AI的应用场景从云端拉回设备本地,计划于今年夏天推出。

AYi@AYi_AInotes · 5月28日52

一个地图截图+手绘路径, 就能生成这么流畅、物理感强的无人机POV航拍视频, 相比seedance、Kling,Google Omni最擅长的应该就是这种精确的相机控制,空间理解、世界模型的真实感

Ethan Mollick@emollick · 5月28日60

Google has the only true Omni model, but the elements aren't hooked up. It appears it can take in & output audio, images. video, songs, text, code, etc. But right now each type of output is separate. When you can access the model directly, blending modes, a lot becomes possible.

译Google拥有唯一真正的全模态模型,但各元素尚未连接。它似乎能接收和输出音频、图像、视频、歌曲、文本、代码等。但目前每种输出类型都是分离的。当你能直接访问模型,混合模式,很多事情就变得可能了。

Google AI Developers@googleaidevs · 5月28日24

We love a good dogfooding session! 🐶 Before bringing these updates to you, we asked Googlers to try building @AndroidDev apps in @GoogleAIStudio. Here are some of our faves…

译我们喜欢内部测试!🐶 在向大家推出这些更新之前,我们让Googlers在@GoogleAIStudio中尝试构建@AndroidDev应用。 以下是我们的一些最爱…

Chubby♨️@kimmonismus · 5月28日35

I just watched the clip @arrakis_ai created and I'm really impressed with Google's Omni. You can pause the clip at any frame and the text on the Pokémon card remains perfectly legible and unaltered. The consistency and continuity are next level.

译我刚看了@arrakis_ai制作的片段,对Google的Omni印象深刻。 你可以在任意帧暂停,宝可梦卡牌上的文字都保持完美清晰且未改变。这种一致性和连续性是顶级水平。

Google Gemini@GeminiApp · 5月28日77

Easily transform your videos into new visual styles with Gemini Omni. Just upload a video or photo and ask Gemini to apply a look or style to your final output.

译使用 Gemini Omni 轻松将您的视频转换为新的视觉风格。 只需上传视频或照片,并要求 Gemini 为您的最终输出应用某种外观或风格。

Google AI@GoogleAI · 5月28日35

Look back at last week’s I/O announcements with @NotebookLM. You can listen to an audio overview, watch the video recap, and even check out our detailed slide deck summarizing all of the biggest news and launches. Check it out here: https://blog.google/innovation-and-ai/products/notebooklm/notebooklm-google-io-2026/?linkId=62068662

译回顾上周的 I/O 大会公告,与 @NotebookLM 一起。 您可以收听音频概览,观看视频回顾,甚至查看我们详细总结所有重大新闻和发布的幻灯片。 在此查看:https://blog.google/innovation-and-ai/products/notebooklm/notebooklm-google-io-2026/?linkId=62068662

Google AI@GoogleAI · 5月28日45

Look back at last week’s I/O announcements with @NotebookLM. You can listen to an audio overview, watch the video recap, and even check out our detailed slide deck summarizing all of the biggest news and launches. Check it out here: http://goo.gle/4xcgBoj

译与 @NotebookLM 一起回顾上周的 I/O 发布内容。 你可以收听音频概览、观看视频回顾,甚至查看我们详细的幻灯片,总结所有重大新闻和发布。 在此查看:http://goo.gle/4xcgBoj

Google AI Developers@googleaidevs · 5月28日49

Agents require speed and performance across complex tasks. Watch Gemini 3.5 Flash’s intelligence tackle these tasks at scale while you build ↓

译智能体需要在复杂任务中兼顾速度与性能。 观看 Gemini 3.5 Flash 的智能如何大规模处理这些任务,同时您进行构建 ↓

Google Gemini@GeminiApp · 5月28日51

From the #GoogleIO stage straight to the Gemini Discord Stage, join us for our next community event as we dive into two new agentic tools (Gemini Spark and Daily Brief) with members of the team who brought them to life. See these new features in action with live demos, plus get a chance to ask your questions live. 👉Join our Discord to watch live: http://discord.gg/gemini 📅 Today (Wednesday, May 27) at 11:30 AM PT

译从 #GoogleIO 舞台直接来到 Gemini Discord 舞台,加入我们的下一场社区活动,我们将与团队成员一起深入探讨两个新的智能体工具(Gemini Spark 和 Daily Brief)。 观看这些新功能的现场演示,并有机会实时提问。 👉加入我们的 Discord 观看直播:http://discord.gg/gemini 📅 今天(周三,5月27日)太平洋时间上午 11:30

Chubby♨️@kimmonismus · 5月28日80

I sat down with Robby Stein (@rmstein), Google’s VP of Product for Search, at @Google I/O. Robby is one of the most interesting product leaders in tech: he helped build Instagram Stories, Reels and Close Friends, and now leads core Google Search products including AI Overviews, AI Mode, Lens and ranking. We talked about one of the biggest shifts in the history of the web: Google Search becoming AI-native. Topics we covered: • AI Mode and whether it is an evolution of Search or a reinvention of it • how Google breaks complex questions into multiple searches behind the scenes • why AI search is much more expensive to run than traditional search • whether Google’s TPUs and infrastructure give it an advantage no one else can match • why Search volume is growing instead of being cannibalized by AI • the tension between great AI answers and traffic for publishers • how Google decides which sources and links to show • what a better internet could look like if AI Search works as intended The big question behind the whole conversation: If Google gives you the answer directly, what happens to the link-based web? A small caveat: sadly the microphones didnt work properly. Therefore the audio quality in this episode isn't perfect due to a recording issue - we appreciate your understanding.

译本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈,核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因,以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑,并围绕一个核心问题展开:如果Google直接给出答案,传统的基于链接的网页生态将走向何方?

Josh Woodward@joshwoodward · 5月28日59

A top feature request is rolling out in @NotebookLM: Google Drive files will now automatically sync! 🔄 We're actively rolling this out, starting with 10% today and ramping up soon.

译一项备受期待的功能正在 @NotebookLM 中推出:Google Drive 文件现在将自动同步!🔄 我们正在积极推出此功能,今天从 10% 的用户开始,很快将逐步扩大范围。

🚨 AI News | TestingCatalog@testingcatalog · 5月28日64

GOOGLE 🔥: Gemini for Business will get a new experience for collaborative Projects, where teams can work in a shared environment. Besides that, Google is rolling out Workflow Agents that can work on automation tasks across various apps. The same functionality is now available on Gemini Enterprise and will become better integrated into the core Gemini for Business experience. Is it only me, or does Gemini for Business feel much better than consumer-facing Gemini?

译GOOGLE 🔥: Gemini for Business 将推出协作项目新体验,团队可在共享环境中工作。 此外,Google 正推出可在多个应用中执行自动化任务的工作流智能体。相同功能现已在 Gemini Enterprise 上可用,并将更好地集成到 Gemini for Business 的核心体验中。 是我一个人这么觉得,还是 Gemini for Business 确实比面向消费者的 Gemini 体验好得多?

Google Gemini@GeminiApp · 5月27日75

Add text, video, or up to five images as your ingredients and Gemini Omni can combine them all into one cohesive ten-second video. Try it today and share your creations in the replies. 👇

译添加文本、视频或最多五张图片作为素材,Gemini Omni可以将它们全部组合成一个连贯的十秒视频。 今天就来试试,并在回复中分享你的创作。👇

宝玉@dotey · 5月27日55

Gemini 2.5 Pro 之前,Google 模型没有超过 GPT-4 的好么 现在 Gemini 又开始掉队了……

译前Gemini核心科学家透露,Google在技术上曾领先,其MoE模型GLaM(2021年)已超越GPT-3,PaLM 2(2023年初)早已训练完成。然而,因组织问题,为等待Google I/O大会,PaLM 2的发布被推迟,而OpenAI抢先发布GPT-4,从而改写了市场叙事。

歸藏(guizang.ai)@op7418 · 5月27日67

OpenRouter 获得 1.3 亿美元的 B 轮融资 感觉这个估值有点低了,这种聚合 API 后面应该是新的 Token 经济的基础平台

Berryxia.AI@berryxia · 5月27日71

兄弟们,我最近刷到一个把 本地模型Gemma 4玩出新花样的项目,直接看呆了。 你打开一个复古风地牢爬行游戏,角色走到一个NPC面前,随手一句Prompt,它居然现场给你搭出一个能跑的Web App。 这就是Google Gemma团队刚推出的AIventure,一个完全开源的地牢爬行游戏,却被做成了开发者大师课。 核心玩法:把agentic workflow和vibe-coding塞进游戏里:你边玩边学怎么让AI真正去执行复杂任务,而不是只停在聊天框里。 Gemma 4在这套系统里负责实时理解你的指令、规划步骤、调用工具,最后把代码落地成真实应用。 整个项目从游戏机制到agent集成,全都开源了。 项目地址GitHub在这里👇🏻

译Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。

🚨 AI News | TestingCatalog@testingcatalog · 5月27日41

GOOGLE 🔥: AI Studio Build will soon get support for Themes, where users will be able to choose between 8 pre-defined presets or create their own. Design MD support would be nice 👀 h/t @thomas_gmry

译GOOGLE 🔥: AI Studio Build 很快将支持主题功能,用户可以在 8 个预定义预设中选择,或创建自己的主题。 设计 MD 支持会很不错 👀 h/t @thomas_gmry

Nathan Lambert@natolambert · 5月27日32

Free the 100B Gemma 4 MoE! Gemini Flash 3.5 is out so now you can release it!

译释放100B Gemma 4 MoE!Gemini Flash 3.5已发布,现在可以发布它了!

Google AI@GoogleAI · 5月27日75

http://x.com/i/article/2059377716965888000 # Mastering Gemini Omni: The Ultimate Video Prompting Guide Last week, we introduced Gemini Omni—our newest model designed to create anything from any input, starting with video. You can experience the speed and creativity of Gemini Omni Flash today across @geminiapp, @GoogleFlow, @GoogleFlowMusic, and on @YouTube Shorts and Create. To help you push the boundaries of what’s possible, here are five tips to get the most out of Gemini Omni’s advanced video generation capabilities. 1. Leverage Real-World Knowledge You don’t need to over-explain the world to Gemini Omni. It’s built with Gemini’s deep understanding of history, science, and culture, so it can reliably create outputs that look, feel, and move realistically. Skip the granular descriptions. Use cultural touchstones, historical eras, or scientific terms directly in your prompt. Example Prompts: - [The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END." The whole video is accompanied by calm smooth music] - [Astronaut's POV on Mars] - [A marble rolling fast on a chain reaction style track, continuous smooth shot] 2. Take Control of Text Rendering Gemini Omni not only has advanced text rendering capabilities, it even allows you seamlessly integrate text into your visuals. You can specify typography, spatial placement, animation styles, and complex visual effects like double exposures all perfectly synced to the action in your video. Example Prompts: - [word by word, one word on the screen at a time: did, you, know, that, this, model, can, do, pretty, good, text!? Each word appears with a different animated style, perfect pacing to a rhythm, sizzle reel] - [Overlay motion-tracked, minimalist text commentary onto the physical environment of the video. This text represents [the subject] deadpan, immediate inner monologue that’s observant, slightly absurd, and life-contemplating. Think “intrusive thoughts.” Clean, white, lowercase sans-serif text (like Helvetica or Inter). The text hovers in 3D space, connected to the subjects being commented on via ultra-thin, crisp, white leader lines] 3. Direct Your Camera Like a Pro Think like a cinematographer. Gemini Omni responds incredibly well to precise videography directions, camera types, and framing instructions. Try integrating these terms into your next prompt: Example prompts: - Shots & Angles: "One continuous shot", "oner", "static", "locked off", or "fixed angle." - Camera Movements: "Push in", "punch in", "pan left", or "dolly zoom." - Camera Styles: "Natural smartphone zoom", "vintage film camera", or "grainy webcam style." 4. Edit Iteratively (and keep what works) Every great video is made in the edit. With Gemini Omni, you don't need to rewrite your entire prompt from scratch to fix a single mistake. Ask for specific, targeted updates, like changing a background or swapping a caption. Omni will preserve the core structure of your video across multiple amends, letting you focus only on what needs tweaking. Example prompts: - [Transport the violin to a new environment] - [Make the violin invisible] - [Change the camera angle so it’s looking over the violinist’s shoulder] 5. Change the Action on the Fly Want to alter a character's pacing or emotion mid-scene? You can directly prompt Gemini Omni to modify how a subject moves or interacts with their environment without breaking the continuity of the character model. Example prompts: - [Make the character walk on their tiptoes] - [Speed up the pacing] - [Have them leap into the air] Start Creating The director’s chair is yours. Try out these prompting techniques with Gemini Omni Flash, and tag @GoogleAI to show us what you create!

译Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧:利用模型已有的现实世界知识进行简洁描述;精确控制文本在视频中的渲染与排版;使用专业镜头指令(如推拉摇移)像电影摄影师一样调度画面;通过迭代编辑高效修改视频;以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。

Elon Musk@elonmusk · 5月27日44

Grok

译推文展示了一次AI模型间的交互纠错。用户将一条关于比利时男子因仇恨言论被定罪的推文内容交给Gemini进行事实核查,Gemini最初判定该描述“严重不准确”。随后,用户将Gemini的回复转给Grok,Grok指出Gemini混淆了两个不同案件,并确认原推文描述准确。用户将Grok的回复反馈给Gemini后,Gemini承认错误并感谢纠正。推文者指出,这类AI模型之间相互纠错的情况时常发生。

swyx@swyx · 5月27日31

everybody talks about the china->us catchup not enough people talking about the us-> china catchup great job @o_lacombe et al, @robert_mchardy et al!

译每个人都在谈论中国追赶美国 却很少有人谈论美国追赶中国 干得好 @o_lacombe 等人,@robert_mchardy 等人!

小互@xiaohu · 5月27日21

strudel+gemini 生成电子音乐 有点酷… 视频来自抖音:@六月的小号

Artificial Analysis@ArtificialAnlys · 5月27日60

Gemini 3.5 Flash is a step forward for Google on speed and agentic capabilities but comes at a trade-off of being higher cost than prior models We have measured up to ~280 output tokens/sec, placing it on the speed/intelligence Pareto frontier and well ahead of Gemini 3 Flash. It also shows a major uplift on agentic tasks, reaching ~1650 ELO on GDPVal-AA. The trade-off: cost is up ~5x versus Gemini 3 Flash, driven by higher token prices (3x higher than Gemini 3 Flash) and higher token usage. In this video, Declan Jackson, Member of Technical Staff at Artificial Analysis, breaks it down.

译Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。

Google Gemini@GeminiApp · 5月27日53

Catch up on all the Gemini app updates from Google I/O in about a minute.

译用大约一分钟时间,了解Google I/O上所有Gemini应用的更新。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
09:37
Josh Woodward@joshwoodward
41
我们已收到关于在@GeminiApp上过快达到使用限制的反馈。我们正在推出多项修复措施,以使您的配额使用更持久、体验更可预测… 🧵
Google产品更新
08:37
Google AI@GoogleAI
24
一些来自社区的有趣Gemini Omni用例 🧵👇
Google产品更新多模态
06:14
Rohan Paul@rohanpaul_ai
23
Google Omni 值得更多关注。
Google多模态大佬观点
05:49
🚨 AI News | TestingCatalog@testingcatalog
63
Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Thomas Kurian: Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...

Google图像生成多模态模型发布
05:12
Google AI Developers@googleaidevs
52
节省大量手动迁移工作。观看混乱的遗留代码在 @Antigravity 的示例中,由 Gemini 3.5 Flash 驱动,自主现代化为 Next.js。
Google教程/实践编码
03:06
Google Gemini@GeminiApp
62
好消息!印度用户现在可以上传视频(来自相册或已保存文件),并使用Gemini Omni进行编辑和转换。快来试试,并告诉我们你的想法。

Vijay Choudhary: Gemini Omni seems to outperform everything. Crazy updates for Vibe Video Editing at #google Let's see when this update w...

Google产品更新多模态视频
02:42
Google AI Developers@googleaidevs
71
🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Google图像生成模型发布
01:42
Google AI Developers@googleaidevs
精选71
🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Google图像生成模型发布

推荐理由:Google 把 Gemini 图像生成能力打包进 Nano Banana 系列并正式 GA,开发者现在可以稳定调用 Pro 和 Flash 级别的生图 API,对做图像应用的团队是个实在利好。
01:06
Google AI@GoogleAI
41
Google用AI工具让纸板和马克笔"活起来"

Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事,创作中融合了木偶戏与3D动画。核心工具包括:Nano Banana(从原始木偶镜头和基础3D动画生成风格化首帧)、Google AI Studio(构建定制工具以大规模测试帧并确保一致性)、以及Gemini Omni和Google DeepMind的实验性模型(合并基础动画与风格化帧,提升至电影级画面)。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节,例如木偶戏的细微不完美感。

Google多模态教程/实践视频
00:31
AYi@AYi_AInotes
48
Google Omni演示手部解剖,生物医学教学潜力获赞

推文回应了关于Google Omni能力的争议,展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构,被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0,强调了该技术在教育领域的独特应用价值。

Google多模态现象/趋势
00:05
Google Gemini@GeminiApp
58
好消息:印度用户现在可以直接使用Gemini Omni上传和编辑视频了! 在应用或 http://gemini.google.com 中开始使用: > 上传您的视频 > 告诉Gemini您想要进行的更改 > 享受您的新作品 我们迫不及待想看到您的创作!
Google产品更新多模态视频
5月28日
23:05
OpenRouter@OpenRouter
精选69
提示:您可以为支持的模型(OpenAI、Google Vertex 等)使用 Flex 和 Priority 层级。 定价信息请查看各模型页面。文档:https://openrouter.ai/docs/guides/features/service-tiers
GoogleOpenAI教程/实践部署/工程

推荐理由:OpenRouter 这个 Flex/Priority 层级用法看似细枝末节,但你如果同时调 OpenAI 和 Vertex,知道怎么分层能免掉很多无谓的速率限制和成本焦虑。
21:12
Chubby♨️@kimmonismus
46
Bloomberg泄露iOS 27 Siri重大改版方案

Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。

Mark Gurman: BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...

Google大佬观点语音
20:18
NotebookLM@NotebookLM
52
如果你错过了,可以查看我们公开的笔记本,其中总结了 Google I/O 2026 的所有重要公告。 访问地址:https://goo.gle/4dR9MiQ
Google教程/实践
15:41
🚨 AI News | TestingCatalog@testingcatalog
45
如果你错过了 👀:现在,拥有 Google Genie 实验访问权限的用户可以使用 Google 地图中的地点来生成虚拟世界。 "金门大桥" 🤖
Google产品更新图像生成多模态
11:31
Berryxia.AI@berryxia
58
Google发布新一代Coral板,本地AI进入生产力时代

Google发布最新Coral开发板,搭载Gemma系列模型,实现高效的本地设备端AI。核心演示包括板载实时语音翻译、通过自然语言控制硬件,以及利用视觉与声音生成音乐。此次升级的关键在于无需云端联网,解决了传统本地AI在延迟、隐私和成本方面的痛点。通过硬件与模型的深度结合,Google将AI的应用场景从云端拉回设备本地,计划于今年夏天推出。

Google Gemma: Introducing the newest Coral board, for efficient, on-device AI! Check out the demos in the video: - On-board speech tra...

Google产品更新端侧语音
10:28
AYi@AYi_AInotes
52
一个地图截图+手绘路径, 就能生成这么流畅、物理感强的无人机POV航拍视频, 相比seedance、Kling,Google Omni最擅长的应该就是这种精确的相机控制,空间理解、世界模型的真实感
Google多模态教程/实践视频
07:35
Ethan Mollick@emollick
60
Google拥有唯一真正的全模态模型,但各元素尚未连接。它似乎能接收和输出音频、图像、视频、歌曲、文本、代码等。但目前每种输出类型都是分离的。当你能直接访问模型,混合模式,很多事情就变得可能了。
Google多模态大佬观点
07:35
Google AI Developers@googleaidevs
24
我们喜欢内部测试!🐶 在向大家推出这些更新之前,我们让Googlers在@GoogleAIStudio中尝试构建@AndroidDev应用。 以下是我们的一些最爱…
Google行业动态
06:07
Chubby♨️@kimmonismus
35
我刚看了@arrakis_ai制作的片段,对Google的Omni印象深刻。 你可以在任意帧暂停,宝可梦卡牌上的文字都保持完美清晰且未改变。这种一致性和连续性是顶级水平。
Google大佬观点视频
05:52
Google Gemini@GeminiApp
同事件精选77
使用 Gemini Omni 轻松将您的视频转换为新的视觉风格。 只需上传视频或照片,并要求 Gemini 为您的最终输出应用某种外观或风格。
Google产品更新多模态视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini 终于把图像风格迁移做到视频上了,并且直接集成到 Omni 里,不需要任何剪辑软件,对短视频创作者是个小但实用的更新。
05:29
Google AI@GoogleAI
35
回顾上周的 I/O 大会公告,与 @NotebookLM 一起。 您可以收听音频概览,观看视频回顾,甚至查看我们详细总结所有重大新闻和发布的幻灯片。 在此查看:https://blog.google/innovation-and-ai/products/notebooklm/notebooklm-google-io-2026/?linkId=62068662
Google产品更新语音
04:59
Google AI@GoogleAI
45
与 @NotebookLM 一起回顾上周的 I/O 发布内容。 你可以收听音频概览、观看视频回顾,甚至查看我们详细的幻灯片,总结所有重大新闻和发布。 在此查看:http://goo.gle/4xcgBoj
Google多模态教程/实践
04:05
Google AI Developers@googleaidevs
49
智能体需要在复杂任务中兼顾速度与性能。 观看 Gemini 3.5 Flash 的智能如何大规模处理这些任务,同时您进行构建 ↓
智能体Google教程/实践
01:22
Google Gemini@GeminiApp
51
从 #GoogleIO 舞台直接来到 Gemini Discord 舞台,加入我们的下一场社区活动,我们将与团队成员一起深入探讨两个新的智能体工具(Gemini Spark 和 Daily Brief)。 观看这些新功能的现场演示,并有机会实时提问。 👉加入我们的 Discord 观看直播:http://discord.gg/gemini 📅 今天(周三,5月27日)太平洋时间上午 11:30
智能体Google产品更新
00:35
Chubby♨️@kimmonismus
同事件精选80
与Google搜索产品副总裁Robby Stein的访谈:AI原生搜索时代

本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈,核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因,以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑,并围绕一个核心问题展开:如果Google直接给出答案,传统的基于链接的网页生态将走向何方?

Google大佬观点搜索
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 搜索 VP 首次拆解 AI Mode 背后的成本逻辑、流量分配和 TPU 优势,比 I/O 演讲深得多,做搜索和内容生态的都值得听。
00:23
Josh Woodward@joshwoodward
59
一项备受期待的功能正在 @NotebookLM 中推出:Google Drive 文件现在将自动同步!🔄 我们正在积极推出此功能,今天从 10% 的用户开始,很快将逐步扩大范围。
Google产品更新
00:10
🚨 AI News | TestingCatalog@testingcatalog
64
GOOGLE 🔥: Gemini for Business 将推出协作项目新体验,团队可在共享环境中工作。 此外,Google 正推出可在多个应用中执行自动化任务的工作流智能体。相同功能现已在 Gemini Enterprise 上可用,并将更好地集成到 Gemini for Business 的核心体验中。 是我一个人这么觉得,还是 Gemini for Business 确实比面向消费者的 Gemini 体验好得多?
智能体Google产品更新
5月27日
23:51
Google Gemini@GeminiApp
75
添加文本、视频或最多五张图片作为素材,Gemini Omni可以将它们全部组合成一个连贯的十秒视频。 今天就来试试,并在回复中分享你的创作。👇
Google产品更新多模态视频
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)
12:29
宝玉@dotey
55
前Gemini核心科学家透露,Google在技术上曾领先,其MoE模型GLaM(2021年)已超越GPT-3,PaLM 2(2023年初)早已训练完成。然而,因组织问题,为等待Google I/O大会,PaLM 2的发布被推迟,而OpenAI抢先发布GPT-4,从而改写了市场叙事。

硅谷101: Google其实比OpenAI更早做MoE。 我们专访到了Gemini前核心科学家Andrew Dai。Andrew回忆,Google Brain在 2021 年就已经做出了比GPT-3更强的MoE大模型GLaM,PaLM 2甚至在2023...

GoogleOpenAI大佬观点现象/趋势
11:33
歸藏(guizang.ai)@op7418
67
OpenRouter 获得 1.3 亿美元的 B 轮融资 感觉这个估值有点低了,这种聚合 API 后面应该是新的 Token 经济的基础平台

OpenRouter: Today we're announcing our $113M Series B led by @CapitalGVC. Over the last 6 months, weekly volume on OpenRouter grew f...

智能体Google开源生态行业动态
08:27
Berryxia.AI@berryxia
71
Gemma 4新玩法:开源地牢游戏让AI实时构建Web应用

Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。

Google Gemma: Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...

智能体Google开源生态教程/实践
07:09
🚨 AI News | TestingCatalog@testingcatalog
41
GOOGLE 🔥: AI Studio Build 很快将支持主题功能,用户可以在 8 个预定义预设中选择,或创建自己的主题。 设计 MD 支持会很不错 👀 h/t @thomas_gmry
Google产品更新
05:58
Nathan Lambert@natolambert
32
释放100B Gemma 4 MoE!Gemini Flash 3.5已发布,现在可以发布它了!
Google大佬观点开源生态
05:28
Google AI@GoogleAI
同事件精选75
Gemini Omni 视频提示词使用指南

Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧:利用模型已有的现实世界知识进行简洁描述;精确控制文本在视频中的渲染与排版;使用专业镜头指令(如推拉摇移)像电影摄影师一样调度画面;通过迭代编辑高效修改视频;以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。

Google教程/实践视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 官方放出的视频提示技巧,没有废话全是可复制的 prompt,想玩 Gemini Omni 的创作者可以直接抄作业。
03:58
Elon Musk@elonmusk
44
推文展示了一次AI模型间的交互纠错。用户将一条关于比利时男子因仇恨言论被定罪的推文内容交给Gemini进行事实核查,Gemini最初判定该描述"严重不准确"。随后,用户将Gemini的回复转给Grok,Grok指出Gemini混淆了两个不同案件,并确认原推文描述准确。用户将Grok的回复反馈给Gemini后,Gemini承认错误并感谢纠正。推文者指出,这类AI模型之间相互纠错的情况时常发生。

i/o: Belgian man convicted of hate speech describes the judicial rationale for his latest conviction. I asked Gemini: Is this...

GooglexAI推理现象/趋势
03:20
swyx@swyx
31
每个人都在谈论中国追赶美国 却很少有人谈论美国追赶中国 干得好 @o_lacombe 等人,@robert_mchardy 等人!

Latent.Space: [AINews 3 Apr 2026] Gemma 4: The world's best small Multimodal Open Models, dramatically better than Gemma 3 in every wa...

Google多模态大佬观点开源生态
01:29
小互@xiaohu
21
Strudel+Gemini 生成电子音乐 有点酷… 视频来自抖音:@六月的小号
Google其他多模态
01:07
Artificial Analysis@ArtificialAnlys
60
Gemini 3.5 Flash速度与agent能力提升,但成本显著增加

Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。

智能体Google推理评测/基准
00:48
Google Gemini@GeminiApp
53
用大约一分钟时间,了解Google I/O上所有Gemini应用的更新。
Google产品更新
‹ 上一页
1…7891011…24
下一页 ›