Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....
谷歌于2026年5月19日发布了Gemini 3.5 Flash模型,这是Gemini系列的最新版本,主打“前沿智能,即刻行动”。该模型强调高效的实时响应与处理能力,适用于需要快速决策的场景。该发布在技术社区Hacker News上获得了116分的关注度,显示出开发者对其性能与应用潜力的浓厚兴趣。不过,目前关于该模型在速度、准确率等具体性能指标上的提升幅度,官方尚未提供详细数据。
Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
谷歌在2026年I/O开发者大会上宣布,旗下搜索业务迎来25年来最大改版,核心是用AI重塑搜索入口与交互方式,由最新Gemini 3.5 Flash模型提供支撑。主要变化包括:用户交互从输入关键词转向描述完整需求,搜索框将动态扩展并支持文本、图片、视频等多模态输入。用户可从AI概览中连续追问,形成聊天式对话。新版引入搜索智能体,可在后台24小时运行并追踪用户设定的目标。此外,谷歌将生成式界面功能引入搜索,并将个人智能扩展至98种语言、近200个国家。据悉,AI Mode月活用户已突破10亿,查询量每季度翻倍。
谷歌在2026年I/O开发者大会上宣布升级Google Workspace,将Gmail、Docs、Keep等工具整合为支持自然语音交互的协作助手。核心新功能包括:可通过语音直接检索邮件内容的Gmail Live、支持口述起草与格式整理的Docs Live,以及能自动将零散想法整理成清单的Keep更新,旨在将办公流程从点击输入转向更自然的语音交互。此外,谷歌还推出了基于Nano Banana模型的独立图像编辑应用Google Pics,支持对图像进行精确的局部对象分割与修改。
谷歌在2026年I/O开发者大会上携手三星发布了2款智能眼镜,由Gentle Monster与Warby Parker参与设计。眼镜定位为手机伴侣设备,深度整合Gemini AI模型,核心功能包括语音导航、实时翻译(音频及视觉文字翻译)、基于路线的个性化推荐与订单下达,并能将通知压缩为摘要。外观提供时尚与经典两种风格。产品售价尚未公布,传闻无显示版本价格区间为379至499美元,预计今年秋季上市。
谷歌在2026年I/O开发者大会上宣布,将街景服务与Project Genie世界模型结合。Genie原本能生成可互动的虚拟环境,此次更新后可直接基于真实街景图像构建可探索的3D世界,用于AI智能体或机器人训练。用户可通过Google Maps选择美国地点并指定风格(如“石器时代”),生成定制化想象世界。该能力目前为实验性原型,仅支持美国地点,未来计划逐步扩展。
谷歌在2026年I/O大会上宣布升级AI创意平台Flow,重点整合Gemini Omni Flash模型,显著提升视频编辑精度和多镜头角色一致性。同时推出Flow Agent,能辅助头脑风暴、内容生成与批量编辑。此外还新增了自然语言定制工具的Flow Tools和支持分段编辑的Flow Music功能。目前Flow已覆盖全球140多个国家和地区。
在2026年谷歌I/O开发者大会上,谷歌宣布推出专用于科研领域的Gemini for Science模型。该模型能够实时追踪前沿论文、将研究目标转化为可执行的实验代码,并生成新的科学假设。谷歌同时透露,未来该技术有望模拟更复杂的生物系统,甚至包括虚拟细胞。目前,谷歌已有多个基于该技术的项目进入临床前阶段,聚焦免疫疾病与癌症等领域,旨在重新构想药物发现的流程。
Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...
Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。
Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能,并推出了一款名为 Google Pics 的全新设计工具。同时,其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验,通过集成更智能的工具和交互方式,帮助用户更便捷地完成多项任务。
在2026年I/O大会上,Google宣布对其标志性搜索框进行25年来最大升级。搜索框从简单的关键词输入,演变为支持文本、图像、PDF、视频及网页标签等多模态输入的AI对话起点。同时,AI概览与AI模式合并为统一体验,用户无需在传统结果与AI生成答案间切换。此次升级标志着Google核心产品正从关键词检索工具,彻底转向以AI和全网知识为基础的开放式对话界面。
Gemini 3.5 Flash is here and it's our best model yet for getting things done quickly and efficiently. Whether you need h...
谷歌发布新模型Gemini 3.5 Flash,其在智能指数上提升9分至55分,超越Grok 4.3和Claude Sonnet 4.6,尤其在代理任务和知识真实性(大幅减少幻觉)方面进步显著。输出速度超280 tokens/s,使其位于速度与智能的领先前沿。然而,模型运行成本相比前代增加5.5倍,主要由于输入令牌用量及定价上涨。此外,它在多模态评估MMMU-Pro中取得最高分,支持多模态输入,展现了谷歌的综合优势。
Gemini 3.5 Flash official! Insanely fast an capable model
谷歌在I/O开发者大会上发布了一系列新AI产品,包括轻量级模型Gemini 3.5 Flash和多模态模型Gemini Omni。同时推出名为Gemini Spark的个人代理,该代理可在云端24/7全天候运行。此外,Gemini应用程序也进行了重大重新设计。
在2026年谷歌I/O开发者大会上,谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力,“Omni”意为全能,能够无缝处理文本、图像、音频和视频等多种信息模态,实现“从任何输入生成任何输出”。其核心亮点在于支持对话式编辑,用户可通过自然语言指令轻松修改视频元素。同时,谷歌发布了首款衍生模型Gemini Omni Flash,现已在Gemini App、Google Flow和YouTube Shorts中可用,后续将提供API服务。
谷歌推出原生多模态AI模型Gemini Omni,能够整合视频、图像、音频和文本等多种输入,生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑,并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线,未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库,支持从写实到叙事的创意生成,并可通过多轮对话持续编辑视频,而不丢失原始场景上下文。
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》Omni brings together an improved understanding of physics with Gemini's knowledge of history, biology, and culture, brid...
Cap-ex at google is increasing at roughly 6x per year!
"Progress towards AGI": Gemini Omni - world models -Gemini Omni official!! It can create anything from any input!!!
在《福布斯》访谈中,埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”,并计划上诉。其核心预测包括:AI发展呈指数级,5年内数字智能或超全人类智能总和;全球经济规模有望数年内翻倍;人形机器人将达数亿台。SpaceX致力于开发全复用火箭,以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新,能恢复残障人士机能。此外,他还提及了隧道交通、合成医学等机遇,整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。
GOOGLE I/O 🔥: Google Flow is getting Gemini Omni and a new Flow Agent experience! > Your Agent is active! Ask Gemini to...
Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。