Veo 3.1 版本新增竖屏视频生成功能,输出画面动态效果更自然生动,在一致性与创造力方面均有提升。
Google 2025年度研究回顾全面盘点8大领域关键技术突破,总结全年在前沿研究方向取得的重要进展与核心创新成果。
Gemini 3 Flash 正式发布,在大幅降低使用成本的同时提供前沿级智能,主打极速推理性能,为需要快速响应的 AI 应用提供高性价比选择。
Gemma Scope 2 正式发布,面向整个 Gemma 3 模型家族推出开放可解释性工具,助力 AI 安全社区深入理解复杂语言模型行为。
Google DeepMind 与 UK AI Security Institute (AISI) 加强合作,共同开展关键 AI 安全与安保研究。
科学家运用AlphaFold人工智能技术优化光合作用关键酶结构,增强作物耐热性,培育适应全球气候变暖的韧性作物品种,为粮食安全提供新解决方案。
Vertex AI团队推出基于EAGLE-3的推测解码加速方案,通过为目标模型(如Llama 70B)添加仅占2-5%参数量的轻量级draft head,取代传统独立draft模型,实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路:构建合成数据生成管道解决版权与PII问题,采用离线训练策略预计算embeddings,并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用,最终解决CPU瓶颈问题实现规模化部署。
AlphaFold 发布五年间持续加速科学研究,在全球范围掀起生物发现浪潮,深刻改变了结构生物学领域并推动多项突破性进展。
Google DeepMind 与美国能源部(DOE)达成合作,共同推进 Genesis 项目,利用 AI 加速科学创新与研究。这是一项旨在推动科学突破的国家级使命。
Google 在 Gemini 应用中上线 AI 图像验证工具,用户上传图片即可查询是否由 Google AI 生成或编辑。该功能通过检测 SynthID 数字水印实现,该技术已应用于超 200 亿个 AI 生成内容。未来验证范围将扩展至视频和音频,并支持 C2PA 内容凭证标准。本周起,Nano Banana Pro(Gemini 3 Pro Image)在 Gemini、Vertex AI 和 Google Ads 中生成的图像将嵌入 C2PA 元数据,未来还将支持验证 Google 生态系统外的模型生成内容。
Google DeepMind 发布 Nano Banana Pro 图像生成模型,基于 Gemini 3 Pro 构建,支持多语言可读文本直接渲染,可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合,保持 5 个人物形象一致性,输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品,所有生成内容均嵌入 SynthID 水印以确保透明度。
关联讨论 2 条Google DeepMind:Blog(RSS)Ethan Mollick:One Useful Thing(RSS)GPT-3 发布至 Gemini 3 的三年间,大模型技术完成从聊天机器人(chatbots)到智能体(agents)的范式跃迁。
Google 发布 Antigravity,主张"以全新方式构建"。该产品定位开发工具或平台,旨在革新现有构建流程,具体功能细节与上线时间尚未披露。
WeatherNext 2 新一代 AI 天气预测模型正式发布,作为目前最先进版本,在预测效率、准确性和分辨率上均有显著提升,支持全球范围的高精度天气预报。
Google 推出 SIMA 2,基于 Gemini 的 AI 智能体,支持在交互式环境中思考、理解并执行动作,可在虚拟3D世界中进行游戏、推理和协同学习。
Hugging Face与Google Cloud宣布建立深度战略合作,旨在将Google Cloud打造为使用开放模型的最佳平台。双方将合作构建CDN网关,把Hugging Face上的模型和数据集直接缓存在Google Cloud上,显著提升下载速度并增强供应链稳定性。Google Cloud客户在Vertex AI、GKE等服务中部署模型时将获得更快的首次响应。同时,Hugging Face的1000万开发者将受益于更多新型计算实例、价格下降以及通过Google安全技术强化的模型安全性。此次合作还将推动TPU在开放模型开发中的普及应用。
北爱尔兰教育管理局 C2k initiative 完成六个月试点,发现将 Gemini 等生成式 AI 工具融入教学,可为参与教师平均每周节省 10 小时工作时间。
AI for Math Initiative 汇聚全球顶尖研究机构,率先探索 AI 在数学研究中的创新应用,加速科学发现。
T5Gemma 是基于 Gemma 的编码器-解码器大语言模型新系列,采用双向编码器与自回归解码器架构,适用于翻译、摘要等序列到序列任务。
Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。
关联讨论 1 条Google DeepMind:Blog(RSS)与导演 Darren Aronofsky、Eliza McNitt 及超 200 人团队合作,采用 Veo AI 视频生成与真人实景拍摄结合的方式制作电影《ANCESTRA》。
集成 Deep Think 的 Gemini 高级版本在国际数学奥林匹克(IMO)中达到金牌水平。IMO 自1959年起每年举办,是全球最顶尖的青年数学家竞赛,各国派出6名精英学生角逐代数、组合、几何和数论领域的6道极难题目。
关联讨论 1 条Google DeepMind:Blog(RSS)利用人工智能技术,科学家能够从海量宇宙数据中提取深层信息,突破传统观测局限,揭示隐藏规律,从而以前所未有的深度感知和理解宇宙,持续拓展人类认知边界。
正在强化 Frontier Safety Framework(FSF),旨在识别并降低先进 AI 模型的严重风险。
与Commonwealth Fusion Systems (CFS)建立合作,将AI技术引入下一代聚变能源领域,致力于让清洁、安全、无限的聚变能源更快成为现实。
Gemini 应用原生图像编辑功能迎来重大升级,用户现可通过更新后的工具以全新方式变换图像,获得更强大的创意编辑能力。
Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建,专门用于驱动能与用户界面交互的 agent,现已通过 API 以预览版形式提供。
Veo 3.1 正式发布,带来重大功能更新。此次升级为用户提供更强大的高级创意控制能力,让创作过程更加灵活高效,满足多样化的创意需求。
OpenRouter 现已上线 Gemini 2.5 Flash Image Preview,这是该平台首个图像生成模型,支持 SOTA 图像生成、角色一致性以及多图像输出。
推出统一 DNA 序列模型 AlphaGenome,提升调控变异效应预测能力,有望揭示基因组功能新机制。现已通过 API 开放使用。
Gemini Robotics On-Device 推出高效端侧机器人模型,具备通用灵巧操作与快速任务适应能力,支持本地设备直接部署运行。
关联讨论 1 条Google DeepMind:Blog(RSS)推出 Weather Lab 平台展示实验性 AI 气旋预测能力,与美国国家飓风中心建立合作,直接支持本季热带气旋预报和预警工作。
Google 计划将 Gemini 扩展为世界模型,使其能够通过模拟世界来制定计划和想象新体验,从而实现通用 AI 助手的愿景。
Gemma 3n 预览版发布,专为移动设备优化的开源多模态模型。采用 2-in-1 架构,支持音频理解,适用于实时交互和音频中心应用开发。
关联讨论 1 条Google DeepMind:Blog(RSS)Google 在 I/O 大会发布 SynthID Detector 新门户,帮助用户识别在线内容是否由 AI 生成,并追溯其来源与生成方式。