The only question remaining now is: will GPT-5.6 also have guardrails as strict as Fable 5's, or does OpenAI have better...
The only question remaining now is: will GPT-5.6 also have guardrails as strict as Fable 5's, or does OpenAI have better...
Google 为 NotebookLM 新增视频概览功能,可将上传的源文件转换为 60 秒竖屏短视频,分解特定主题。该功能目前正在移动端和网页端向 Google AI Ultra 和 Pro 订阅者推出,免费用户即将获得访问权限。NotebookLM 是 Google 的 AI 笔记工具,能分析多源内容并以不同格式重新打包。
2025年,谷歌年度用电量同比上涨37%,创历史最大增幅。数据中心全年消耗超4200万兆瓦时,超过新西兰、丹麦、尼日利亚等国总用电量。自2019年以来,谷歌总用电量已增长超250%。用电激增主要来自Google Cloud、YouTube视频流及支撑AI产品和服务的数据中心建设与运营。公司表示,AI基础设施建设速度超过电网脱碳速度,但仍致力于扩大全球清洁电力规模,并通过技术创新降低运营排放。2024年谷歌用电量增幅为27%。
ghealth 是一款封装 Google Health API v4 的开源命令行工具,以单个 Go 二进制文件发布(Apache 2.0 协议)。它提供 40 种已验证的数据类型(包括步数、心率、睡眠、体重、血氧饱和度、心率变异性等)的结构化 JSON 输出。工具采用 Agent 优先设计,具备确定性退出码、--dry-run 和 --raw 标志,并附带两个 SKILL.md 文件供 AI 智能体使用。用户需自行创建 OAuth 凭据,通过 PKCE S256 认证。数据来源覆盖 Fitbit、Pixel Watch 及连接的第三方设备。
谷歌昨日发布视频,详细介绍安卓Halo功能。该功能于今年5月I/O大会亮相,旨在提升后台AI助手透明度。启用后,屏幕顶部状态栏拥有专属席位,实时显示AI智能体(如Gemini)状态。安卓总裁萨米尔·萨马特称,Halo为智能体提供专用沟通平台,用于报告更新、接受用户指示,在需要人工介入的后续提问、进度更新、结果展示时,用户无需重新打开AI应用即可交互。
本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月,但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0(1.6T参数/48B激活MoE,30T tokens预训练,原生1M上下文),五万卡国产算力集群训练,SWE-bench Pro 59.5领先Gemini 3.1 Pro等,预览版OpenRouter调用量前三。美图CEO吴欣鸿:2025年营收38.58亿元,净利润9.65亿元同比增64.7%,AI影像收入占比76.6%,海外MAU重回1亿。
Gemini 3.1 Pro lost $6k running Andon Café. 2 months ago, our AI agent opened a café in Stockholm. It over-ordered and w...
Google官方博客阐述了构建ADK 2.0的动机——包括核心特性与升级理由,并解释了开发者应考虑迁移的原因。该文章发布于ADK 2.0正式上线次日。
Google Cloud Workbench Notebooks 扩展正式上线,开发者可在 VS Code 中直接连接可扩展的云端 Jupyter 环境,无需切换上下文即可利用高性能 Google Cloud 基础设施完成机器学习全流程。该扩展已完全开源,可在 GitHub 和 VS Code Marketplace 获取。
开源框架 Genkit 推出 Agents API,将消息历史、工具循环和流式传输封装为单一接口,简化对话 AI 开发。该 API 支持服务器或客户端管理的状态持久化,可实现历史分支、长时间运行的分离任务及多智能体协调等高级工作流,并通过统一线协议连接前后端。目前以 TypeScript 和 Go 预览版发布,集成 Genkit Developer UI,开发者无需编写客户端代码即可测试、调试和检查智能体快照。
Google与New York Jobs CEO Council、Urban Assembly联合举办AI教育峰会,150名教育及行业领袖参与。通过aiEDU的“Vibe Coding”和Google的“Meet LEA”实践环节,与会者探索了Google AI mode和NotebookLM如何激发好奇心、提升AI素养。行业领袖指出,AI的真正价值在于赋能问题解决,而适应性、协作、批判性判断等“人类技能”愈发关键。与会者一致同意,需坚守隐私和公平访问原则。最终共识:技术创新必须与学校合作,而非绕开学校。
谷歌 AI 智能体 Gemini Spark 已登陆 macOS,整合进现有 Gemini 桌面客户端。Mac 版支持实时追踪赛事比分、股价、突发新闻等资讯,并可对接 Google Tasks、Google Keep、Canva、Dropbox、Instacart、OpenTable、Zillow 等应用,执行餐厅订位、生鲜采购、设计海报、预约看房等任务,还能读取本地文件分类整理或生成谷歌办公套件文档。macOS 测试版目前仅面向美国地区谷歌 AI Ultra 订阅会员开放,初期不支持跨设备联动,后续将支持手机端下达复合指令调用桌面端。谷歌同期推出对自定义 MCP 协议的支持。
Google 的 AI 智能体助手 Gemini Spark 本周三正式登陆 Mac 版 Gemini 桌面应用。新增实时追踪话题功能,可追踪体育比分、股票、突发新闻等动态。已集成 Google Tasks、Google Keep 以及 Canva、Dropbox、Instacart、OpenTable、Zillow Rentals 等第三方应用。用户可用 Spark 整理文件,将电脑文件作为 Google Workspace 文档的数据源。未来将在手机上支持指派多步骤任务。目前 Mac 版 Spark(beta)仅限美国地区 Google AI Ultra 订阅者使用,同时支持自定义 Model Context Protocol(MCP)连接更多应用。
Google DeepMind 2023 年推出 SynthID 数字水印,已覆盖图像、视频、音频和文本,累计标记超 1000 亿图像视频及 6 万年音频。用户可在 Google 搜索、Chrome 内 Gemini 及 Gemini App 验证内容,使用超 5000 万次。同时采用 C2PA Content Credentials 标准,可查内容来源与修改历史。已开源文本水印技术,并与 OpenAI、NVIDIA、Apple 等合作推广。
Google 推出首款“为 Gemini 打造”的智能音箱 Home Speaker,售价 99.99 美元。硬件设计精巧,音质在体积相当的产品中表现良好,支持 360 度音效、立体声配对、Matter 控制及 Thread 边界路由器功能,可配合 Google TV Streamer 作为音频输出。然而,内置的 Gemini for Home 智能助手响应缓慢、不可靠,且部分功能需要付费才能使用。相比前代 Nest Audio,新款音箱尺寸更小但低频偏弱,在同价位竞品(Echo Dot Max、HomePod Mini)中音质排名第三。
Google Research 发布 TabFM v1.0.0,一种面向表格数据的零样本基座模型,无需针对特定数据集训练、调参或特征工程即可进行分类和回归。TabFM 将整个数据集作为统一提示,通过上下文学习在单次前向传播中生成预测。其架构融合 TabPFN 风格的行/列交替注意力与 TabICL 风格的行压缩和上下文学习。模型在数亿个由结构因果模型动态生成的合成数据集上训练。在 TabArena 基准(38 个分类、13 个回归数据集,样本量 700 至 15 万)上,TabFM 及添加交叉特征和 SVD 特征、采用 32 路集成的 TabFM-Ensemble 均优于经过深度调优的监督算法。模型已开源在 Hugging Face 和 GitHub,Google BigQuery 即将通过 AI.PREDICT SQL 命令集成。
Google 下一代 TPU(代号 Humufish)确认采用 Intel 的 EMIB-T 封装方案,而非行业默认的 TSMC CoWoS。目前几乎所有主流 AI 训练加速器都使用 TSMC 2.5D 流程,其中绝大部分是 CoWoS。CoWoS 技术将所有芯片放置在一块大型硅/重分布层(RDL)中介层上;而 Intel 的 EMIB 则仅在需要芯片间连接的位置嵌入小型硅桥,直接集成到有机基板中。这是旗舰级 AI 芯片首次脱离 CoWoS 生态,值得关注。
Google 今晚将会发布 新的🍌模型和 低配版的 Omini 模型 另外根据情报显示:Claude Sonnet 5 也将会在今晚登场 OpenAI 还没动静...
Google推出超快图像模型Nano Banana 2 Lite(4秒出图)与多模态模型Gemini Omni Flash(支持视频生成与对话式编辑)。两者结合可先快速生成图像再转为动画,大幅降低成本。演示中室内设计照片可快速生成多个方案并动画化,将创意工作流从等待变为快速迭代。
Anthropic发布Claude Sonnet 5,定位最具agent能力的Sonnet,性能接近Opus 4.8,8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite(文生图延迟约4秒,每千张$0.034)和Gemini Omni Flash(多模态视频生成与会话式编辑,每秒$0.10,单次上限10秒)。吴恩达提出智能体开发三大核心循环:智能体编程循环、开发者反馈循环、外部反馈循环,强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。
谷歌发布新款 AI 图像与视频生成模型 Nano Banana 2 Lite,可在 4 秒内生成一张图像,延迟较此前明显下降。每生成 1000 张图像收费 0.034 美元(约合 0.23 元人民币),主打速度和批量处理能力,面向高频、大规模的内容生产流程。该模型现已登陆谷歌 AI Studio、Gemini API 和 Gemini Enterprise Agent Platform,并将取代初代 Nano Banana。
Doom scrolling but make it educational 🤓 Introducing Short Video Overviews in NotebookLM! Turn your most complex source...
Gemini 3.1 Flash Lite Image(API 名 gemini-3.1-flash-lite-image,代号 Nano Banana 2 Lite)发布,被描述为“最快最便宜的 Gemini 图像模型”,专为速度和规模优化。作者在 AI Studio 中测试生成“寻找浣熊”风格的图像,效果优于此前 Nano Banana 模型,但存在拼写错误。
Google NotebookLM 近日为 AI Ultra 和 Pro 订阅用户推出新功能:可基于用户上传的源文件自动生成 60 秒竖屏 AI 视频,并配上 AI 生成图像和旁白。官方示例以纸片剪贴画风格回顾澳大利亚对鸸鹋的战争。用户可在 NotebookLM 网页或 App 的 Studio 栏中选择“Video”→“Short”,指定或自定义主题后点击生成。此前 NotebookLM 已支持 AI 播客、电影风格视频和视觉解释器。该功能目前仅支持英语,免费用户将很快可用。
Doom scrolling but make it educational 🤓 Introducing Short Video Overviews in NotebookLM! Turn your most complex source...
周二,Google 推出其自研 AI 图像和视频生成器最新版本 Nano Banana 2 Lite。该模型延迟大幅降低,可在4秒内生成图像,成本为每1000张图像0.034美元,针对高吞吐量工作流优化,现已通过 Google AI Studio、Gemini API 及 Gemini Enterprise Agent Platform 上线,并取代原 Nano Banana 成为“遗留模型”。同日,Google 还宣布扩大 Gemini Omni Flash 的发布范围,视频输出价格为每秒0.10美元,并展示了可将静态图像转为电商视频的演示应用 Omni Product Studio。
Google DeepMind 发布 Nano Banana 2 Lite(正式名 Gemini 3.1 Flash Lite Image),默认低思考模式下约4秒生成一张图像,标准 Nano Banana 需约20秒。API 价格为每1000张图像 $0.034,输入 token $0.25/1M,输出 token $1.50/1M,是 Nano Banana 2 的一半,输出成本为 Nano Banana Pro 的八分之一。用户 Arena.ai Elo 评分接近非 Lite 版本,但在文本处理、小字和角色一致性上较弱。所有输出图像均带有 SynthID 水印。即日起可通过 Google AI Studio、API 及 Gemini(选择 Flash-Lite 选项)使用。
新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘,可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式,如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构,默认不访问私人消息。公司获 530 万美元种子轮融资,由 BITKRAFT Ventures 领投,现已开放下载。
Google 推出两款新生成式 AI 模型。Nano Banana 2 Lite 可在 4 秒内生成图像,每张成本 0.034 美元(1K 分辨率),API 名称为 gemini-3.1-flash-lite-image。Gemini Omni Flash 允许开发者通过文本提示在 API 中生成和编辑最长 10 秒的视频,每秒输出价格 0.10 美元。Google 推荐将两个模型链式使用:先用 Nano Banana 2 Lite 生成图像,再传递给 Gemini Omni Flash 转化为视频。两者均使用 SynthID 水印,已通过 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 提供。
Google推出快速图像模型Nano Banana 2 Lite(4秒生成,$0.034/1K分辨率图像)以及视频编辑模型Gemini Omni Flash(输出10秒片段,$0.10/秒,支持文本/图像/视频输入和对话式剪辑)。两者可链式使用:Nano生成参考图,Omni将其动画化,逐步替代gemini-2.5-flash-image。当前Omni Flash API不支持音频参考,视频参考最多3秒但未正确生效;Interactions API保留会话上下文,支持连续3次编辑。
Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Stu...
Agent Development Kit (ADK) for Go 2.0 发布,引入了一类基于图的工作流引擎,用于组合复杂多智能体应用。新版本内置人工参与循环(HITL)编排、使用纯 Go 代码的动态执行、以及指数退避重试等自动弹性特性。统一执行模型后,单智能体应用与复杂图均运行在同一运行时上,简化了遥测与状态持久化。
Google推出了一项面向编码智能体的新开发者技能,将评估过程自动化成五阶段飞轮:准备数据、运行推理、使用自适应AutoRaters评分、分析失败聚类、执行针对性优化。该工具可针对生产流量持续运行或通过合成场景按需触发,开发者用自然语言描述测试目标,独立评估服务安全验证并统计实际性能提升。
Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...