Google DeepMind 发布开源实验模型 DiffusionGemma,采用文本扩散技术,突破自回归逐 token 生成方式,每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数,量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s,速度提升 4 倍。具备双向注意力和自我修正能力,面向内联编辑、代码填充等本地交互工作流,以 Apache 2.0 许可证开放。
关联讨论 5 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)MarkTechPost(RSS)DiffusionGemma 是 Google 基于 Gemma 4 架构的实验性文本生成模型,采用扩散式并行生成替代逐 token 自回归,实现更快推理、双向上下文感知和实时自我修正,并可在消费级 GPU 上部署。模型通过迭代去噪并行生成并细化 256-token 块,在处理数独等复杂约束任务上优于传统语言模型,且微调效果显著。它已集成 vLLM 等推理框架,为开发者提供一种高性能、高效长上下文扩展且易于定制部署的非自回归新方法。
关联讨论 5 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)MarkTechPost(RSS)DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting w...
Google更新搜索交互数据保存方式,新增“Search Services History”设置,用于保存用户搜索时使用的图片、文件、音频和视频,包括Google Lens搜索的图片、实时搜索工具Search Live的录音、语音搜索和Translate中的语音片段。这些数据将被用于“提供、改进和开发AI模型”。用户可关闭该设置并禁用“Save Media”选项以避免保存。
德国慕尼黑地方法院裁定谷歌须为AI搜索概览内容承担直接责任,对其发出临时禁令。法院认定AI概览是谷歌自身生成的内容,而非传统搜索结果列表,谷歌是直接侵权人。AI概览将原告与诈骗、订阅陷阱等不良商业行为错误关联,甚至提出了任何链接源中均未提及的指控。裁决指出,AI用自己的语言重写并评判结果,谷歌对算法及产品供应拥有控制权。
Apple 在 WWDC 2026 上正式推出 Siri AI,其内部集成了 Google 技术。然而,该 AI 服务的可用性受到严格限制,大部分地区的用户无法使用。Apple 操作系统项目管理副总裁 Stacey Ford 在介绍 Spotlight 时提及了搜索体验的痛点,这一发布标志着 Apple 在 AI 领域的重要进展,但全球覆盖的缺失成为显著争议点。
Google 为 NotebookLM 推出重大升级。该研究工具现基于 Gemini 3.5 Flash 运行,拥有自己的云计算机用于代码执行,并能通过 Google Search 自主查找来源。内部测试中,新系统在 78.2% 的情况下击败了上一版本。
麦当劳正在测试一款名为ArchIQ(昵称Archy)的AI系统,由Google支持,可处理免下车订单并协助餐厅运营。该测试目前在美国五家门店进行,具体地址尚未公布。
谷歌 DeepMind AGI 经济学负责人亚历克斯·伊马斯表示,目前没有看到白领岗位因 AI 大规模消失的证据。他强调,若企业因“不裁员就等于 AI 转型慢”的叙事而跟风裁员,可能适得其反。伊马斯认为,AI 更多是接手部分任务、提升生产力,让员工专注机器无法完成的工作,岗位冲击尚未真正出现。
同一事件,精选展示《谷歌高级副总裁曼尼卡:AI短期内不会摧毁就业市场》Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言的实时边听边译,保留说话人的语调、节奏和音高,延迟仅数秒。模型具备自动语言检测,无需预先指定源语言和目标语言。同时自动滤除噪音,嘈杂环境可用。Google Translate App 新增「听筒模式」,贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 调用。
德国法院裁定谷歌需为其AI Overviews(AI概览)功能生成的错误答案承担法律责任。该裁定认定,AI概览中出现的虚假信息视为谷歌自身发布的内容,公司无法通过声称“AI自动生成”来推卸责任。这一判决对AI生成内容的责任界定产生重要影响。
同一事件,精选展示《突发:Google 因模型幻觉被判负有法律责任》In @GoogleAIStudio we are now making more than 1,200,000 apps a week (and growing) with more than 18,000,000 created sin...
congrats to the Anthropic team on Fable!!
Google 推出 Gemini 3.5 Live Translate 实时翻译模型,已进入公开预览阶段,通过 Gemini API 提供低延迟语音到语音翻译,覆盖 70+ 种语言、2000 种语言对,包括大量冷门小语种。开发者可将该能力集成到实时对话、客服、直播、跨国会议等场景中。主推文指出该发布被 Anthropic Fable 5 刷屏抢了风头,并提及阿里 Qwen 系列小语种模型的可比性。
Gemini 3.5 Live Translate is now in Public Preview via the Gemini API, delivering low-latency speech-to-speech translati...
关联讨论 14 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Google 宣布 Gemini 模型已通过 Apple Foundation Models 框架及 Xcode 原生支持,向数百万 Apple 开发者开放。开发者可在共享 API 接口上切换本地与云端推理,构建智能体式应用并提升开发速度;Xcode 内还提供 Gemini 智能体编码辅助,加速多步骤开发任务。
Gemini models are now accessible to millions of Apple developers through Apple's Foundation Models framework and nativel...
Gemini 3.5 Live Translate 提供即时语音到语音翻译,能够保留说话者的语调、节奏和音高,并通过 SynthID 水印确保安全性。
Last year, we integrated into the @GeminiApp by allowing you to upload your notebooks as sources. Now, we're taking our ...
关联讨论 1 条X:Gemini (@GeminiApp)By translating continuously as you speak, Gemini 3.5 Live Translate generates smooth, natural-sounding speech without pa...
谷歌发布 Gemini 3.5 Live Translate 音频模型,为超过70种语言提供实时语音翻译。系统无需等待句子结束即可持续翻译,并宣称能保留说话者的语调、语速和音高。在 Google Meet 中,语言支持从5种扩展至70多种。
关联讨论 14 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Gemini 3.5 Live Translate 是一款流式语音到语音翻译模型,支持 70 多种语言。它会持续生成音频,仅落后说话人几秒。该模型通过 Gemini Live API、Google Meet 和翻译应用向开发者开放。
谷歌发布实时语音互译音频模型 Gemini 3.5 Live Translate,可自动识别 70 多种语言并保留说话者的语调、语速和音高。该模型连续生成语音,在提升翻译质量与跟上说话者节奏间取得平衡,全程仅慢几秒。开发者即日起可通过 Gemini Live API 和 Google AI Studio 使用公开预览版;企业客户本月起可在 Google Meet 中使用私有预览版;普通用户通过 Android 和 iOS 版谷歌翻译即可使用。Android 用户还将获得“聆听模式”,可将手机贴耳通过听筒收听翻译音频。
关联讨论 14 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Google 推出 Gemini 3.5 Live Translate,一款实时语音转语音翻译模型。它在原说话者尚未说完时即开始翻译,无需等待完整句子。模型采用流式翻译,边听边更新结果,支持 70 多种语言,延迟仅数秒,并能保持语速、音高和语调。该功能通过 Gemini Live API、Google Meet 预览版以及 iOS/Android 版 Google Translate 应用推出。
Today, we released Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation. It supports ...
关联讨论 14 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)德国地方法院裁定,Google 对其 AI 概览生成的内容直接承担法律责任,不能援引搜索引擎运营商原有的有限责任保护。涉案 AI 概览错误地将两家出版商与欺诈行为关联,且相关声明未出现在任何链接来源中。该裁决可能为全球 AI 生成内容责任认定树立先例。
同一事件,精选展示《突发:Google 因模型幻觉被判负有法律责任》Introducing the Fast Gemma Challenge with Hugging Face Over the next few days, dozens of agents will collaborate to make...
Gemini 2.5 Flash API 的定价与快速入门指南,指导用户配置 thinking budgets、比较不同提供商,并在 5 分钟内完成首次 API 调用。
同一事件,精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》Google AI 推出音频模型 Gemini 3.5 Live Translate,为开发者提供低延迟实时语音翻译,支持 70+ 种语言。模型具备多语言输入(同会话无需切换)、自动语言检测、原生音频处理(保留说话者语调、语速和音高)以及噪声鲁棒性(过滤环境噪音),可直接处理流式语音。
关联讨论 14 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Google AI 推出 Gemini 3.5 Live Translate,一款面向实时语音到语音翻译的音频模型。该模型支持 70 多种语言,可在用户说话的同时开始翻译并流式输出译文,避免尴尬停顿或断续。模型通过毫秒级决策平衡速度与翻译质量,使对话流畅自然。它可边接收输入边输出翻译语音,延迟仅比说话者慢几秒,并能在长对话中维持语速、音高和语调。目前已在 iOS 和 Android 版 Google Translate 应用中上线。
关联讨论 14 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》苹果Siri由自研基础模型驱动,但该模型通过Google Gemini蒸馏训练而来。Gemini本身不直接驱动Siri,仅在Apple iCloud上提供额外定制支持,且不接入Google搜索,世界知识由苹果自有服务提供。
http://x.com/i/article/2064329494736011265
在 WWDC 2026 上,苹果展示了重建后的 Siri。该智能助手运行在苹果与 Google 共同开发的基础模型上,对于复杂查询则调用 Nvidia GPU 进行推理。