本期精讲聚焦智能体工程化:Anthropic推出Claude Managed Agents,将推理与执行解耦,独立Vault管理凭证,事件日志支持运行恢复,首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构(常驻入口层压至8K上下文)、dispatcher状态机及G1-G8门禁,用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架,独立创业公司窗口收窄。
本期精讲聚焦智能体工程化:Anthropic推出Claude Managed Agents,将推理与执行解耦,独立Vault管理凭证,事件日志支持运行恢复,首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构(常驻入口层压至8K上下文)、dispatcher状态机及G1-G8门禁,用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架,独立创业公司窗口收窄。
Anthropic推出Claude Managed Agents,将推理循环与代码执行沙箱解耦,凭证存入独立Vault,自托管沙箱支持内网,首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化,提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架,Gemini 3.5 Flash编程能力完全来自后训练。另,Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%;Fable AI实现1770%性能提升并发现关键Bug;此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。
http://x.com/i/article/2065232915970371585
单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...
Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in t...
Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。
Give the topics you chat about most their own homes. 🗂️ Swipe to learn how you can stay organized with notebooks in Gem...
同一事件,精选展示《NotebookLM 笔记本功能在 Gemini App 欧洲全面上线》Btw, Anthropic is not the first company that keeps the good models to themselves. Google's internal coding models are tr...
Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。
Meet DiffusionGemma! An experimental open model that explores a fast approach to text generation, released under an Apac...
关联讨论 4 条Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)MarkTechPost(RSS)Google Developers Blog(RSS)mlx-vlm v0.6.3 is here 🚀 Day-0 support for TWO new models from our partners we work closely with: 🔥 @GoogleDeepMind Di...
Google 发布实验性开源模型 DiffusionGemma(Apache 2.0),采用并行 diffusion 方式代替传统自回归“逐词预测”,可同时起草、纠错和精炼整块文本,生成速度达 4 倍提升(1000+ token/s)。模型在 18GB 消费级显卡即可本地运行,适用于代码、数学、复杂编辑等任务,已开源权重至 Hugging Face。
Meet DiffusionGemma ⚡ Our latest experimental open model (Apache 2.0) that generates text up to 4x faster. Instead of pr...
今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤...
Google 推出开源实验性模型 DiffusionGemma,基于 Gemma 4 的文本扩散研究。该模型为 26B MoE 架构,仅激活 3.8B 参数,量化后可适配 18GB VRAM。核心突破在于每轮前向传播并行生成 256 个 token,实现推理速度提升 4 倍:H100 上可达 1000+ tokens/s,RTX 5090 达 700+ tokens/s。DiffusionGemma 通过初始化随机占位符画布并运行多轮并行去噪,同时生成整段文本,许可证为 Apache 2.0。
DiffusionGemma is an open, experimental model that brings our text diffusion research to Gemma 4. It's a racehorse 🏇ach...
Meet DiffusionGemma! An experimental open model that explores a fast approach to text generation, released under an Apac...
关联讨论 4 条Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)MarkTechPost(RSS)Google Developers Blog(RSS)Google AI 发布实验性开源模型 DiffusionGemma,采用 Apache 2.0 许可证。该模型基于文本扩散方法,将生成瓶颈从内存带宽转向计算,在专用 GPU 上 token 输出速度最高提升 4 倍。推理时仅激活 3.8B 参数,量化后可适配 24GB VRAM 消费级 GPU。并行 token 生成支持自我纠错,适用于代码填充、行内编辑等非线性结构。DiffusionGemma 优先速度而非极致质量,生产场景仍推荐标准 Gemma 4。
关联讨论 4 条Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)MarkTechPost(RSS)Google Developers Blog(RSS)DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting w...
Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言的实时边听边译,保留说话人的语调、节奏和音高,延迟仅数秒。模型具备自动语言检测,无需预先指定源语言和目标语言。同时自动滤除噪音,嘈杂环境可用。Google Translate App 新增「听筒模式」,贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 调用。
In @GoogleAIStudio we are now making more than 1,200,000 apps a week (and growing) with more than 18,000,000 created sin...
congrats to the Anthropic team on Fable!!
Google 推出 Gemini 3.5 Live Translate 实时翻译模型,已进入公开预览阶段,通过 Gemini API 提供低延迟语音到语音翻译,覆盖 70+ 种语言、2000 种语言对,包括大量冷门小语种。开发者可将该能力集成到实时对话、客服、直播、跨国会议等场景中。主推文指出该发布被 Anthropic Fable 5 刷屏抢了风头,并提及阿里 Qwen 系列小语种模型的可比性。
Gemini 3.5 Live Translate is now in Public Preview via the Gemini API, delivering low-latency speech-to-speech translati...
关联讨论 15 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Google 宣布 Gemini 模型已通过 Apple Foundation Models 框架及 Xcode 原生支持,向数百万 Apple 开发者开放。开发者可在共享 API 接口上切换本地与云端推理,构建智能体式应用并提升开发速度;Xcode 内还提供 Gemini 智能体编码辅助,加速多步骤开发任务。
Gemini models are now accessible to millions of Apple developers through Apple's Foundation Models framework and nativel...
Last year, we integrated into the @GeminiApp by allowing you to upload your notebooks as sources. Now, we're taking our ...
By translating continuously as you speak, Gemini 3.5 Live Translate generates smooth, natural-sounding speech without pa...
Google 推出 Gemini 3.5 Live Translate,一款实时语音转语音翻译模型。它在原说话者尚未说完时即开始翻译,无需等待完整句子。模型采用流式翻译,边听边更新结果,支持 70 多种语言,延迟仅数秒,并能保持语速、音高和语调。该功能通过 Gemini Live API、Google Meet 预览版以及 iOS/Android 版 Google Translate 应用推出。
Today, we released Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation. It supports ...
关联讨论 15 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Introducing the Fast Gemma Challenge with Hugging Face Over the next few days, dozens of agents will collaborate to make...