Google DeepMind 发布 DiffusionGemma,一款利用扩散模型加速文本输出的新模型,本地 AI 推理速度达到传统模型的 4 倍。
Google DeepMind 发布 DiffusionGemma,一款利用扩散模型加速文本输出的新模型,本地 AI 推理速度达到传统模型的 4 倍。
Google 发布 260 亿参数的 DiffusionGemma 模型,文本生成方式不再逐 token 预测,而是通过扩散过程从噪声直接生成,类似图像 AI 将噪声转化为图片。Nvidia 测试显示,该模型在单块 H100 GPU 上可达约每秒 1,000 tokens,速度约为可比自回归模型的四倍。代价是输出质量较低,因此 Google 目前将其定位为面向开发者的实验性工具。模型已开源。
Google DeepMind 发布实验性开源模型 DiffusionGemma,参数量 26B,采用混合专家(MoE)架构,通过文本扩散(text diffusion)技术实现在 GPU 上最高 4 倍生成速度提升。模型权重已开放。
关联讨论 4 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)DiffusionGemma 是 Google 推出的文本生成模型,其文本生成速度相比前代提升 4 倍。该模型详情已发布在 Google 官方博客。
Google DeepMind 发布开源实验模型 DiffusionGemma,采用文本扩散技术,突破自回归逐 token 生成方式,每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数,量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s,速度提升 4 倍。具备双向注意力和自我修正能力,面向内联编辑、代码填充等本地交互工作流,以 Apache 2.0 许可证开放。
关联讨论 4 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)DiffusionGemma 是 Google 基于 Gemma 4 架构的实验性文本生成模型,采用扩散式并行生成替代逐 token 自回归,实现更快推理、双向上下文感知和实时自我修正,并可在消费级 GPU 上部署。模型通过迭代去噪并行生成并细化 256-token 块,在处理数独等复杂约束任务上优于传统语言模型,且微调效果显著。它已集成 vLLM 等推理框架,为开发者提供一种高性能、高效长上下文扩展且易于定制部署的非自回归新方法。
关联讨论 4 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)Anthropic 发布 Claude Fable 5,这是新 Mythos 类别的首个模型。该模型在 SWE-bench Verified 上达到 95%,几乎在所有基准测试中领先,但成本是 Opus 4.8 的两倍,每百万 token 价格为 10 美元或 50 美元。严格的安全过滤器会阻止约 9% 的请求,同时新增 30 天数据保留政策,即使签订零数据保留合同也适用。
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Decart 推出 Oasis 3,一个实时世界模型,能够生成逼真的驾驶环境用于自动驾驶车辆测试,现已通过 API 向开发者开放。
Anthropic 正式推出 Claude Fable 5,附带分类器,全面开放使用;同时发布 Claude Mythos 5,仍保持受限访问,但通过 Project Glasswing 解除了网络安全防护。两款模型基于同一底层模型,区别在于安全机制配置,并新增了 Mythos-Class 层级。
摩尔线程发布并开源 MusaCoder 代码大模型,含 9B 和 27B 两个参数规模,是业内首个基于国产 GPU 算力底座完成全链路训练与验证的开源模型。后训练流程在基于 MTT S5000 的夸娥智算集群上完成,支持从 PyTorch 标准算子自动生成高性能 CUDA/MUSA 原生 Kernel 代码。在 KernelBench 评测中,MusaCoder-27B-RL 以 Overall Pass@8 93.2%、Avg.@8 88.60% 超越 Claude Opus、DeepSeek-V4 Pro、GLM-5.1、Kimi K2.6 等主流 SOTA 代码模型。
JoyAI-VL-Interaction是一个8B参数的视觉优先交互模型,能像人一样持续观察实时画面,自主决定每秒钟保持沉默、回应或将复杂问题委托给后台模型。模型擅长视觉触发响应和时间感知,并涌现出引导用户切换屏幕、根据幻灯片即兴讲解等未专门训练的能力。配合完整可部署系统,支持实时视频流输入、可插拔ASR/TTS模块、记忆、可视化UI及可连接任意API或智能体的后台大脑。在六个真实场景中,人类评估者更偏好该模型而非豆包和Gemini的应用内视频通话助手。这是首个开源且附带训练配方、数据和完整部署系统的视觉驱动交互模型。
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》Anthropic 于 6 月 9 日推出 Claude Fable 5 和 Mythos 5。Fable 5 面向普通用户,是目前公开最强的 Claude 模型,在软件工程、知识工作、视觉、科学研究等领域优于 Opus,自主运行时间更长。Mythos 5 通过 Project Glasswing 向网络安全防御方和基础设施提供商开放,具备全球最强网络安全能力,并在药物设计、分子生物学和基因组学中表现突出。两款模型本质相同,仅安全护栏不同。Fable 5 采用新分类器拦截网络安全、生物化学和蒸馏请求,命中后转由 Claude Opus 4.8 响应。定价均为每百万输入 10 美元、每百万输出 50 美元。Fable 5 已全面上线,Mythos 5 暂限 Glasswing 合作伙伴及少量生物研究者。
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Anthropic 推出 Claude Fable 5,这是其首个向公众开放的 Mythos 级大语言模型。该模型配备了内容护栏,可在网络安全和生物学等高危领域阻止生成响应。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Cohere发布North Mini Code,一款30B参数MoE模型(3B活跃参数),Apache 2.0开源。在Artificial Analysis Coding Index上得分33.4,超越Qwen3.5、Gemma 4等同类模型。后训练采用两阶段SFT和RLVR,在SWE-Bench Verified上pass@10达80.2%,Terminal-Bench v2上达55.1%。支持64K/128K上下文长度,专为智能体编码任务优化。
Anthropic 发布 Claude Fable 5,可一键生成古怪好玩的视频游戏,预计将在网页 vibe coders 中广受欢迎。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Anthropic 的新前沿模型 Fable 5 被设定为拒绝回答涉及网络安全、生物学和化学领域的查询,因为这些话题被认为过于危险。该模型在特定主题上主动限制交互,以防范潜在滥用风险。
Gemini 3.5 Live Translate 提供即时语音到语音翻译,能够保留说话者的语调、节奏和音高,并通过 SynthID 水印确保安全性。
Anthropic 推出 Claude Fable 5 和 Mythos 5 两款新模型,声称全面超越当前 Opus 代,尤其在编程与科研方面。Fable 5 一天内完成 Stripe 的代码迁移,原需团队两个月工作量;Mythos 5 可自主设计候选药物,但因具备进攻性网络能力,目前仍保持封闭不开放。
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Claude Code v2.1.170 更新引入新模型 Claude Fable 5(Mythos-class),Anthropic 称其能力超过以往所有已开放使用的模型,并已确保安全。该版本同时修复了从 VS Code 集成终端或继承了 Claude Code 环境变量的 shell 启动时 session 无法保存 transcript 且无法用 --resume 恢复的问题。
Anthropic 发布了 Claude Fable 5 和 Claude Mythos 5 的系统卡(System Card),以 PDF 格式公开,内容涵盖两个模型的架构、安全评估与部署限制。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Gemini 3.5 Live Translate 是一款流式语音到语音翻译模型,支持 70 多种语言。它会持续生成音频,仅落后说话人几秒。该模型通过 Gemini Live API、Google Meet 和翻译应用向开发者开放。
Claude Fable 5 登上 Hacker News 热门,获得 158 个赞同,源页面为 Anthropic 官网。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Anthropic 发布 Claude Fable 5,称其为迄今广泛可用的最强模型。该模型在软件工程、知识工作与视觉任务中表现突出,且随着任务变长、变复杂,领先优势进一步扩大。Fable 5 是 Anthropic 首次大规模发布的 Mythos 类 AI 模型,此前该公司因该类模型在网络安全任务中能力过强、风险过高而未公开。此次发布得益于新增的安全措施,可在特定高风险领域阻止模型生成响应。
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Anthropic 推出 Claude Fable 5,这是其首个面向公众的 Mythos 级模型。该模型配备了安全护栏,可在网络安全和生物学等高风险领域阻止生成回复。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Anthropic 今日推出 Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天,FrontierCode 评分居前沿模型之首,可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速,其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens,较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8,安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克谷歌发布实时语音互译音频模型 Gemini 3.5 Live Translate,可自动识别 70 多种语言并保留说话者的语调、语速和音高。该模型连续生成语音,在提升翻译质量与跟上说话者节奏间取得平衡,全程仅慢几秒。开发者即日起可通过 Gemini Live API 和 Google AI Studio 使用公开预览版;企业客户本月起可在 Google Meet 中使用私有预览版;普通用户通过 Android 和 iOS 版谷歌翻译即可使用。Android 用户还将获得“聆听模式”,可将手机贴耳通过听筒收听翻译音频。
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》Anthropic 计划以“Fable 5”之名推出公开版 Mythos 网络安全模型。公开版将配备严格安全防护措施,网络操作权限低于“玻璃之翼”(Project Glasswing)合作伙伴专供版本。该版本在长周期、多步骤任务方面带来显著性能提升,能更高效执行复杂工作。Mythos 于今年 4 月发布,最初仅对经审核的机构开放。
小米与TileRT联合推出MiMo-V2.5-Pro的UltraSpeed模式,在1万亿参数模型上首次达到超1000 tokens/s输出速度。UltraSpeed API同步上线,定价为原版的3倍,输出速度提升约10倍。由于资源有限,采取申请制限时开放,通过用户可在2026年6月9日至6月23日23:59接入API体验,并获限时免费Chat。试用规则:每账号每日最多成功进入队列10次,单次会话上限30分钟,空闲超5分钟自动释放资源。
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化(仅量化 MoE Expert)与 DFlash 块级 masked 并行推测解码(coding 场景平均接受长度 6.30 tokens);系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放(2026 年 6 月 9 日至 23 日),定价为 MiMo-V2.5-Pro 的 3 倍,速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)苹果在 2026 年 WWDC 主题演讲后回应,Apple Foundation Models(AFM)并非 Gemini 套壳,而是完全自主控制。AFM 体系包含 5 个模型:端侧 AFM Core(基础 AI)、AFM Core Advanced(原生多模态、稀疏架构)、云端 AFM Cloud(高负载)、AFM Cloud Image(图像生成与编辑)、AFM Cloud Pro(智能体工具与重负载任务)。每个模型针对 Apple Silicon 定制,训练使用专有数据并结合 Gemini 蒸馏优化。用户不接触谷歌代码或 Gemini 智能体。AFM Cloud Pro 采用 Google 云服务器与 NVIDIA GPU 资源,但保持 Private Cloud Compute 认证。
苹果推出第三代 Apple Foundation Models(AFM)基础模型家族,与 Google 合作定制,包含五个模型,覆盖从设备端到基于 Private Cloud Compute 的服务器端模型。这些模型旨在驱动 Apple Intelligence 功能,包括全新 Siri 和智能工具,以用户为中心深度融合操作系统,隐私为核心设计原则。
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》微软研究院推出Lens,一个仅3.8B参数的文本到图像模型。依靠由GPT-4.1生成的8亿条详细图像标题,而非模糊的网页替代文本,Lens在基准测试上匹配了规模更大的竞品,训练成本仅一小部分。代码和权重以开源许可证公开可用。
小米在 6 月 8 日发布 MiMo-v2.5-Pro-UltraSpeed 模型,拥有 1T 参数规模,推理速度达到每秒 1000 个 token。该模型来自小米旗下的 mimo.xiaomi.com 项目。
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》Microsoft AI 发布 MAI-Transcribe-1.5,其自研语音转文本模型的第二代。该模型支持 43 种语言,新增关键词(实体)偏置功能,可针对领域特定术语优化。在 Artificial Analysis 排行榜上词错误率(WER)为 2.4%,在 FLEURS 基准上达到最佳准确率。转录一小时音频耗时不到 15 秒,长音频转录速度提升达 5 倍。MAI-Transcribe-1.5 已通过 Azure AI Foundry 提供。
阿里巴巴旗下高德发布全球首个3D原生城市世界模型ABot-Earth0.5,已建成覆盖190多个国家和地区的3D地图。用户输入卫星图或文字描述,10分钟即可在消费级GPU上生成公里级3D城市,输出可编辑3DGS格式,可直接导入Unity等引擎。制图成本为传统百分之一,效率提升约千倍,可为具身智能、低空经济、应急救援等提供支撑。目前已开放内测,可前往abot-earth.amap.com提交申请。
UIUC与Chroma联合推出Harness-1,一个20B参数的检索子智能体。它通过强化学习在一个有状态搜索框架中训练,该框架维护候选池、重要性标注集、证据图和验证记录,由策略决定搜索、筛选、验证及停止的时机。Harness-1在8个基准测试上达到0.730平均curated recall,比下一个最佳开源子智能体高出11.4个百分点,仅落后于Opus-4.6。模型权重和框架代码均已公开。
Audio Interaction是一个开源语音模型,持续监听环境,每0.4秒判断是否应该说话或保持沉默。与GPT-4o或Qwen3.5-Omni不同,它无需等待录音结束,可在单个流中同时进行翻译、转录、对话并识别咳嗽等日常噪音。代码和模型权重已在GitHub上以Apache 2.0开源许可发布,训练数据稍后公布。
NVIDIA 发布 Nemotron 3.5 ASR,一个 600M 参数的缓存感知流式模型,支持从单个检查点实时转录 40 种语言-地区。
阿里巴巴Qwen团队发布Qwen3.7-Plus,一个将视觉感知、GUI操作和编码能力整合到单一智能体循环中的多模态智能体模型。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,生成了超过10,000行代码,共执行了1,000次智能体调用,耗时11小时。该模型在Qwen自主基准测试的屏幕理解任务上领先,但整体性能表现参差不齐。Qwen3.7-Plus为闭源模型,价格远低于西方前沿模型。