6月11日

01:23

Rohan Paul@rohanpaul_ai

Apodex-1.0-H 发布一个异步智能体团队，用于深度研究。协调者将子智能体分配到独立上下文和工具，再通过事实核查、冲突审查和草稿审查智能体检验弱主张。该方案将深度研究视为分布式系统问题，展示了推理时缩放路径：通过多个协调搜索智能体、持久追踪和独立验证层提升答案质量，而非依赖单一更大模型，并声称取得 SOTA 结果。

Apodex: Dive in 👇 📝 Blog: https://www.apodex.com/blog/apodex-1.0 📄 Tech report: http://www.apodex.com/pdf/20260608 💻 Github:...

智能体 Hugging Face 产品更新推理

01:02

🚨 AI News | TestingCatalog@testingcatalog

Inworld 大幅降低实时推理、带语音特征分析的语音转文本（STT）以及 TTS 服务的 API 价格，将 Gemma 4、DeepSeek、MiniMax 等开源模型

Inworld AI: We want to make AI accessible for everyone, so we're reducing our API prices by ~50%. Consumer AI growth is still blocke...

产品更新推理语音

00:56

HuggingFace Daily Papers（社区热门论文）

精选73

DeLM：去中心化多智能体系统框架

DeLM是一种去中心化多智能体系统框架，通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上，DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能，相比最强基线提升最多10.5个百分点，每任务成本降低约50%。在LongBench-v2多文档问答上，DeLM在四个前沿模型家族中取得最高平均准确率，提升最多5.7个百分点。代码已开源。

智能体开源/仓库推理论文/研究

推荐理由：去中心化MAS把中心调度换成共享黑板，SWE-bench一口气提10.5个点还省一半成本，这个思路值得所有搞agent的团队认真看。

00:43

fofr@fofrAI

DiffusionGemma，大语言模型一次性选出所有词。速度快4倍。你可以从这里获取权重和说明开始使用： https://huggingface.co/google/diffusiongemma-26B-A4B-it

Google Hugging Face 推理模型发布

00:40

Google DeepMind：Blog（RSS）

精选72

DiffusionGemma：文本生成速度提升4倍的开源扩散模型

Google DeepMind 发布开源实验模型 DiffusionGemma，采用文本扩散技术，突破自回归逐 token 生成方式，每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数，量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s，RTX 5090 上 700+ tokens/s，速度提升 4 倍。具备双向注意力和自我修正能力，面向内联编辑、代码填充等本地交互工作流，以 Apache 2.0 许可证开放。

Google 开源生态推理模型发布

关联讨论 5 条

推荐理由：DiffusionGemma 虽为实验性质，但它把文本生成从“串行打字机”变成了“并行印刷机”，本地推理速度 4 倍提升，对需要实时交互的开发者是个值得关注的方向。

00:39

Google Developers Blog（RSS）

DiffusionGemma 开发者指南

DiffusionGemma 是 Google 基于 Gemma 4 架构的实验性文本生成模型，采用扩散式并行生成替代逐 token 自回归，实现更快推理、双向上下文感知和实时自我修正，并可在消费级 GPU 上部署。模型通过迭代去噪并行生成并细化 256-token 块，在处理数独等复杂约束任务上优于传统语言模型，且微调效果显著。它已集成 vLLM 等推理框架，为开发者提供一种高性能、高效长上下文扩展且易于定制部署的非自回归新方法。

Google 推理模型发布部署/工程

关联讨论 5 条

00:24

elvis@omarsar0

太棒了！我最近花了很多时间在研究扩散大语言模型上，所以这个时机恰到好处。我觉得文本扩散领域还有很多未被充分探索的研究问题。权重已在 HuggingFace 上可用。

Google DeepMind: DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting w...

Google 推理模型发布