6月26日

00:00

Google Research：Blog（网页）

精选55

Google Research提出一种新架构，在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction（MTP），以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM，无需单独训练占用内存的草稿模型，通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低，开发者无需为每个新任务微调独立模型。

Google 推理端侧论文/研究

推荐理由：谷歌这篇技术博客值得端侧开发者细读，他们把多令牌预测硬是装进了已部署的 Nano 模型，Pixel 上生成加速五成，还省了 130MB 内存，零拷贝架构的想法挺巧，但没法直接复现，主要是开脑洞用的。

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选58

SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡

SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法：Waterfill 将共享专家分配给负载更低的 rank，在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%，在 DeepSeek V4 上最佳点从 49,253 tok/s 提升至 51,677 tok/s（+4.92%）；LPLB 基于线性规划优化冗余专家副本的 token 路由，配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。

产品更新推理部署/工程

推荐理由：SGLang 引入 Waterfill 和 LPLB 两种负载均衡算法，实测 DeepSeek V3/R1 和 V4 吞吐提升最高 7%，用 SGLang 跑 MoE 推理的开发者值得一试。

6月25日

23:24

elvis@omarsar0

Hyperagent 为每个 AI 智能体提供专用云端机器，托管基础设施，无需笔记本常开也能持续运行。针对 OpenClaw 等本地框架常见的问题（每日崩溃、泄露秘密、频繁监控），Hyperagent 提供稳定安全替代方案。限时优惠：注册即获 $100 推理积分，迁移首个智能体再获 $500。

Andrew Busse: If OpenClaw feels more like babysitting, you're not alone. Skip the daily crashes, leaked secrets, and constant monitori...

智能体行业动态部署/工程

22:58

IT之家（RSS）

MWC上海2026开幕，华为携手运营商发布5G-A与U6GHz等创新成果

为期三天的2026上海世界移动通信大会6月24日开幕。华为轮值董事长汪涛发表演讲。展会期间，华为携手中国移动、中国联通、中国电信发布5G-A大上行、AI焕新主营业务、Token经营等创新成果，并发布AI-Centric目标网。5G-A用户数已破亿。U6GHz被认定为下一代频谱，超20个国家和地区已明确用于国际移动通信；2026年是U6GHz商用元年，中东、中国香港、中国澳门等将启动商用部署。中国移动与华为的无线网络智能化方案获“亚洲最佳AI驱动网络解决方案奖”等两项大奖，已在六大省市试点，网络质差工单自动闭环率提升至15%，额外节能增益达5.5%。

行业动态部署/工程

21:20

ginobefun@hongming731

开发者 @hongming731 分享使用 FreeLLMAPI 项目"光明正大白嫖"，已累计消耗约 1.3B token，支持自定义策略。此外，他还提出基于 Dify 异常分支的省钱方法：增加一个 openrouter/free 节点，当异常时使用 flash 模型兜底，每天可免费调用 1000 次。

ginobefun: 基于 Dify 异常分支的省钱小妙招增加一个 openrouter/free 节点处理,异常时使用 flash 模型兜底,每天可以调用 1000 次

MCP/工具教程/实践部署/工程

20:35

Chubby♨️@kimmonismus

AI数据中心扩张的真正瓶颈：电网接入

AI算力需求激增推动数据中心扩张，但真正的瓶颈可能并非芯片或能源生产，而是电网接入。OpenAI与SoftBank在德州的Stargate园区耗资超400亿美元，峰值负载约1.2吉瓦。然而美国电网并网等待时间中位数从2005年的不到20个月增至2023年的55个月。现行先到先得的审批机制导致严肃项目被投机项目阻塞。未来赢家可能不是拥有最佳模型或最多芯片的国家，而是能快速接入电网的国家。

OpenAI 现象/趋势部署/工程