5月19日

08:00

HuggingFace Daily Papers（社区热门论文）

针对扩散大语言模型在混合专家架构下部署于资源受限设备的挑战，TIDE提出了一种无需模型训练的无损推理优化系统。该系统利用块内扩散过程中专家激活的时间稳定性，设计了基于间隔的专家刷新策略，以输入输出感知方式动态更新专家位置。通过将推理调度建模为数学规划问题，TIDE能够求解最优间隔以最小化输入输出流量和CPU计算开销。实验表明，在单GPU-CPU系统中，TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上分别实现了最高1.4倍和1.5倍的吞吐量提升，为现有基线方法带来显著加速。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Mix-Quant：面向代理型大语言模型的量化预填充与精确解码

针对代理型大语言模型推理中的计算瓶颈，研究团队提出Mix-Quant，一种相位感知的量化框架。该框架发现推理流程中预填充阶段虽为算力主要消耗环节，但存在显著量化冗余，而解码阶段对量化更敏感。为此，Mix-Quant采用混合精度策略：对预填充阶段应用高吞吐的NVFP4量化以加速，对解码阶段保持BF16精度以确保输出质量。该方法在多项长上下文和代理任务基准测试中，能有效保持任务性能，同时将预填充阶段速度提升最高3倍。

智能体推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

OScaR：面向LLM及其多模态扩展的极致KV缓存压缩框架

针对长上下文与多模态大语言模型中KV缓存内存占用高的瓶颈，本文提出了OScaR压缩框架。研究发现，传统逐通道量化在极端压缩下受限于“令牌范数不平衡”问题。OScaR通过“渠道化旋转”与“全令牌缩放”两项轻量技术，有效缓解了该不平衡带来的量化误差，无需复杂流程。在多种大模型上的实验表明，OScaR在INT2量化下可实现近乎无损的性能，相比基准解码速度提升最高达3.0倍，内存占用减少5.3倍，吞吐量增加4.1倍，为极致KV缓存压缩提供了高效通用方案。

GitHub 开源生态推理论文/研究

06:55

OpenClaw🦞@openclaw

OpenClaw 2026.5.18 已上线 🤖 xAI/Grok OAuth + sidecar 认证修复 🎙️ 实时 Android 对话模式 💬 Telegram 媒体 + 论坛主题推送修复 🪟 浏览器对话框可见且可应答一周的打磨、优化，减少小问题。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.18

智能体开源/仓库部署/工程

06:06

Chubby♨️@kimmonismus

智能成本低到难以计量。这是真正的突破。Composer 2.5是效率怪兽。

Chubby♨️: Huge, did NOT expect that release. Evals looks very solid, significant jump compared to composer 2! But: it's 10x more e...

模型发布部署/工程

03:14

Runway：News（网页）

精选57

分布式训练为何艰难：DTensor、正确性与抽象的代价

本文探讨了分布式训练中的正确性难题及DTensor方案的权衡。DTensor通过为张量附加放置元数据（如Shard、Replicate）来自动管理通信，确保计算正确性。文章通过一个并行化案例，展示了不使用DTensor时手动处理梯度计算可能引发的静默错误（如梯度为零或倍增），从而凸显了正确性的复杂性。然而，DTensor的抽象层在简化开发的同时，也可能在大规模场景下引入隐性的性能开销。因此，在设计分布式系统时，需要在抽象的开发便利与底层的计算效率之间做出审慎权衡。

教程/实践部署/工程

推荐理由：Runway 工程师用四次失败的并行化尝试把分布式训练的正确性难题拆解得明明白白，还给出了 DTensor 在规模下吃掉的 MFU 和编译陷阱的一手数据，做大模型训练的人值得从头读到尾。

02:34

Hacker News 热门（buzzing.cc 中文翻译）

Anthropic 收购 Stainless

AI公司Anthropic宣布收购软件开发工具提供商Stainless，交易细节未披露。此次收购旨在增强Anthropic在开发者工具与API基础设施方面的能力，进一步巩固其在AI应用生态中的布局。Stainless以生成和管理API客户端代码库而闻名，其加入有望提升Anthropic模型的易用性与集成效率。

Anthropic 行业动态部署/工程

01:20

Anthropic@AnthropicAI

Anthropic正在收购@stainlessapi，这是一个SDK和MCP服务器平台，自我们API早期以来就为所有Anthropic SDK提供支持。阅读更多：https://www.anthropic.com/news/anthropic-acquires-stainless

Anthropic MCP/工具行业动态部署/工程

01:04

Hacker News 热门（buzzing.cc 中文翻译）

"玻璃翅膀"项目：Mythos向我们展示了什么

Cloudflare推出“玻璃翅膀”项目（Project Glasswing），通过Mythos展示了网络安全前沿模型的创新突破。该项目在Hacker News上获得108点热议，标志着在防护技术和模型效率方面的显著提升。Mythos作为核心组件，揭示了未来网络防御的智能化趋势，推动行业向更高安全标准演进。

安全/对齐现象/趋势部署/工程

00:39

Microsoft Research@MSFTResearch

研究聚焦新动态：云效率、更智能的智能体成本削减、3D远程医疗随机试验，以及面向非洲包容性AI语言项目的公开征集。

智能体 Microsoft 行业动态部署/工程

00:13

ClaudeDevs@ClaudeDevs

精选73

在大规模运行Claude Code有哪些最佳实践？关于我们从团队在数百万行单体仓库、数十年历史的遗留系统和分布式微服务中运行的经验总结，新博客文章已发布： https://claude.com/blog/how-claude-code-works-in-large-codebases-best-practices-and-where-to-start

Anthropic 教程/实践编码部署/工程

推荐理由：官方终于出了一份给百万行单仓库和遗留系统的实操指南，比社区零散经验靠谱得多，做工程团队的可以抄作业。

00:04

向阳乔木@vista8

AI自动修复Shadowrocket与Tailscale网络冲突

用户在使用Shadowrocket时发现，安装Tailscale后网络连接出现异常：关闭Shadowrocket时可正常进行远程桌面连接，但开启后便无法连接。最终通过AI工具Codex自动执行网络联通测试，并修改本地规则数据库成功修复问题。此案例表明，复杂网络配置问题可由AI高效解决，未来或可广泛应用于自动化编写Shadowrocket等工具的配置规则。

教程/实践部署/工程

5月18日

23:45

AYi@AYi_AInotes

AI生成内容该用HTML还是Markdown的实用判断标准

推文提出了一个核心判断标准：根据AI产出内容的最终用途来选择格式——如果是为了“阅读”，就用Markdown；如果是为了“使用”，则用HTML。推文指出，许多内容（如项目计划）本质上属于“使用”范畴，但常被错误地用Markdown交付，导致效果不佳。为此，作者推荐了三种适合用HTML生成的实用场景：项目计划页（含时间线与交互图表）、数据看板（支持排序筛选的交互表格），以及各类临时小工具。

AYi: http://x.com/i/article/2053129966217277440

教程/实践部署/工程

22:41

OpenRouter@OpenRouter

新功能：一个更易使用的 playground 侧边栏，可适配您正在尝试的模型类型查看 @Kling_ai Video v3 的实际效果：

产品更新部署/工程

21:45

Cloudflare Blog

精选59

玻璃翼项目：Mythos向我们展示了什么

近期，团队将Mythos及其他聚焦安全的大语言模型应用于关键基础设施的实时代码测试。测试揭示了模型在识别漏洞和代码审计方面的优势，例如在复杂逻辑中发现潜在风险的能力，同时也暴露了其存在的局限性，包括产生误报以及对上下文理解的不稳定。文章指出，在将这些安全LLM的能力扩展到更大规模之前，必须围绕其建立一套可靠的工作流程，包括持续验证和人工复核机制。

教程/实践部署/工程

推荐理由：Cloudflare 用安全 LLM 扫自家代码这事，比很多安全厂商的营销稿实在得多。虽然还没到能规模化的时候，但哪些模型好用、哪里会踩坑，做 DevSecOps 的可以直接抄作业。

20:01

公众号：百度智能云（文心）

百度Q1财报：智能云增长势头强劲

行业动态部署/工程

18:45

IT之家（RSS）

OpenAI为"星际之门"高薪招聘社区事务负责人以缓解建设阻力

OpenAI近日为“星际之门”数据中心项目招聘“社区事务负责人”，年薪12.96万至23.6万美元并含股权激励。该岗位核心目标是与项目所在地社区沟通，“减少社区阻力”。此举源于当前美国多地居民担忧数据中心会消耗水资源、推高电费及产生噪音，进而引发抵制。“星际之门”是OpenAI联合甲骨文、软银等投入5000亿美元的大型AI基础设施项目，目前已选址五个州。OpenAI表示，该岗位工作关乎其核心使命，需确保社区理解项目意义并获得实际收益。

OpenAI 行业动态部署/工程

18:00

公众号：小红书技术（dots.llm）

小红书引擎架构团队ICDE 2026新成果：CCD感知编排突破多核CPU向量搜索性能天花板

小红书引擎架构团队在ICDE 2026提出一种面向多核CPU的CCD级负载感知和线程编排向量检索框架，通过感知CCD（Core Complex Die）层级负载并优化线程编排，突破多核CPU向量搜索的性能天花板。

搜索论文/研究部署/工程

16:45

IT之家（RSS）

必胜客强推 AI 配送系统致门店业绩暴跌，遭加盟商索赔超 1 亿美元

必胜客母公司百胜餐饮集团强制推行名为“龙尾（Dragontail）”的AI配送管理系统后，引发门店配送延误与业绩大幅下滑。其头部加盟商Chaac Pizza Northeast运营的111家门店销售额严重下降，纽约市同比增速从10.19%转为-9.78%。骑手通过系统实时查看后厨进度，导致囤积订单、选择性接单，拉长配送时间并降低顾客满意度。该加盟商因此索赔超1亿美元（约合6.82亿元人民币）。与此同时，百胜餐饮集团正计划关闭250家必胜客门店，并面临市场竞争加剧与同店销售持续下滑的困境。

行业动态部署/工程

15:32

向阳乔木@vista8

不得不说，哪怕在大模型这么厉害的今天。 DeepL的翻译质量还是很优秀。淘宝上几块钱买个 API，配置到Bob翻译里，用了一年多了。。。

教程/实践部署/工程

12:03

Yuchen Jin@Yuchenj_UW

GPU短缺比以往任何时候都更严重。 H100现在的价格比三年前更高，而且无法按需获取。大型AI实验室已锁定了未来数年的绝大部分供应。我担心大学研究人员和独立开发者将根本无法获得GPU。

现象/趋势部署/工程

09:45

IT之家（RSS）

消息称英伟达领投：印度 AI 公司 Simplismart 融资 2000 万美元，估值约 1 亿美元

英伟达正处高级谈判阶段，准备领投印度生成式AI公司Simplismart的2000万美元融资轮，该公司估值约1亿美元。Simplismart由前甲骨文和谷歌工程师于2022年创立，在班加罗尔和旧金山设有办事处，帮助企业构建和部署生产级AI系统，无需编写代码。其AI推理平台将在英伟达基础设施上提供，双方正就推理微服务（NIM）展开合作，以增强企业AI模型的部署与管理能力。此举标志着英伟达加大对印度AI基础设施生态的投入。

行业动态部署/工程

08:54

Berryxia.AI@berryxia

开源工具揭露AI API中转站安全风险与检测差异

针对AI API中转站可能存在的“掺水”、“造假”等安全风险，开源项目api-relay-audit通过双论文锚定路线，对AC-1工具调用改写、AC-2错误响应泄漏、上下文截断等常见攻击进行可验证的三态判定，并提供透明日志。对比hvoy.ai和cctest.ai等工具，其透明度和可审计性更为可靠。项目作者已将完整方法论、对比结果和功能速查表公开，并开源了该检测工具。

李韭二: http://x.com/i/article/2052006162804125696

开源/仓库部署/工程

08:53

meng shao@shao__meng

KroWork提出LLM应用固化方案

LLM应用层产物形态从chat演进到agent，两者输出均受限于会话，每次运行都需冷启动、重输上下文并消耗token。KroWork推出第三步应用固化，通过将对话编译为本地可执行App，使后续运行完全避免token消耗，实现一次编译后多次调用，提升效率并降低成本。

智能体现象/趋势部署/工程

5月17日

23:44

IT之家（RSS）

上海移动宣布 5G-A 超级上行网络能力规模商用，推出 1 元 40 万 Tokens 通用服务

上海移动在世界电信日宣布其5G-A超级上行网络能力正式规模商用，通过三项关键技术实现上行峰值1Gbps、泛在覆盖20Mbps，已覆盖核心城区等重点区域。同时，公司推出Token通用服务，支持一号通用、跨平台使用和话费支付，并以1元40万Tokens的价格联合腾讯提供AI原生工作台。此外，上海移动完成了天地一体化海洋通信专网验证，实现国产邮轮5G+卫星通信首呼，智算能力达11.2EFLOPS，并构建了以Token运营为核心的新数智服务生态。

产品更新部署/工程

22:32

Hacker News 热门（buzzing.cc 中文翻译）

我不认为人工智能会让你的流程变得更快

作者认为人工智能未必能加速工作流程，反而可能因引入新的复杂性和决策环节而拖慢进程。关键在于AI改变了工作性质，将重心从执行转向监督与调整，这需要额外的时间投入。文章指出，盲目追求流程速度可能忽略AI在提升质量、减少错误方面的真正价值。真正的效率提升应来自对流程的重新设计，而非简单地将AI嵌入现有步骤。

推理现象/趋势部署/工程

22:32

Hacker News 热门（buzzing.cc 中文翻译）

每一份 AI 订阅对企业而言都是一颗定时炸弹

企业广泛采用AI订阅服务正成为潜在运营风险源，这些订阅可能引发隐藏成本激增、数据安全漏洞和技术依赖问题。随着使用量扩大，费用失控和合规性挑战如同定时炸弹般威胁企业财务与稳定。业界警示需建立严格管理机制，以防范未来危机爆发。

数据/训练现象/趋势部署/工程

22:32

Hacker News 热门（buzzing.cc 中文翻译）

Apple Silicon本地运行LLM成本高于云端API

分析显示，在Apple Silicon芯片（如M2 Ultra）上本地运行Llama 3.1 405B等大型语言模型，其成本高于使用OpenRouter等云端API服务。具体而言，本地运行每百万tokens成本约为0.73美元，而通过OpenRouter仅需0.59美元，成本高出约24%。这突显了对于大规模模型推理，云端服务目前可能比高端本地硬件更具经济性。

端侧评测/基准部署/工程

21:04

Chubby♨️@kimmonismus

能源而非算力，可能成为人工智能的真正瓶颈。犹他州拟建的Stratos数据中心在完全建成后，耗电量可能高达9吉瓦，使其成为全球最大的数据中心项目之一。这大致相当于纽约市的平均电力需求--或约九座核电站的发电量--仅用于一个数据中心。

行业动态部署/工程

18:44

IT之家（RSS）

长鑫科技：一季度营收同比增 719.13%，净利润 330 亿元

长鑫科技提交科创板IPO招股书。2026年第一季度，公司营收达508亿元，同比大幅增长719.13%；净利润为330.11亿元。业绩暴涨主要受全球算力需求增长及DRAM产品供不应求、价格自2025年下半年持续上涨驱动，同时公司产销规模扩大、产品结构优化。公司预计2026年上半年营业收入将达1100亿至1200亿元，净利润预计为660亿至750亿元。

行业动态部署/工程

16:10

Rohan Paul@rohanpaul_ai

ASML是人工智能和半导体革命的无形支柱。没有ASML： 🚫 就没有英伟达H100 🚫 就没有AI超级计算机 🚫 就没有GPT-3/4/5或Claude 🚫 就没有可扩展的数据中心他们制造这些价值4亿美元的机器，基本上支撑着所有先进芯片的生产。

大佬观点部署/工程

15:44

IT之家（RSS）

美国最大电网电价一年间近乎翻倍，数据中心成罪魁祸首

美国最大电网PJM互联电网的批发电价在过去一年从每兆瓦时77.78美元飙升至136.53美元，近乎翻倍。市场监测机构报告指出，电价暴涨的主要原因是数据中心用电需求激增，而电网运营方应对不力。PJM电网在2022年数据中心建设热潮时暂停受理新增发电项目，导致供电缺口持续扩大，现有产能已无法满足需求。报告还批评其决策缺乏透明度，系统升级拖延，且近期发展规划未获主要电力公司认可。

行业动态部署/工程

14:44

IT之家（RSS）

无锡将建立一座大规模 Token 工厂，首批部署 4 台华为昇腾 384 超节点服务器

弘信电子与无锡高新区合作，在无锡启动建设大规模Token工厂。首批部署4台华为昇腾384超节点服务器，每台服务器拥有384卡算力，总计1536张GPU连接成超级集群。该项目旨在打造规模化、高性能的“国芯国模”算力基础设施，未来将成为行业新样板。

行业动态部署/工程

13:44

AYi@AYi_AInotes

AI工具时代的生产悖论：demo易得，工程难行

一条关于游戏开发的推文引发广泛共鸣：利用3D Gaussian Splatting技术生成的单颗树莓模型精度极高且运行流畅，但若将一整筐此类高精度模型放入游戏，帧率会骤降至2 FPS。这现象揭示了AI工具领域的普遍困境：生成单张图像、短视频或代码片段时效果出色，一旦进行批量生产或系统集成，就会出现质量崩溃、性能低下或依赖混乱等问题。其核心在于，新工具极大降低了创意demo的制作门槛，但将其转化为稳定、可交付的生产级应用，所需的工程优化与整合能力反而变得更加稀缺和关键。AI让创意唾手可得，但跨越demo到生产的鸿沟，仍需扎实的工程能力。

Naz: Cant wait for an indie dev to accidentally put a carton of these in his game as a prop and wonder why his game runs at 2...

图像生成现象/趋势部署/工程

11:12

SemiAnalysis@SemiAnalysis_

MLSys 2026下周开幕！ MLSys是展示AI研究者正在攻克的最重要系统问题的会议，SemiAnalysis将亲临现场。以下是我们发现的一些有趣研究 🧵

行业动态部署/工程

10:00

向阳乔木@vista8

Hermes框架在代码质量与稳定性上优于OpenClaw，支持多机器人独立配置与远程协同

Hermes框架在代码质量和稳定性方面显著优于OpenClaw。用户可通过命令行快速创建多个独立机器人角色，并为每个角色分别配置不同的AI模型（如OpenAI GPT、GLM、Kimi等）和即时通讯平台（如飞书、微信）连接。配置过程通过引导式指令和扫码完成，简化了网关设置，实现了多机器人的远程协同工作流。

智能体教程/实践部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

从可运行到可交付：基于多智能体测试驱动的开发范式用于从需求生成全栈Web应用

针对编码智能体生成的Web应用超70%不满足需求的问题，本文提出TDDev框架。该框架通过三阶段实现自动化闭环：先将需求转化为结构化测试，再通过浏览器模拟交互验证应用，最后将故障转化为修复报告。首次针对Web应用生成的TDD实证研究发现，引入TDD基础设施可提升质量34-48个百分点。关键结论是最佳协议需与模型生成风格匹配，不匹配将完全抵消TDD优势并最多增加25倍Token消耗。用户研究证实，该框架使人工干预降为零，开发转向自主反馈优化。

智能体 arXiv 编码论文/研究

推荐理由：把TDD塞进多智能体代码生成，直接把Web应用的正确率从不到30%拉到70%以上，更重要的是他们发现给不同模型配错了开发协议反而会雪崩，做Agent工程的必读。

04:41

SemiAnalysis@SemiAnalysis_

AMD代码贡献获NVIDIA接纳，开源社区迎里程碑

NVIDIA的AI性能基准测试项目AIPerf接受了来自AMD的上游代码贡献，这被认为是AMD代码首次被纳入NVIDIA官方仓库。此举被视为开源社区的重要时刻，意味着高质量的、不依赖特定厂商的代码将能供所有人使用。社区期待未来能有更多此类合作，例如将AMD的RIXL部分代码整合进NVIDIA的NIXL，而非维持独立分支。

开源生态行业动态部署/工程

03:54

Dwarkesh Patel：Podcast & Blog（RSS）

关于预训练并行化与失败训练运行的笔记

近期访谈揭示了大规模语言模型预训练中的并行化策略与失败案例。关键变化包括从数据并行转向更复杂的模型并行、流水线并行及混合策略，以应对万亿参数模型的内存与计算挑战。具体指标显示，某些失败训练运行因硬件故障或超参数设置不当，导致数百GPU小时损失。成功案例则通过优化通信开销与负载均衡，将训练效率提升约15-30%。这些经验为GPT、Claude、LLaMA等模型的稳定训练提供了重要技术参考。

OpenAI 教程/实践数据/训练部署/工程

00:41

Peter Steinberger 🦞@steipete

BlackBar 0.2.0 已为 @useblacksmith 上线 📈 24小时vCPU与工作流图表 🔔 可选状态/任务通知 🧰 更丰富的Blacksmith任务行 🟢 紧凑状态徽标小巧菜单栏，减少CI猜测。 https://black.bar

产品更新部署/工程