5月25日

20:24

Alibaba Cloud@alibaba_cloud

在2026年Qwen大会上，NVIDIA高级解决方案架构师翟健在基础模型论坛上深入解析《Qwen推理优化：通过NVIDIA全栈加速实现突破性能》。感受AI原生动力。 🚀 敬请期待：https://click.qwencloud.com/m/20000000190/

行业动态部署/工程

19:24

Alibaba Cloud@alibaba_cloud

在2026年通义千问大会上，英特尔高级云解决方案架构师张健将加入Agent Native Cloud论坛，探讨如何使用英特尔至强处理器构建快速、可靠且高性价比的AI智能体基础设施。共同迈入AI原生时代。 🚀 敬请关注：https://click.qwencloud.com/m/20000000190/

智能体行业动态部署/工程

16:51

SiliconFlow@SiliconFlowAI

@Kimi_Moonshot K2.6在SiliconFlow上享受约15%折扣💰 输入价格：$0.90/M ➡️ $0.77/M 结合 → 在@OpenRouter上表现顶尖：平均工具调用错误率0.21% → 缓存命中率超80% → FP8量化 + 零数据留存花更少，调试更少，发布更多开发者们别错过立即开始使用SiliconFlow上的Kimi K2.6 ↓

产品更新部署/工程

13:51

宝玉@dotey

Kimi官方推出了基于TypeScript和pi-tui重写的命令行工具kimi-code，替代了此前基于Python的kimi-cli版本。作者回顾了之前关于用Python重写失败的讨论，并提到目前正推动将一些在Claude Code上体验良好的功能整合到新工具中。项目已在GitHub开源。

Yufan Sheng: 翻译一下,Kimi 自己基于 Python 写的 kimi-cli,在今天换成了基于 Typescript 和 pi-tui 写的新 kimi-code。已经在 PUA 对应的研发小哥哥加一些我在 Claude Code 上用得很爽的功能...

GitHub 产品更新部署/工程

09:31

ginobefun@hongming731

BestBlogs 5月26日早报精选

早报精选10篇文章并精讲3篇：包括Google与OpenAI将AI商业竞争焦点转向部署落地，Anthropic研究PM揭秘下一代Claude的「dreaming机制」，以及关于“超级个体”是通过完整Closed-loop被激发而成的反直觉观点。

Anthropic Google OpenAI 现象/趋势

02:57

Rohan Paul@rohanpaul_ai

大型MoE模型或在无需专家帮助的简单token上浪费半数计算

论文提出ZEDA框架，可将训练后固定的静态MoE模型（如Qwen3、GLM）转变为动态模型，允许路由器在token过于简单时跳过专家调用。实验显示，在Qwen3-30B-A3B和GLM-4.7-Flash上，ZEDA可移除约50%的专家计算量，仅带来轻微准确率损失，并实现约20%的实际推理速度提升。研究发现，计算分配主要依据模型的不确定性，而非单纯跟随任务难度。

推理论文/研究部署/工程

00:57

Chubby♨️@kimmonismus

科技业裁员潮与AI基建狂飙

2026年科技行业出现大规模裁员，多家公司公开将人力成本转向AI投资。Meta裁员8000人，同时投入1000亿美元建设AI数据中心；Cisco CEO称裁员4000人已是“乐观地低”；Intuit裁员3000人以重构业务，但对媒体否认“因AI裁员”。据统计，今年已有超10万科技岗位流失，TrueUp预测全年可能达37万。推文指出，核心变化在于公司不再避讳，正公开地将人力预算“转换为GPU集群”。

Meta 行业动态部署/工程

00:50

Ant Ling@AntLingAGI

为加速开发者采用，我们正在OpenRouter上为Ling-2.6-1T提供限时75%折扣。该模型拥有1T总参数和63B激活参数，专为真实生产需求打造，以更低的token开销提供强大智能--无需长推理链 👇

行业动态部署/工程

5月24日

22:27

Rohan Paul@rohanpaul_ai

6分钟内获得良好GPU性能总结。

教程/实践部署/工程

21:27

Rohan Paul@rohanpaul_ai

🇨🇳 中国杭州机场现已启用其首台轨道式驱鸟机器人。配备定向声波装置、杀虫灯和摄像头。通过智能巡逻、高清摄像头和更环保的驱鸟方式，为跑道提供全天候保护。

具身智能行业动态部署/工程

18:57

Rohan Paul@rohanpaul_ai

封装与架构创新突破硬件限制

华为在先进NAND芯片受限的背景下，未直接追赶三星主导的高层数堆叠技术，而是采用“Die-on-Board”封装方案，通过将NAND裸片直接安装在电路板上提升存储密度，推出122.88TB AI SSD并计划推出245TB版本。与此同时，DeepSeek通过MoE、CSA/HCA等架构优化，大幅降低模型对HBM和算力的依赖，使国产硬件更适配前沿AI需求。两者路径形成呼应：华为从封装层面绕过芯片性能差距，DeepSeek从算法层面缓解硬件稀缺压力，共同体现了在外部限制下通过底层技术创新开辟新赛道的战略思维。

Rohan Paul: Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity ...

DeepSeek 推理现象/趋势部署/工程

15:57

Rohan Paul@rohanpaul_ai

AI正演变为一个高度实体化的问题。你需要土地、电网、许可证、混凝土、冷却系统和漫长的建设周期，这些决定了谁能获得算力。这是Oracle与OpenAI合作的Vantage数据中心项目，投资超过150亿美元。

OpenAI 现象/趋势部署/工程

14:27

Rohan Paul@rohanpaul_ai

二手显卡与过时内存成功本地运行万亿参数大模型

近期有技术爱好者成功在单张二手RTX 3060 12GB显卡上，运行了拥有1万亿参数的Kimi K2.5大语言模型，速度约为每秒4个token。这一成果得益于模型的混合专家架构，虽然总参数量巨大，但每次推理仅激活32B参数。实现的关键在于将延迟敏感的核心组件置于GPU显存，而将庞大的专家权重存储在由二手英特尔傲腾持久内存（PMem）构成的768GB大容量内存池中，并以DDR4内存作为缓存。通过llama.cpp工具进行混合调度，该方案为本地部署超大规模模型提供了一条低成本的技术路径。

开源生态教程/实践端侧部署/工程

13:57

Rohan Paul@rohanpaul_ai

DeepSeek：将硬件稀缺性转化为可编程的战略优势

DeepSeek的核心战略并非开发廉价聊天机器人，而是通过一系列架构创新（如MoE动态激活、DSA优化、CSA/HCA技术）显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势，使次优芯片、LPDDR内存及定制ASIC能支持前沿AI，从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响，如V4-Pro大幅降价并与国产硬件生态形成联动，最终目标是实现“硬件稀缺性可编程”。

GDP: http://x.com/i/article/2057886253249662976

DeepSeek 开源生态推理现象/趋势

12:15

OpenClaw🦞@openclaw

OpenClaw 2026.5.22 已上线 ⚡ Gateway/模型启动路径更精简 🧠 /models 响应时间降至约5毫秒 🔒 npm包现提供锁定依赖项 🪟 Windows安装/更新路径更安全等待更少，意外更少。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.22

智能体产品更新开源生态部署/工程

05:05

SemiAnalysis@SemiAnalysis_

我们最近关于AI实验室如何解决电力危机的文章中反复探讨的一个观点是：现场天然气已不再是边缘选项，而是悄然成为美国下一代训练集群的默认规划假设。（1/4） 🧵

现象/趋势部署/工程

5月23日

23:51

elvis@omarsar0

调整运行时接口而非模型，提升AI代理通用性

一项新研究提出通过改进包裹冻结LLM的运行时接口来优化AI代理性能，而非修改模型本身。该方法将反复出现的交互失败转化为对运行时层的可复用干预，在7个确定性环境、126个设置中取得平均88.5%的相对性能提升。关键发现是，从单一模型轨迹中学习到的运行时方法可成功迁移至18个不同模型骨架，证明其捕捉的是环境结构而非模型特异性模式。这为生产环境中部署AI代理提供了更高可移植性的解决方案。

智能体论文/研究部署/工程

22:05

SemiAnalysis@SemiAnalysis_

事实警报 🚨：在现代代理式编程中，42%的时间用于CPU执行工具操作，如编辑文件、运行Bash脚本、执行代码检查等。传统云计算经济按CPU核心数收费，而代理经济的商业模式是按token计费。因此，要增加token收入，你需要提升CPU算力以生成更多token。

智能体现象/趋势部署/工程

19:57

Rohan Paul@rohanpaul_ai

Agentic AI或将推动CPU重回计算舞台中心

代理型AI（Agentic AI）的兴起正悄然改变AI计算的格局。与过去市场将GPU视为训练大模型的核心稀缺资源不同，代理型AI的任务并非单一查询，而是一个涉及规划、工具调用、记忆检索、代码执行与数据库查询的持续循环过程。这一复杂的推理与编排过程，包含大量数据移动、调度等通用计算任务，恰恰是CPU相较于GPU等加速器更为擅长的工作。正如ARK Invest CEO Cathie Wood引用OpenAI CFO Sarah Friar的话所指出的，专注于GPU的人们可能会对代理型AI如何激活CPU的能力感到惊讶。这暗示着AI计算的瓶颈正从模型训练的并行计算，转向代理执行阶段的通用处理能力，使得CPU的重要性得以重新凸显。

OpenAI 推理现象/趋势部署/工程

05:27

Rohan Paul@rohanpaul_ai

Cerebras晶圆级芯片突破AI推理速度瓶颈

Cerebras在其晶圆级芯片上实现了每秒981 tokens的推理速度，处理参数规模达1万亿的Kimi K2.6模型。该速度已获Artificial Analysis验证，是当前最快GPU云方案的6.7倍。其技术优势源于单一晶圆集成设计，大幅减少了芯片间通信延迟，从而突破了传统GPU集群因跨芯片数据搬运造成的性能瓶颈。这一速度提升对需要运行企业级编码代理等大型AI应用至关重要，能显著缩短测试、调试与迭代周期。

产品更新推理部署/工程

04:08

Anthropic@AnthropicAI

上个月我们启动了Project Glasswing，我们的协作AI网络安全倡议。此后，我们与合作伙伴已在关键软件中发现超过一万个高危或严重漏洞。

Anthropic 安全/对齐部署/工程

关联讨论 5 条

01:44

swyx@swyx

精选78

Kakuna：自动化加固代码库的AI代理工具

Kakuna是一款AI代理工具，旨在将早期快速原型自动转化为可维护的生产级代码库。它通过内置的检查清单和“计划-目标”工作流，模拟人类开发与运维流程，在保持功能不变的前提下，自动执行代码审查、测试补充、重构等“无聊”工作，并强调子代理并行以提升效率。该工具是为“人类与代理协作”而设计的范例，其核心是“反熵增”与“反代码腐化”。例如，一次约16小时的运行能生成上百次提交，将一个脆弱的MVP转变为一个结构清晰、可长期构建的稳定项目。

swyx: working on a "take this vibecoded slop app and make it a production-ready, e2e tested, maintainable, parallelizable agen...

教程/实践编码部署/工程

推荐理由：如果你还在为 vibe coding 产出的屎山头疼，swyx 这个 skill 刚开源，16 小时自动重构 103 次提交交付一个可维护的代码库，做独立开发的很值得抄一下。

01:38

OpenRouter@OpenRouter

OpenRouter现已在@warpdotdev中得到支持！❤️ 工程师Dagm Assefa展示了如何连接DeepSeek和OpenRouter。文档：https://docs.warp.dev/agent-platform/inference/custom-inference-endpoint/ 🔖

Warp: You can also connect to inference endpoints that follow the OpenAI Chat Completions API. This includes @OpenRouter, @Lit...

产品更新部署/工程

00:35

SemiAnalysis@SemiAnalysis_

摩根士丹利发布NVIDIA VR200物料清单分析

摩根士丹利发布了对NVIDIA VR200的物料清单分析。报告指出，其内存成本特指LPDDR5x SOCAMM与NVMe SSD，而GPU成本中已单独包含HBM。因采用无缆设计，PCB面积与材料成本有所上升。报告列示的总成本为OEM渠道价格，大型云服务商的采购成本将更低。该机构客户自2026年2月起已获得此分析，报告同时研究了网络连接器、背板等组件的变化及供应商格局演变。

Aaron: Sheesh. $NVDA VR200 Bom Analysis from MS.

行业动态部署/工程

00:20

DeepSeek@deepseek_ai

我们将优惠永久化！🎉 享受使用 DeepSeek-V4-Pro 构建的乐趣，将您的创新想法变为现实！🚀

DeepSeek: The DeepSeek-V4-Pro discount has been extended until May 31, 2026, 15:59 UTC!

DeepSeek 产品更新部署/工程

5月22日

19:20

Alibaba Cloud@alibaba_cloud

Qwen3.7-Max现已在Model Studio上线，限时五折（5月22日至6月22日）！可靠的跨框架支持。专为一键部署和无缝集成到现有技术栈而设计。 🚀 立即体验：https://int.alibabacloud.com/m/1000413314/

模型发布部署/工程

18:26

Rohan Paul@rohanpaul_ai

Google为开发者带来好消息。所有付费Antigravity层级现在都将获得永久的3倍Gemini速率限制。

Varun Mohan: An update: we're 3xing the rate limits for Gemini models across all paid tiers in Antigravity and resetting everyone's G...

Google 产品更新部署/工程

16:50

Alibaba Cloud@alibaba_cloud

寻找部署 DeepSeek V4-Flash 最具性价比的方式？🚀 我们通过实际基准测试和定价数据，对比了阿里云 PAI-EAS 上的不同部署选项。找到您每美元的最佳性能！ 📺 立即观看：https://youtu.be/32GdEdEzPs8 #DeepSeek #AlibabaCloud #PAI #AI

DeepSeek 教程/实践部署/工程

10:08

Huawei Cloud@HuaweiCloud1

在 #HiFS2026 上，华为推出了 #HuaweiCloudStack 金融解决方案--提供一种新的弹性、开放、智能的架构，帮助金融机构从封闭系统转向基于云的分布式智能基础设施。 ✅ 弹性云基础设施，用于虚拟机替换 ✅ 核心应用无缝云迁移 ✅ 智能数据湖，用于营销、风控和运营

行业动态部署/工程

09:56

Chubby♨️@kimmonismus

东京大学研发超低功耗芯片，效率提升千倍但十年后才能商用

东京大学研发了一种新型芯片组件，其处理数据速度较传统方法提升1000倍，且不产生额外热量。关键突破在于功耗仅为现有技术的百分之一，这理论上能使一个谷歌规模的数据中心能耗降低至当前的百分之一，极大缓解AI行业的能源压力。然而，该芯片原型预计2030年才问世，商用化需更长时间，凸显了AI快速发展与突破性节能技术量产时间之间的差距。

论文/研究部署/工程

09:38

Huawei Cloud@HuaweiCloud1

华为展示AI驱动金融变革新图景

华为于上海举办智能金融峰会2026（HiFS 2026），与全球金融业领袖探讨AI驱动的数字化转型。华为基于全栈云化的计算、存储与网络能力，通过软硬件系统级协同，构建了坚实的金融基础设施。在此之上，华为正打造一个支持多种模型与场景的金融级AI Agent赋能平台，旨在推动金融业向智能化阶段跃迁。

智能体行业动态部署/工程

07:30

ginobefun@hongming731

BestBlogs 早报 · 05-22|Agent 记忆原语、Qwen3.7-Max、自动化与人类专家

本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语，将跨会话记忆工程化，Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试，在未知硬件平台上自主优化Kernel，实现1158次工具调用零中断，凸显长程稳定性，将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时，Every创始人观察到，随着AI自动化普及，能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。

智能体 Anthropic OpenAI 推理

05:56

Google AI Developers@googleaidevs

所有付费Antigravity层级的Gemini速率限制已永久提升三倍。我们还重置了所有人的每周配额。⤵️

Varun Mohan: An update: we're 3xing the rate limits for Gemini models across all paid tiers in Antigravity and resetting everyone's G...

Google 产品更新部署/工程

05:13

Deedy@deedydas

Modal获3.55亿美元C轮融资，估值46.5亿美元

AI基础设施平台Modal宣布完成C轮融资，以46.5亿美元估值融资3.55亿美元，由General Catalyst和Redpoint领投。该平台为Anthropic、Meta、Suno等众多AI公司提供可扩展的AI工作负载（训练、推理、沙箱等）运行服务，以高效著称。Modal的两位创始人均为国际信息学奥林匹克金牌得主，公司展现出高人均营收的运营效率。

Erik Bernhardsson: Today we're announcing our Series C funding: $355M at a $4.65B valuation, led by some great investors @generalcatalyst a...

行业动态部署/工程

05:05

SemiAnalysis@SemiAnalysis_

AI并非首个价格下降多个数量级的技术。当螺丝还是手工制作时，产量以百或千计。如今产量已达万亿。这场革命并非来自让过去使用的少量螺丝变得更便宜，而是来自构建一个在螺丝价格高出1500倍时无法想象的现代世界。

现象/趋势部署/工程

03:36

swyx🛬 SFO@swyx

所有从事AI基础设施*的人终于都赚得盆满钵满，看到他们成功真是太好了 *不是那些性感的AI研究工作，只是"无聊"的基础设施

大佬观点部署/工程

03:07

Epoch AI@EpochAIResearch

对于前沿AI芯片而言，内存是最大且增长最快的组件成本。高带宽内存（HBM）在AI芯片组件总支出中的占比，已从2024年第一季度的52%增长至2025年第四季度的63%。

行业动态部署/工程

02:26

Rohan Paul@rohanpaul_ai

微软正向Anthropic推销Maia 200 AI芯片

据The Information报道，微软正向AI公司Anthropic推销其第二代AI芯片Maia 200，强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练，双方已有深度合作基础：Anthropic已在Azure承诺300亿美元支出，且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为，Maia 200无需全面超越NVIDIA，只要能在高量推理中提供更低成本选项，便可能将部分计算需求从GPU转移。

Anthropic Microsoft 推理行业动态

01:26

AK@_akhaliq

Mix-Quant 量化预填充，精确解码，面向智能体LLM

智能体论文/研究部署/工程

01:13

向阳乔木@vista8

AI秒变顶级运维：一键搞定VPS与域名配置

推文展示了AI工具（如Codex和Claude Code）在服务器运维领域的强大能力。仅需提供SSH账号密码，AI即可自动配置海外VPS，无需手动安装宝塔等控制面板。若域名使用Cloudflare，提供DNS API权限后，AI能自动完成域名解析、SSL证书申请及续期等全流程配置。这标志着AI已能承担专业级运维任务，显著降低技术门槛，使普通人也能轻松管理服务器与域名。

智能体教程/实践部署/工程