5月6日

02:57

Artificial Analysis@ArtificialAnlys

MiniMax-M2.7模型已在六家推理服务商上线，各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先，比其他提供商快3倍以上，但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出，Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿：前者性价比高，后者则以高价换取极致速度。此外，各家的高速缓存折扣政策不同，这对缓存密集型工作负载的成本影响显著。因此，最优选择高度依赖于具体工作负载对延迟和成本的敏感度。

推理评测/基准部署/工程

01:27

SemiAnalysis@SemiAnalysis_

Cerebras公司的口号应该是："无需分割，皆是奇点"

大佬观点部署/工程

5月5日

23:56

凡人小北@frxiaobei

AI研发团队长这样： codex + figma = 产品 codex + github = 开发 codex + compute = 测试 codex + cloudflare（wrangler / cf cli / code mode）= 运维最后一组目前做得最好。

智能体 OpenAI 大佬观点部署/工程

23:19

Chubby♨️@kimmonismus

Anthropic针对金融服务领域推出预构建的Claude代理模板，可处理估值分析、KYC筛查和月末结算等任务。这些模板集成了FactSet、标普全球和晨星等主要数据提供商的连接器，可作为插件部署在Cowork和Claude Code中，或以托管代理形式在生产环境运行。此举标志着Anthropic正从通用人工智能向垂直企业工作流程领域拓展。

Claude: New for financial services: ready-to-run Claude agent templates for building pitches, conducting valuation reviews, clos...

智能体 Anthropic 产品更新部署/工程

23:14

Berryxia.AI@berryxia

同事件精选75

Google联手UCSD推出DFlash，实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash，在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈，通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化，将重塑云端成本曲线，并使实时Agent、长上下文等应用更趋现实，同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google for Developers: Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...

Google 大佬观点推理部署/工程

同一事件，精选展示《在谷歌TPU上实现3倍加速：UCSD利用扩散式推测解码优化LLM推理》

推荐理由：Google 直接干掉自回归瓶颈，3.13 倍无损加速不是渐进优化，是推理范式的根变革，当「快三倍」成为新基线，所有实时 Agent 和长上下文应用都得重算一遍成本账。

15:14

Berryxia.AI@berryxia

精选75

Tom 开源 open claude design 项目，高还原度复刻 Claude Design

开发者 Tom 开源了 open claude design 项目，宣称对 Claude Design 的还原度超过 95%。该项目历时 72 小时开发，包含超过 18700 行代码和 30 多种设计技能，支持 71 套以上设计系统，并能兼容多种主流代码代理工具。项目旨在成为 Claude Design 的开源替代品，后续将持续更新，代码已托管于 GitHub。

Tom Huang: 正式开源 open claude design 🚀 超 95% 以上的还原度! 浓缩和逆向所有 claude design 最先进的设计,最好看的模板💥 历时 72 小时,18700+ 行代码,30+ 设计 Skills,支持超过 71...

MCP/工具开源/仓库部署/工程

推荐理由：Tom总用72小时逆向出Claude Design开源版，30+设计Skills、71套设计系统，直接塞进Claude Code或Codex就能用，前端开发者省下大量造轮子时间。

09:56

meng shao@shao__meng

OpenAI 如何实现规模化的低延迟语音 AI

为实现语音AI的自然对话感，OpenAI采用WebRTC支持音频流式处理。针对1:1场景，采用Transceiver模型集中管理WebRTC状态，使后端可横向扩展。为解决WebRTC与K8s的端口和状态粘性问题，设计了Relay+Transceiver架构：轻量Relay层收敛公网UDP入口，并利用ICE ufrag字段编码路由信息，实现首包精准转发至对应Transceiver。该设计保留了协议语义，状态集中，并通过全球部署Relay优化路径，最终在K8s上实现了低延迟、高可扩展的语音交互系统。

OpenAI Developers: 🎙️ Voice AI only feels natural when conversation keeps pace with speech. Here's how we rebuilt our WebRTC stack with a ...

OpenAI 教程/实践语音部署/工程

06:48

Chubby♨️@kimmonismus

Anthropic 正与 Blackstone、Hellman & Friedman 以及 Goldman Sachs 共同成立一家新的 AI 服务公司，旨在帮助中型企业将 Claude 整合到核心业务中

Anthropic 行业动态部署/工程

06:45

Google AI Developers@googleaidevs

精选72

告别持续轮询！在构建复杂、长期运行的智能体应用时，使用 Gemini API 中的 Webhooks 来消除 API 流量的浪费，并简化编排逻辑。🙌

智能体 Google 产品更新部署/工程

推荐理由：长期轮询是agent开发的隐形税，Gemini API这次内置webhooks，把编排逻辑简化了一大截，做复杂agent的开发者今晚就能删掉一堆轮询代码。

05:25

SemiAnalysis@SemiAnalysis_

精选71

GB300 NVL72实测性能达GB200的2.7倍，凸显端到端实测价值

在行业标准推理引擎vLLM上的测试显示，NVIDIA GB300 NVL72的实测端到端性能已达GB200 NVL72的2.7倍。尽管其纸面参数仅显示NVFP4算力提升约1.5倍、HBM容量增加1.5倍且带宽相同，但在大多数服务商实际运行的中段负载区间，凭借全栈优化的复合增益，GB300实现了远超理论算力提升的性能飞跃。此次测试基于NVIDIA、Inferact和CoreWeave为开源项目提供的临时GB300系统完成，结果印证了端到端实测性能才是衡量硬件效能的黄金标准，而非单纯的纸面理论算力。

推理评测/基准部署/工程

推荐理由：纸面 FP4 算力只多 50% 的 GB300，实际推理却快了 2.7 倍，全栈优化的复合增益比参数表好看太多，做推理服务的该重新算算 TCO 了。

04:18

Chubby♨️@kimmonismus

报告揭示AI技术栈五层结构，能源与基建成新瓶颈并催生蓝领高薪岗位

Futurum Group与NVIDIA的报告将AI技术栈分为能源、芯片、基础设施、模型和应用五层。当前主要瓶颈已从芯片转向能源和冷却，美国五大超大规模企业今年基础设施支出预计高达6900亿美元。尽管Blackwell架构推理成本大幅降低，但推理模型和智能体工作流消耗的token量激增，使效率提升被迅速抵消。报告指出，AI基础设施建设正创造大量电工、暖通技工等高薪蓝领岗位，打破了AI仅影响白领的叙事。同时强调，缺乏能源、芯片制造和本土模型的国家无法真正参与AI经济，仅是消费者。

推理现象/趋势部署/工程

5月4日

22:48

Rohan Paul@rohanpaul_ai

精选71

OpenAI启动百亿美元合资公司"部署公司"加速企业AI应用

OpenAI成立了名为“部署公司”的百亿美元合资公司，筹集超40亿美元，旨在帮助企业克服AI部署障碍。核心观点是，当前企业采用AI的主要瓶颈已非模型质量，而是缺乏整合团队、工作流程、数据访问和安全规则的能力。该公司通过联合TPG、Brookfield等私募股权投资者，打包软件、咨询和部署方案，直接触达超2000家投资组合公司，实现规模化分发。同时，Anthropic也正与Blackstone、Goldman Sachs等华尔街机构组建类似合资公司，为私募股权支持的企业部署Claude并重建工作流程。这标志着AI实验室的竞争焦点正从模型性能演示转向工业化部署速度与路径控制的争夺。

Rohan Paul: WSJ: Anthropic is wrapping up a deal to set up a joint venture with Blackstone, Goldman Sachs, and other Wall Street fir...

Anthropic OpenAI 行业动态部署/工程

推荐理由：OpenAI和Anthropic几乎同时拉上黑石、高盛成立合资公司，把模型部署包装成服务卖给数千家企业。模型竞争正在降级，谁能最快把AI塞进真实业务流程才是下一阶段的王。

22:48

Rohan Paul@rohanpaul_ai

路透：AI芯片制造商Cerebras瞄准35亿美元美国IPO，每股定价115-125美元

AI芯片制造商Cerebras正计划在美国进行IPO，目标融资高达35亿美元，每股定价区间为115至125美元。该公司采用独特的晶圆级芯片技术，将几乎整个硅晶圆集成为一个巨型处理器，旨在通过将海量计算和内存置于单一硅片上，减少芯片间数据移动的瓶颈，从而为特定大型AI工作负载加速训练和推理过程。其技术路线与依赖多GPU协作、受限于数据移动速度的传统AI硬件形成对比。此次IPO是公司在撤回先前尝试后的新一轮努力，其竞争对手包括英伟达和AMD，后者同时也是其支持者。

行业动态部署/工程

22:22

Orange AI@oran_ge

近期有文章揭露，部分AI模型token中转服务存在欺诈行为，即在后台替换为劣质模型，却以高价模型名义收费。这一现象已被广泛传播和讨论。然而，当前中文社交平台上却出现大量将此类中转站宣传为"好生意"的言论。作者对此种降低行业标准、混淆视听的趋势表示难以理解和强烈不满。

马东锡 NLP: 前几周在 x 上,有篇文章已经完全证实了, token 中转就是背后换模型,以次充好,挂着羊牛卖狗肉,骗用户,大几十万阅读,似乎人人皆知了。现在简中推,到处都在吹嘘中转站是个好生意。能 low 到这个程度,非常不能理解。

现象/趋势部署/工程

17:45

Rohan Paul@rohanpaul_ai

Anthropic与华尔街巨头组建合资公司，瞄准私募股权领域AI部署

Anthropic正与黑石、高盛等华尔街机构敲定一项合资协议，旨在向私募股权支持的公司销售AI工具。各方预计共同投资约10.5亿美元，新公司将作为AI部署部门，不仅提供Claude访问权限，更帮助企业围绕大语言模型重构从客服、财务到编码、法务及内部研究的工作流程。此举目标锁定私募股权公司，因其拥有大量企业、成本控制严格且能快速推行变革。这标志着AI实验室的竞争已从模型质量，延伸至对“模型到业务流程”路径的控制权争夺。

Anthropic 行业动态部署/工程

17:23

OpenClaw🦞@openclaw

OpenClaw 插件保持核心快速轻量：仅安装你需要的频道、提供者、工具或技能。示例： `openclaw plugins install @openclaw/discord`，重启 Gateway，然后检查。清单 + 安装说明：https://docs.openclaw.ai/plugins/plugin-inventory

智能体产品更新部署/工程

12:22

Yuchen Jin@Yuchenj_UW

没有一家Neocloud曾预料到，他们今天能以比三年前更高的价格出租H100芯片。即便你有资金，前沿实验室和Neolabs已经锁定了2026年大部分的GPU供应。对人工智能的需求基本上是无限的。

现象/趋势部署/工程

10:13

Berryxia.AI@berryxia

摩根大通公开多智能体系统Ask David架构，揭示可落地Agent核心模式

摩根大通公开了其内部多智能体系统Ask David的完整架构，该模式在投资研究领域已得到验证。其核心与当前主流Agent架构高度一致：由一个监督智能体进行整体编排，多个专业子智能体分别处理检索、结构化数据和分析等任务，在最终输出前使用LLM-as-judge进行反思与质量把关，并引入人工干预作为最后一道准确性保障。这一模式在多个领域反复出现，表明可落地的多智能体系统的关键在于清晰的分工、监督、反思与人工兜底形成的闭环，而非简单堆叠模型，对企业级Agent开发具有重要参考价值。

Adam Ghowiba: JP Morgan's investment research team just shared exactly how they built their multi-agent system "Ask David", and it's t...

智能体大佬观点部署/工程

06:19

宝玉@dotey

精选70

大多数公司尚未做好迎接AI的准备

多数公司无法有效利用AI，核心障碍并非技术，而是企业自身目标模糊、战略混乱且缺乏清晰的业务流程描述。AI擅长执行明确指令，但大多数公司处于“混乱黑盒”状态，无法清晰定义目标、工作流与衡量指标。只有少数具备高度自我认知和组织纪律的公司能真正借助AI提升竞争力。企业应首先审视自身是否具备让AI有效协助的清晰内部状态，而非盲目追求技术应用。

现象/趋势部署/工程

推荐理由：这篇把AI落地难的老问题说透了，不是技术不行，是公司自己都没想清楚要干啥。AI就是照妖镜，混乱的企业用AI只会把瞎忙活放大十倍。

03:51

OpenClaw🦞@openclaw

ClawSweeper 0.2.0 🦞 OpenClaw 维护机器人现已处理整个循环：问题 → @clawsweeper 修复/构建 → 受保护的 PR → 审查 → 修复 → 重新审查 → 自动合并依然保守。手动操作大幅减少。 https://clawsweeper.bot

产品更新编码部署/工程

03:50

Peter Steinberger 🦞@steipete

🦀📦Crabbox 0.4.0。我经常需要快速在 macOS、Linux 和 Windows 上重建环境，并且需要快速的临时机器。 Crabbox 是为即时代理提供的机器，使用 AWS 竞价实例、Hetzner 或 @useblacksmith。无限代码库 + 测试！ https://crabbox.sh/

智能体开源/仓库编码部署/工程

5月3日

23:18

凡人小北@frxiaobei

AI落地困境：组织不清，AI放大混乱

当前企业AI应用常陷入模型选型和工作流改造等技术讨论，但核心卡点在于组织自身是否明确想让AI执行何种任务。若组织目标、流程和责任不清，AI无法自动解决问题，反而会诚实放大原有混乱状态，加速产生无意义的文档、会议和汇报，制造虚假的推进感。清晰的团队使用AI能提升效率，而混乱的团队则会导致“指数级熵增”，让AI为混乱加杠杆。关键在于企业能否清晰定义自身需解决的问题。

ᴅᴀɴɪᴇʟ ᴍɪᴇssʟᴇʀ 🛡️: http://x.com/i/article/2050663965244768256

大佬观点部署/工程

00:48

OpenRouter@OpenRouter

精选65

推出响应缓存功能：在测试和智能体重试上节省大量资金与时间。博客文章：https://openrouter.ai/announcements/response-caching 免费提供。了解更多 👇

产品更新部署/工程

推荐理由：OpenRouter 的 Response Caching 直击测试和 agent 重试的浪费痛点，免费能用，做 API 集成的开发者可以立刻省下一笔预算。

00:18

OpenRouter@OpenRouter

精选65

新功能："-latest" 模型别名 🔀 将请求路由至 "~anthropic/claude-opus-latest"、"~openai/gpt-latest" 等，以获取各主要模型的最新版本。（灵感来自语义化版本。）https://openrouter.ai/models?q=latest

Wes Winder: @levelsio openrouter has a cool "nitro" flag in the model names to use the fastest provider so like "gpt-5.5:nitro" woul...

产品更新部署/工程

推荐理由：OpenRouter 这个 -latest 别名很实用，不用每次都改模型版本号，对大量调用 API 的团队是个省心更新，痛点精准。

5月2日

18:19

Orange AI@oran_ge

每次用户问我为什么不支持 Windows 我都说真心建议买一个 Mac，这是 AI 时代最好的投资。这句话的含金量还在上升…

大佬观点部署/工程

18:11

Rohan Paul@rohanpaul_ai

精选79

美国军方与多家顶尖AI公司达成协议，将在机密网络部署其人工智能技术

美国国防部已与七至八家领先AI公司达成协议，将其AI技术整合进机密网络系统。合作方包括谷歌、微软、AWS、英伟达、OpenAI、Reflection和SpaceX，而Anthropic被明确排除在外。五角大楼将AI定位为核心基础设施，允许其用于任何“合法的作战用途”。官方平台GenAI.mil上线五个月内，已有超130万国防部人员使用，生成了数千万次提示并部署了数十万个AI智能体，展现了该计划的规模与影响力。

Google OpenAI 行业动态部署/工程

推荐理由：美军把AI正式拉进机密作战系统，排除Anthropic是个强烈信号——AI军事化已不可逆，安全派的克制在真实战场需求面前不堪一击。