AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 983 条
全部一手资讯X论文
标签「部署/工程」清除
Microsoft Research@MSFTResearch · 5月8日55

Tyger moves the most demanding MRI processing to the cloud, helping researchers turn raw signals into readable images – meaning results in hours rather than days or weeks. https://msft.it/6010vMCSa

译Tyger将最耗时的MRI处理工作转移到云端,帮助研究人员将原始信号转化为可读图像——这意味着几小时而非数天或数周即可获得结果。https://msft.it/6010vMCSa

Chubby♨️@kimmonismus · 5月8日57

The xAI / Anthropic compute story is not about one company having GPUs and the other wanting them. It's that they have opposite problems. xAI reportedly runs one of the largest GPU fleets in the world. Yet according to The Information, its recent model FLOPs utilization was around 11%. Buying GPUs is only half the battle. Turning them into actual work is the other half. Anthropic looks like the mirror image. Claude demand is running ahead of available capacity. Revenue run-rate passed $30B, up from roughly $9B at the end of 2025. Its $1M+ business customers doubled from 500 to 1,000+ in under two months. The new SpaceX compute capacity is immediately being converted into higher Claude Code and Opus limits. So the real compute race may not be about who can announce the biggest cluster. It's about who can digest compute fastest. xAI shows that raw GPU ownership can outpace operational absorption. Anthropic shows what happens when product demand is so intense that new capacity instantly becomes more usage, higher limits, and more revenue. The scarce resource is no longer just GPUs. It's the ability to turn them into products people pay for to be honest.

译xAI与Anthropic在算力运用上呈现出镜像困境。xAI虽拥有全球顶尖的GPU集群,但其模型计算利用率仅约11%,凸显出将硬件转化为有效算力的挑战。相反,Anthropic面临需求远超供给的局面:其Claude收入年化已超300亿美元,百万美元级企业客户在两个月内从500家激增至1000家以上,新增的算力被立即转化为更高的使用限额和收入。这场竞赛的关键已非单纯比拼集群规模,而在于“算力消化效率”——即谁能最快速地将原始计算资源转化为可盈利的产品能力。稀缺资源正从GPU硬件本身,转向这种高效的转化能力。

Berryxia.AI@berryxia · 5月7日76

现在这个AI的节骨眼上! 生成速度的突破,比单纯堆参数量重要多了。 SenseNova-U1刚刚开源了一个8-step distilled LoRA,直接把100步生成过程压到8步,GPU推理时间从23秒暴降到2秒,速度直接提升11倍。 更实用的是,他们还完整支持了 ComfyUI,并放出了一整套现成workflow:文本生图、图像编辑、交错生成全都有,开箱即用。 这波操作,直接把扩散模型从“实验室玩具”拉到了“真能日常用”的阶段。 你觉得未来扩散模型的竞赛,是继续卷参数,还是卷速度和实用性?

译SenseNova-U1开源了一项8步蒸馏LoRA技术,将扩散模型的生成步骤从100步压缩至8步,使GPU推理时间从23秒大幅缩短至2秒,速度提升达11倍。该技术同时完整支持ComfyUI,并提供了文本生图、图像编辑和交错生成等开箱即用的工作流程。此举标志着扩散模型从研究阶段迈向实用化,引发了业界关于未来应聚焦参数规模竞赛还是追求速度与实用性的讨论。

OpenRouter@OpenRouter · 5月7日72

1/ Audio is now first-class on OpenRouter. Two new endpoints live today: 📢 /api/v1/audio/speech — text-to-speech (TTS) 🎤 /api/v1/audio/transcriptions — speech-to-text (SST) Same routing, billing, and keys you already use for text, image, and video.

译1/ 音频现已成为OpenRouter的一等公民。 今日上线两个新端点: 📢 /api/v1/audio/speech — 文本转语音(TTS) 🎤 /api/v1/audio/transcriptions — 语音转文本(SST) 沿用您已在文本、图像和视频中使用的相同路由、计费和密钥。

Ant Ling@AntLingAGI · 5月7日39

Unlocking stable execution for long-horizon tasks (like deep research) comes down to three things: - Token-efficient LLMs - Advanced reasoning - A polished harness Choosing an robust, skills ready harness can be tricky.

译解锁长周期任务(如深度研究)的稳定执行可归结为三点: - 高性价比的LLM - 高级推理能力 - 精良的工具框架 选择一个稳健且技能完备的工具框架可能颇具挑战。

Berryxia.AI@berryxia · 5月7日62

AI的真正瓶颈从来不是芯片,而是电力。 真的就是美国缺电,中国缺卡! Elon Musk今天亲自讲了xAI Memphis超算的故事,直接把这个残酷真相摆在所有人面前! 他们为了11万块GB300 GPU,协调几十台燃气轮机、跨州搬发电厂、拉高压线…… 每一步都难到离谱。 很多人还在算GPU数量,Elon却在算真实发电量。 冷却系统在Memphis极端夏天就能吃掉40%的电,冗余维护再加20-25%,最后实际需要330MW。 这才是未来AI竞赛输赢的胜负手:谁能搞到电、谁能管好电,谁就赢。

译Elon Musk揭示了xAI在孟菲斯建设超算集群时遭遇的严峻电力挑战。为供应约11万块GB300 GPU,团队不得不协调数十台燃气轮机,因许可问题将发电厂迁至密西西比州,并铺设高压输电线路。实际电力需求远超GPU功耗,在孟菲斯极端夏季,冷却系统峰值功耗增加约40%,冗余维护还需20-25%的额外容量,最终需要约330兆瓦的实际发电量。这凸显了前沿AI数据中心的真正瓶颈并非芯片,而是稳定、大规模的电力供应与管理能力。

SemiAnalysis@SemiAnalysis_ · 5月7日16

What the fuck did you just fucking say about my analysis, you little shit? I'll have you know I graduated top of my class at University of Georgia Frat party kegs, and I've been involved in numerous teardowns of cutting-edge silicon, and I have over 300 confirmed FLOPS/watt & MFU calculations. I am trained in navy seal gorilla-level die shot analysis and I'm the top LiNkEdLin ThOt LeAdeR in the entire AI infrastructure space. You are nothing to me but just another bad take on Twitter. I will correct you with precision the likes of which has never been seen before on this Earth, mark my fucking words. You think you can get away with saying that shit about GB200 NVL72 over the Internet? Think again, fucker. The storm that wipes out the pathetic little thing you call your "industry analysis." Not only am I extensively trained in KV cache sizing, but I have access to the entire arsenal of my NCCL debug logs, NVIDIA DCGM & AMD Device Metrics Exporter telemetry, and sglang profile traces, and I will use it to its full extent to wipe your miserable take off the face of the timeline, you little shit. If only you could have known what unholy laugher your little "clever" LinkedIn post about inference costs was about to bring. I will shit FP4 GEMM analysis all over you. Your  grandfather'ed in pre-2023 subscription price is fucking cancelled, kiddo

译一位自称AI基础设施领域的顶尖专家以激烈言辞回应网络上的行业分析。他宣称自己拥有顶尖的硅片拆解分析能力、超过300次确认的FLOPS/watt与MFU计算经验,并精通KV缓存大小调整等技术。该专家表示,将动用包括NCCL调试日志、NVIDIA DCGM与AMD设备指标导出器遥测数据以及sglang性能分析追踪在内的全部工具,来彻底驳斥关于GB200 NVL72等产品的错误观点,并特别点名批评了关于推理成本的“自作聪明”的LinkedIn帖子。

TestingCatalog News 🗞@testingcatalog · 5月7日57

Anthropic is testing the Insights feature for its Managed Agents on Claude Console. > Up to 100 recent sessions are fetched. Each transcript is sent to the model (4 in parallel) with your agent's system prompt as context. The model writes a summary — task, actions, issues, assessment — and a 0–100 quality score. Token, cache, and tool-error counts are computed directly from the events alongside. > A single model call reads every summary and its stats, then produces cross-session findings (recurring errors, usage patterns, efficiency outliers, wins), error-category buckets, and use-case clusters. Every cited session ID is checked against the input, so findings only ever point at real sessions. > Summaries and findings are saved so the page loads instantly next time. Everything numeric you see — counts, percentages, token stats per cluster — is computed here from raw event data; only the prose and bucket membership come from the model.

译Anthropic正在为其Claude Console平台的托管代理测试Insights功能。该功能会获取最多100个近期会话,将每个会话记录与代理系统提示并行发送给模型,以生成包含任务、行动、问题和评估的摘要,并给出0-100的质量评分。同时,直接从事件数据中计算令牌、缓存和工具错误等统计数据。随后,另一个模型调用会读取所有摘要和统计信息,生成跨会话洞察,包括重复错误、使用模式、效率异常点和成功案例,并对错误类别与使用场景进行聚类。所有发现均关联真实的会话ID。摘要与洞察结果会被保存以实现页面即时加载,所有数值均基于原始事件数据计算,仅文本描述和分类来自模型生成。

Berryxia.AI@berryxia · 5月7日73

刚刚刷到Hugging Face上这个gpt-oss-20b-tq3,真的有点爽啊! OpenAI自己开源的20B参数MoE模型,被社区用TurboQuant 3-bit量化 + MLX优化后,竟然能直接在普通MacBook上本地丝滑跑起来。 完全不用联网、不用交月费,还支持131K超长上下文。 日常聊天、写作、写代码这些日常需求,现在都能在自己笔记本上搞定。 非常适合公司的一些部门使用啊! 以前本地跑大模型还得配高端显卡,现在一台M系列Mac就够了。 模型直达👉 https://huggingface.co/manjunathshiva/gpt-oss-20b-tq3

Berryxia.AI@berryxia · 5月7日77

一天天疯狂封号就是为了这!! Claude一个季度直接增长80倍,把计划的10倍增长直接干成了笑话。 这才是最疯狂的现实:全球最火的AI产品因为需求爆炸,直接把算力用到了断粮。 Anthropic本来按10倍准备,结果来了80倍,用户暴增、限流、排队全来了。 Dario Amodei只能疯狂签单:Amazon 1000亿刀10年协议、Broadcom+Google定制芯片,现在又加上SpaceX把Colossus 1的22万张GPU全开放给他们。 更狠的是,协议里还藏着下一招:双方要一起搞数吉瓦级的轨道AI计算,把数据中心搬到太空去。 AI需求已经彻底失控,基础设施根本追不上。

译Anthropic的AI产品Claude本季度增长高达80倍,远超10倍的预期,导致算力严重短缺并出现用户限流与排队。为应对需求爆炸,CEO Dario Amodei紧急签署多项大规模算力协议:与亚马逊达成1000亿美元十年AWS协议,获取新一代Trainium芯片及高达5吉瓦的容量;与博通和谷歌合作开发定制TPU芯片;SpaceX更是将其孟菲斯Colossus 1数据中心的全部22万张NVIDIA GPU开放给Anthropic,并计划共同开发吉瓦级的轨道AI计算能力。这些举措凸显AI需求已远超当前基础设施的扩建速度,全球算力竞赛正在加速。

阿绎 AYi@AYi_AInotes · 5月7日56

我最近才搞懂 AI 圈最反直觉的一个真相: 大多数人以为 API 中转站赚的是那点 token 差价,其实根本不是。 真正驱动这个赛道疯狂内卷的,是高消耗企业的绝对支出规模和优化空间。 前几天朋友分享了他团队的真实账单,我按官方最新定价(Claude Opus 4.7:输入 $5 / 百万 tokens,输出 $25 / 百万 tokens)给他重新算了一遍: 场景:法律合同审查产品,团队每天固定处理约 1500 万输入 + 600 万输出 tokens(相当于一天深度审查几百份复杂合同)。 纯标准调用(无任何优化):一天约 $225,一个月约 $6750,一年约 8.1 万美元(近 58 万人民币)。 开启 Prompt Caching + Batch 处理(生产环境常见组合): 输入缓存命中率较高时,有效输入成本可降至 $0.5–$2 / 百万,Batch 再打 5 折。 优化后一天成本可压到 $60–90,一个月 $1800–2700,一年约 2.2–3.2 万美元。 他笑了笑说:“现在你知道为什么这么多人做中转站了吧,而且价格卷到半价都有人做!”

译AI API中转站的核心盈利模式并非依赖微小的token差价,而是瞄准高消耗企业的巨大支出规模及其优化潜力。以法律合同审查产品为例,每日处理数千万tokens,按官方定价年成本可达8.1万美元。通过应用Prompt Caching和Batch处理等优化技术,有效输入成本可大幅降低,年成本能压缩至2.2-3.2万美元。巨大的成本优化空间解释了该赛道激烈竞争乃至价格战的现象。

SemiAnalysis@SemiAnalysis_ · 5月7日67

when Anthropic adds 200MW on a Wednesday

译当Anthropic在周三增加200兆瓦算力时

Greg Brockman@gdb · 5月7日48

Design, build, and operate compute with us at planet scale:

译OpenAI罕见地通过一篇关于MRC和超级计算机网络的文章,深入揭示了构建与运营大规模可靠算力系统的复杂工程实践。文章指出,当前AI发展的关键瓶颈不仅是算力稀缺,更在于确保从网络、调度、硬件健康、存储到编排、可靠性、可观测性、安全及研究人员开发体验等整个技术栈各层面的协同可靠运行。这远非单纯获取更多GPU所能解决。OpenAI旨在分享其设计、构建和运营行星级算力的经验,并为此招募基础设施软件工程师。

阿绎 AYi@AYi_AInotes · 5月7日62

Musk's single statement lays bare the hardest truth of the AI industry in 2026. 他转发NVIDIA的官方公告,只加了短短一句: GB300是最好的AI计算机。 没有多余的解释,没有任何修饰, 但这句话,比任何长篇大论都更有分量。 因为他手里握着目前地球上最大的GB300集群——Colossus 1。 22万+块顶级GPU,300兆瓦功率,曾经号称是专门给Grok打造的全球最强AI训练系统。 现在,SpaceX正式把它的全部容量,开放给了Anthropic。 这可不是那种普通的云算力租赁, 它意味着两个全球最顶尖的AI实验室,共用同一个底层计算平台。 NVIDIA在公告里写的那句“两个前沿实验室,一个加速计算平台”,才是真正的杀人诛心。 不管是xAI还是Anthropic,不管你们的模型谁更聪明,最后都得用我的硬件, 谁赢,我都赢! 很多人还不知道GB300到底意味着什么, 它不仅仅是一张显卡,还是一个完整的AI工厂单元,一个机架塞72块Blackwell Ultra GPU+36颗Grace CPU,全液冷设计。 注意力性能比上一代直接翻倍,专门为Agent长链推理、代码生成这些下一代场景优化。 22万张这样的卡,用InfiniBand连在一起,就是一台能把整个行业甩在身后的超级计算机。 现在你应该都看懂了, 2026年的AI竞争,早就不是比谁的模型参数多了。 是比谁能稳定拿到百万卡级、液冷、超低延迟的完整集群。 Anthropic有亚马逊和谷歌的几十亿美元投资,还是解决不了算力瓶颈。 最后只能来找马斯克,用他现成的集群。 而马斯克这步棋,走得比所有人都远。 xAI建集群→SpaceX对外开放变现→现金流反哺建更大的Colossus 2→未来再用星舰把数据中心送上太空。 一个完美的闭环已经成型。 他不仅是AI玩家,现在还是算力的规则制定者。 最疯狂的是,他们已经在讨论多吉瓦级的轨道AI计算了。 当地球上的电价、散热、土地都成了瓶颈,他们直接把战场拉到了太空。 无限太阳能,自然辐射冷却,低重力。 如果真的实现,AI训练将彻底摆脱地球的物理限制。 所以你看,模型只是租户, 算力才是这个时代真正的护城河。

译马斯克仅用一句“GB300是最好的AI计算机”,便揭示了AI竞争核心已从模型转向算力。他通过SpaceX将旗下全球最大的GB300集群Colossus 1(拥有超22万块顶级GPU)全部容量开放给Anthropic使用,使两大顶尖实验室共享同一计算平台。此举不仅彰显了NVIDIA硬件的统治地位,更展现了马斯克构建的完整商业闭环:自建集群、开放变现、再投资扩建,并规划未来将数据中心送入太空以突破能源与散热限制。这标志着他正从AI参与者转变为算力规则的制定者。

meng shao@shao__meng · 5月7日69

SpaceX 和 Anthropic 达成 Colossus 超算集群合作,让 Claude 可以基于它扩大推理部署 刚刚和 Cursor 达成收购可能的算力合作后,SpaceX 又一个大手笔算力合作,而 Elon Musk 也一改之前「Anthropic is misanthropic」的论断,对合作给出正面回应: · 上周他与 Anthropic 高层深度接触,评估其安全文化 · 个人结论:"没人触发我的'邪恶探测器'",认为团队具备自我批判能力,Claude "大概率对人类有益" · 在此前提下同意将 Colossus 1 出租给 Anthropic · 关键背景:xAI 已将训练迁移至 Colossus 2,Colossus 1 形成产能腾退

译SpaceX 与 Anthropic 就 Colossus 超算集群达成合作,将 Colossus 1 出租给后者以扩展 Claude 的推理部署能力。此次合作源于埃隆·马斯克与 Anthropic 高层深入接触后,对其安全文化及团队责任感的认可。马斯克评估认为团队具备高度能力与自我批判精神,无人触发其“邪恶探测器”,Claude 很可能对人类有益。合作的关键背景是 xAI 已将训练工作迁移至 Colossus 2,从而释放了 Colossus 1 的算力资源。

Replit ⠕@Replit · 5月7日62

Now all Replit builders can securely connect webhooks, GitHub, Slack and other external services to private apps So an internal tool can post Slack updates, or a business app can receive Stripe payments, while staying private to your org or team. To enable this, publish your app privately, and you'll see an External Access Tokens section under Security in the Publishing pane, where you can create and manage tokens for these external services

译现在所有Replit开发者都能安全地将webhooks、GitHub、Slack等外部服务连接到私有应用 这样内部工具可以发布Slack更新,或商业应用可以接收Stripe付款,同时保持对组织或团队的私密性。 要实现此功能,请将应用私有发布,您将在发布面板的"安全"部分看到外部访问令牌选项,可在此创建和管理这些外部服务的令牌

Elon Musk@elonmusk · 5月7日51

The GB300 is the best AI computer

译GB300是最佳AI计算机 [引用 @nvidia]:两家前沿实验室。一个加速计算平台。祝贺@SpaceX和@AnthropicAI达成新的计算合作,由Colossus 1内的22万+ NVIDIA GPU驱动。AI的未来运行在NVIDIA上。

Rohan Paul@rohanpaul_ai · 5月7日57

MRC was introduced by NVIDIA, Microsoft, and OpenAI, along with collaborated with AMD, Broadcom, Intel. Multipath Reliable Connection is a new RDMA transport protocol, proven first and optimized on NVIDIA Spectrum-X Ethernet hardware. Spreads AI training traffic across many paths instead of forcing each GPU connection through one route. Basically, it is a new way to move training data between huge numbers of GPUs without letting one bad network path slow the whole cluster. RDMA lets GPUs move data through the network with very little CPU help, which is crucial when thousands of GPUs must exchange model updates constantly during one training run. MRC changes the connection itself by letting one RDMA stream use multiple network paths, so traffic can shift around congestion, failed links, and overloaded switches without waiting for software-level repair.

译多路径可靠连接(MRC)是一种新型RDMA传输协议,由NVIDIA、微软和OpenAI联合推出,并与AMD、博通和英特尔合作。该协议首先在NVIDIA Spectrum-X以太网硬件上得到验证和优化。MRC的核心创新是改变连接方式,允许单个RDMA数据流利用多条网络路径传输AI训练流量,而非强制每个GPU连接走单一固定路由。RDMA技术使GPU能以极少CPU帮助移动数据,这对于数千GPU在训练中不断交换模型更新至关重要。当网络出现拥塞、链路故障或交换机过载时,流量可自动绕行,无需软件层面修复,从而避免单一不良路径拖慢整个计算集群,保障大规模AI训练任务的高效进行。

Chubby♨️@kimmonismus · 5月7日56

Dario&Daniela Amodei Interview: The 80x growth reportedly caught them completely off guard, and that's the reason for the compute constraint. The compute deal with SpaceX is the first attempt to address the shortage and continues to search for solutions.

译Dario&Daniela Amodei访谈:据报道,80倍的增长完全出乎他们意料,这正是算力受限的原因。 与SpaceX的算力合作是解决短缺的首次尝试,目前仍在寻找解决方案。

阿绎 AYi@AYi_AInotes · 5月7日83

Anthropic今天干了一件所有人都没想到的事,把马斯克给Grok建的全球最大超算,整个端走了。 300兆瓦算力,超过22万张顶级NVIDIA GPU。 原xAI Colossus 1集群,曾经号称“地球上最强的AI训练系统”。 现在,全部容量归Claude所有,本月内就能全部上线。 这应该是2026年AI行业到目前为止,最震撼的一笔算力交易了吧! 而且所有用户,今天就能吃到红利: • Claude Code 5小时速率限制直接翻倍 • Pro/Max计划高峰期限流彻底取消 • Claude Opus API速率限制大幅提升 最戏剧性的地方在于: 这个集群本来是马斯克砸几十亿美元,专门给Grok建的。 今年初SpaceX收购xAI之后,反手就把整个现成的超算,全部租给了Anthropic。 Grok自己的训练,会转移到正在建设的新集群上。 很多人看不懂这步棋, 其实很简单, 对马斯克来说,闲置的算力就是浪费。 租给Anthropic快速变现,给SpaceX的IPO添一份漂亮的收入,同时还能维持生态影响力。 对Anthropic来说,不用等亚马逊谷歌2027年才能交付的新集群,今天就能拿到22万张GPU,直接把Claude的可用性和收入天花板拉高一个量级。 而双方最后抛出的那个未来,才是真正让人头皮发麻的: 他们已经在讨论,共同开发多吉瓦级的轨道AI计算能力。 也就是,太空数据中心。 地球上的电价、散热、土地、环保争议越来越多, 他们直接把战场拉到了太空, 低重力,无限太阳能,辐射自然冷却。 如果真的实现,AI训练将彻底摆脱地球的物理限制。 现在压力全到OpenAI这边了。 Sam Altman喊了一年的算力短缺,结果对手一夜之间多出了22万张GPU。 Claude Code本来就已经在开发者圈子里口碑爆炸,现在限制一放开,体验很可能直接反超GPT-4o Code。 而我们普通开发者,是这次交易最大的赢家。 以后再也不用吐槽Claude用着用着就卡死,高峰期根本打不开了。 企业级大规模部署的门槛,也一下子降了一大截。 AI竞赛早就不是比谁的模型参数多了, 现在比的是谁能最快、最多、最灵活地调动全球的算力。 而这一次,Anthropic和马斯克,联手给整个行业上了一课。

译Anthropic与SpaceX达成协议,将全面接管原为Grok建造的Colossus 1超算集群。该集群拥有300兆瓦算力和超过22万张顶级NVIDIA GPU。此举使Claude立即获得巨大算力,用户已享受到速率限制提升等服务红利。对马斯克而言,闲置算力得以变现并为SpaceX IPO增添收入;对Anthropic而言,这使其无需等待其他公司的新集群,直接提升了竞争力。双方还计划共同开发太空数据中心,以突破地球的电价、散热等物理限制。此次交易加剧了AI算力竞争,同时降低了企业部署门槛,使普通开发者受益。

Emad@EMostaque · 5月7日58

This likely costs about ~$500m a month, ~$6bn a year to rent blended Which is about the run rate net loss of xai end of q1 Anthropics revenue run rate was $9bn end of 2025, $30bn a month ago

译这每月可能花费约5亿美元,每年约60亿美元的混合租赁成本 这大约相当于xAI在第一季度末的净亏损运行率 Anthropic在2025年底的收入运行率为90亿美元,一个月前为300亿美元

Chubby♨️@kimmonismus · 5月7日85

Anthropic just got all of the compute of xAIs Colossus 1 data center. holy, What?!

译Anthropic刚刚获得了xAIs Colossus 1数据中心的全部算力。天啊,什么?! [引用 @claudeai]:Our agreement with @SpaceX means we will use all the compute capacity at their Colossus 1 data center. This will give us over 300 megawatts of additional capacity to deploy within the month.

Rohan Paul@rohanpaul_ai · 5月7日70

Anthropic ties up with SpaceX to get more comput Taking all capacity at Colossus 1, adding 300MW+ and 220K+ NVIDIA GPUs within a month. The immediate change is higher ceilings: Claude Code gets doubled 5-hour limits, Pro and Max lose peak-hour cuts, and Opus API limits rise sharply. Opus API tier 4 now reaches 10M input tokens/min and 800K output tokens/min, which points at large-agent workloads rather than chat-sized requests. Anthropic is building a multi-supplier stack across NVIDIA GPUs, AWS Trainium, and Google TPUs, backed by Amazon, Google, Broadcom, Microsoft, NVIDIA, Fluidstack, and now SpaceX.

译Anthropic宣布与SpaceX建立合作伙伴关系,以显著提升其计算能力。公司将获得Colossus 1的全部容量,并在一个月内增加超过300兆瓦的电力及22万块以上NVIDIA GPU。此举直接导致Claude各项服务的用量上限大幅提高:Claude Code的5小时限制翻倍,Pro和Max版本取消高峰时段限制,Opus API的速率限制也急剧提升。其中,Opus API第四层级现已支持每分钟1000万输入令牌和80万输出令牌,表明其目标已转向处理大型智能体工作负载。Anthropic正在构建一个跨NVIDIA、AWS Trainium和Google TPU的多供应商计算堆栈。

Chubby♨️@kimmonismus · 5月7日76

OrcaRouter-Lite just launched open source. MIT. BYOK. Self-hosted. Zero markup. The real unlock: model="auto" picks the cheapest capable model, with deterministic prompt caching across providers. Every LLM team has been hand-rolling some messy version of this for the last two years. Now it’s basically one base_url change. Your keys, cache and router ♥

译OrcaRouter-Lite 现已开源,这是一个采用MIT许可、可自托管的大型语言模型路由工具。它支持用户自带密钥,无需外部数据库,并能对接OpenAI、Anthropic、Google、Groq等多种服务提供商。其核心创新是model="auto"模式,可自动为每次请求选择成本最低且能力匹配的模型,并具备跨提供商的确定性提示缓存功能,使得重复的相同请求能在毫秒内以零成本返回。该项目旨在解决开发团队手动编写复杂模型选择逻辑的痛点,通过简单的Docker部署即可实现路由功能,托管版本将于本周稍晚推出。

Thariq@trq212 · 5月7日47

Claude in Space 🤞

译Claude进入太空领域 🤞

宝玉@dotey · 5月7日78

Anthropic 今天宣布和 SpaceX 达成算力合作,并同步调高了 Claude Code 和 Claude API 的使用上限。 【1】用量限制怎么涨 Pro、Max、Team 以及按席位计费的 Enterprise 用户,Claude Code 的 5 小时滚动限额直接翻倍。 Pro 和 Max 用户在高峰时段原本会被压低额度,这个降速从今天起取消。 Claude API 这边,Opus 系列模型的速率限制大幅上调。 三项变化今天即生效。 【2】算力来自老对手的旧旗舰 合作方写的是 SpaceX,但拿到的算力其实就是 xAI 的 Colossus 1,位于田纳西州孟菲斯的那座超级计算机,主要任务是训练 Grok。 【注:今年 2 月 2 日,SpaceX 以全股票方式完成对 xAI 的收购,xAI 成为 SpaceX 全资子公司,合并估值 1.25 万亿美元。Colossus 1 也随之归到 SpaceX 名下。这是这次合作能成立的前提。】 Anthropic 这次拿下 Colossus 1 的全部算力,规模 300 兆瓦以上,超过 22 万张 NVIDIA GPU,本月内就能部署上线。按外界估算,这接近 xAI 整个 50 万张 GPU 队伍的一半。xAI 之所以能让出,是因为已经把训练重心转移到了更新的 Colossus 2(千兆瓦级别,今年 1 月上线)。 也就是说,马斯克把自家 xAI 的旧旗舰,整套租给了直接对手 Anthropic 跑 Claude。 【3】还有一句关于太空 Anthropic 在公告里顺手提了一笔:有兴趣和 SpaceX 共同开发"数千兆瓦级别的轨道 AI 算力",把数据中心送上太空。 这本来是马斯克的剧本,SpaceX 已经向 FCC 申请部署最多 100 万颗作为数据中心的卫星。Anthropic 主动接住这条线,意味着轨道算力不再是马斯克一个人的科幻叙事,至少 Anthropic 愿意一起下场。 【4】更大的图景 这只是 Anthropic 最近一连串算力大单里的一环。和 Amazon 的合作上限达 5 GW,其中近 1 GW 在 2026 年底前上线;和 Google、Broadcom 的合作同样是 5 GW,2027 年起部署;和 Microsoft、NVIDIA 的战略合作里包含 300 亿美元 Azure 算力;再加上和 Fluidstack 一起向美国 AI 基础设施投入 500 亿美元。 今天能放开用量限制,是这堆交易最直接的副产品。之前限得紧是因为不够用,现在敢放开是因为真的拿到了。

译Anthropic宣布与SpaceX达成合作,获得原属xAI的超级计算机Colossus 1全部算力(规模超300兆瓦、22万张GPU),并因此同步调高了Claude Code和Claude API的使用限制。Claude Code用户滚动限额翻倍,高峰时段限速取消,Opus系列API速率限制也大幅上调。此次合作源于SpaceX收购xAI后,其训练重心已转向新一代Colossus 2。Anthropic还提及有意与SpaceX共同开发轨道AI算力。这是其近期系列千兆瓦级算力协议的一环,解决了此前瓶颈,故能放开使用限制。

Thariq@trq212 · 5月7日71

We're winding back our peak hours limit reduction and doubling 5 hour limits. Excited to partner with SpaceX to bring you more compute and we'll keep pushing to bring you the best coding agent in the world.

译我们正在回调高峰时段的使用限制缩减,并将5小时限额提升一倍。 很高兴能与SpaceX合作为大家提供更多算力资源,我们将持续努力打造世界顶级的编程助手。

SemiAnalysis@SemiAnalysis_ · 5月7日56

At the end of 2025, as the Chipbook team focused on identifying test companies set to benefit from the growing importance of test in high-end AI accelerator packages, on December 23rd the team highlighted two key test consumable players, Winway in Taiwan and ISC in Korea in the Core Research weekly. (1/5) 🧵

译2025年末,当Chipbook团队专注于识别将受益于高端AI加速器封装中测试重要性提升的测试公司时,该团队在12月23日的Core Research周报中重点提及了两家关键的测试耗材厂商:台湾的Winway和韩国的ISC。(1/5) 🧵

TestingCatalog News 🗞@testingcatalog · 5月7日59

ANTHROPIC 🚨: Claude Code 5 hour rate limits are being doubled on paid plans! Anthropic partnered with SpaceX to utilise Colossus capacity. It is happening 🤯

译ANTHROPIC 🚨:付费计划的Claude Code 5小时速率限制即将翻倍! Anthropic与SpaceX合作以利用Colossus容量。 这正在发生🤯 [引用 @ClaudeDevs]:Code with Claude is happening now! ▪︎ 9:00AM - 主题演讲 ▪︎ 10:30AM - Claude Code新功能 ▪︎ 11:15AM - GitHub规模上的Claude开发实践 ▪︎ 12:00PM - 通过托管代理加速产品上线 以上均为太平洋时间。https://x.com/i/broadcasts/1qGoNegbnRNKv

xAI@xai · 5月7日67

SpaceXAI will provide @AnthropicAI with access to Colossus 1, one of the world’s largest and fastest-deployed AI supercomputers, to provide additional capacity for Claude → http://x.ai/news/anthropic-compute-partnership

译SpaceXAI将为@AnthropicAI提供访问Colossus 1的权限,这是全球规模最大、部署速度最快的AI超级计算机之一,旨在为Claude提供额外算力 → http://x.ai/news/anthropic-compute-partnership

宝玉@dotey · 5月7日58

OpenAI 把训练 ChatGPT 用的网络协议开源了。https://x.com/OpenAI/status/2052025533937103102/video/1 这套协议叫 MRC(Multipath Reliable Connection,多路径可靠连接),由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发,通过 OCP(开放计算项目,业内最大的开源硬件标准组织)开放给全行业。AMD、博通、微软、英伟达同步发了配套博文。 训练大模型,几万到十几万张 GPU 要保持步调一致。一次训练步可能涉及几百万次数据传输,只要有一笔晚到,所有 GPU 都得干等。集群越大,链路抖动和故障越频繁。 传统网络的麻烦:一条链路挂了,整个训练任务可能崩掉,得回到上一个检查点重跑;交换机重新算路由要花好几秒甚至几十秒。OpenAI 在搭 Stargate(其大型算力基础设施项目)这种规模的集群时,遇到的第一个瓶颈就是网络。 过去一笔传输只走一条路径,MRC 改成把数据包拆散,同时分头走几百条路径,目的地再按内存地址重新拼起来。 链路出问题,微秒级就能绕开,不需要交换机重算路由表。OpenAI 还把动态路由协议(BGP)整个砍掉,改用 SRv6 源路由:发送方直接指定每个包走哪条路,交换机退化成"无脑"转发器,故障面大幅缩小。 网络结构因此简化。原本要 3 到 4 层交换机才能连起十几万张 GPU,MRC 的多平面设计 2 层就够,功耗、成本、故障点全降。 MRC 已经部署在 OpenAI 所有最大的英伟达 GB200 超算上,包括 Stargate 在德州 Abilene 与甲骨文合建的站点,以及微软 Fairwater 数据中心。多个 OpenAI 模型用它训练出来。 最直观的例子:最近一次前沿模型训练(服务 ChatGPT 和 Codex)期间,团队重启了 4 台核心交换机,不需要跟训练团队协调;每分钟还有多次链路抖动,对训练任务也没有可测量的影响。换以前,这种事故足以让整个任务崩溃。

译OpenAI 联合 AMD、博通、英特尔、微软和英伟达,通过 OCP 开源了新型网络协议 MRC。该协议旨在解决大规模 AI 训练集群中因网络延迟或故障导致的 GPU 闲置问题。MRC 将数据包拆分并通过数百条路径并行传输,实现微秒级故障绕行,无需交换机重算路由。这简化了网络架构,将连接十几万 GPU 所需的交换机层级从 3-4 层减至 2 层,降低了功耗、成本和故障点。该协议已部署于 OpenAI 最大的 GB200 超算,并成功用于训练多个模型,显著提升了训练任务的鲁棒性。

Perplexity@perplexity_ai · 5月6日49

We’ve developed our own inference engine Runtime-Optimized Serving Engine (ROSE) to serve models ranging from embeddings to trillion-parameter LLMs. With CuTeDSL integrated into our inference engine, Perplexity can build the specialized GPU kernels faster to bring models up to peak performance on NVIDIA Hopper and Blackwell GPUs.

译我们开发了自有的推理引擎——运行时优化服务引擎(ROSE),可服务于从嵌入模型到万亿参数大语言模型的各种模型。 通过将CuTeDSL集成到推理引擎中,Perplexity能够更快构建专用GPU内核,使模型在NVIDIA Hopper和Blackwell GPU上达到峰值性能。

Berryxia.AI@berryxia · 5月6日75

我靠!Warp 这个Skills 太顶了! 直接官方开源啊! Warp团队居然把他们日常用来大幅提效的内部「Skills」全部开源了! 一条命令就能直接装上15个高质量生产级技能: npx skills add warpdotdev/oz-skills 里面包含: • SEO & 无障碍审计 • 文档自动写作 • Terraform / DevOps 配置 • GitHub Issue 处理 ……等等真实能落地的工具 视频里演示的SEO审计已经能直接给出具体优化建议。 他们没把这些好东西藏着当私有武器,而是直接扔给整个社区。 这才是真正的开放精神。 想贡献自己的Skill?GitHub已开放: https://github.com/warpdotdev/oz-skills

译Warp 团队将其内部用于大幅提升工作流效率的“Skills”工具集完全开源。用户通过一条命令 `npx skills add warpdotdev/oz-skills` 即可安装包含 SEO 与无障碍审计、文档自动写作、Terraform/DevOps 配置、GitHub Issue 处理等在内的15个高质量生产级技能。团队此举旨在将其实用工具开放给整个社区,而非私有化,体现了开放精神。项目 GitHub 仓库已开放,并鼓励社区贡献。

OpenAI@OpenAI · 5月6日66

AI supercomputers need a new kind of network to stay in sync at massive scale. OpenAI’s @markjhandley and @poyntingatgreg join @AndrewMayne to discuss what it takes to move data across record numbers of chips reliably and efficiently, the new Multipath Reliable Connection (MRC) networking protocol, and why it's available for the whole industry to use.

译大规模AI超算需要新型网络来保持芯片同步。OpenAI专家讨论了在庞大芯片集群间可靠高效传输数据的挑战,并介绍了新发布的多路径可靠连接(MRC)网络协议。该协议由OpenAI与AMD、Broadcom、Intel、Microsoft、NVIDIA等行业伙伴共同推出,旨在帮助大型AI训练集群运行得更快、更可靠,减少GPU闲置时间。MRC是一个开放的行业协议,可供整个业界使用。

OpenAI@OpenAI · 5月6日54

We’ve partnered with @AMD, @Broadcom, @Intel, @Microsoft, and @NVIDIA, to release Multipath Reliable Connection (MRC), a new open networking protocol that helps large AI training clusters run faster and more reliably, with less wasted GPU time. https://openai.com/index/mrc-supercomputer-networking/

译我们已与@AMD、@Broadcom、@Intel、@Microsoft和@NVIDIA合作,推出多路径可靠连接(MRC)——这是一种全新的开放式网络协议,可帮助大型AI训练集群运行得更快更可靠,并减少GPU时间浪费。 https://openai.com/index/mrc-supercomputer-networking/

Chubby♨️@kimmonismus · 5月6日54

NVIDIA just open-sourced a transport protocol that powers OpenAI's Blackwell clusters. It opened MRC, a new RDMA transport protocol for massive AI training clusters. Instead of pushing GPU traffic through one fragile path, MRC spreads a single connection across multiple network paths. If one path fails or gets congested, traffic can be rerouted in hardware within microseconds. This is important because frontier training is no longer only about GPUs. The network is becoming one of the biggest bottlenecks in AI factories. OpenAI is already using MRC on Blackwell clusters. Microsoft and Oracle are also named by NVIDIA as major deployments. NVIDIA is pushing Ethernet into territory historically associated with InfiniBand. And by opening MRC through OCP, while optimizing it first for Spectrum-X, NVIDIA is making a smart platform move: more open standard on the surface, stronger full-stack NVIDIA advantage underneath.

译NVIDIA通过OCP开源了MRC协议,这是一种专为大规模AI训练集群设计的新型RDMA传输协议。其核心创新在于将单一连接分散到多条网络路径上,当某条路径出现故障或拥塞时,能在微秒级时间内通过硬件重路由流量,以解决前沿AI训练中日益严峻的网络瓶颈问题。该协议已应用于OpenAI的Blackwell集群,微软和Oracle也是其主要部署方。NVIDIA此举在表面推动更开放标准的同时,优先为自家Spectrum-X平台优化,实则强化了其全栈竞争优势,并将以太网技术推向传统上由InfiniBand主导的高性能计算领域。

OpenClaw🦞@openclaw · 5月6日48

OpenClaw 2026.5.5 🦞 💬 Feishu, LINE, Telegram, Discord fixes 🖥️ Control UI/TUI stay responsive 🔌 Plugins update without losing SDK links 🛠️ Gateway status/restarts clearer Tiny bugfix release. Extremely tiny. https://github.com/openclaw/openclaw/releases/tag/v2026.5.5

译OpenClaw 2026.5.5 🦞 💬 Feishu, LINE, Telegram, Discord 修复 🖥️ 控制 UI/TUI 保持响应 🔌 插件更新不丢失 SDK 链接 🛠️ 网关状态/重启更清晰 微小 bug 修复发布。极其微小。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.5

Orange AI@oran_ge · 5月6日38

一个月前,Slack 关了大中华区所有 workspace。 消息记录、文件、频道里积累的所有决策上下文全部无法访问,90天后永久删除。官方连基本的数据备份和下载服务都不提供。 这件事也让我认真思考一个问题:AI native 时代,我们今天还需要 Slack 吗? 与此同时,4月很多 AI native workspace 涌出水面,大家的切入点各有不同。 不过很有意思的是,新的这些 Workspace 似乎都在想办法取代 Slack+Linear+Notion 的组合。 有的更像 Slack,有的更像 Linear,有的更像 Notion。有的 2B 有的 2C,昨天也跟大家分享了一些第一印象。 总体而言大部分产品还处在相当早期的阶段,相对比较成熟的是 Tanka,适合团队协作也适合一人公司使用。 协作方面,它有团队沟通聊天功能,可以平替 Slack。 Agent 方面,自带 Agent 能直接做事情,也能调用团队的上下文。 连接方面,还能连 Google 全家桶、Notion 等外部工具作为上下文。 官方还贴心地做了 Slack to Tanka 的迁移。 如果有需要,可以试试看。 用我的邀请链接注册,可以获得价值 $29 Plus plan: https://t.tanka.ai/campaign/58887

译Slack关闭大中华区服务导致历史数据面临丢失,促使人们反思在AI native时代是否仍需传统协作工具。近期涌现的AI原生工作空间普遍试图整合并取代Slack、Linear和Notion的组合功能。其中相对成熟的Tanka提供了团队沟通、内置智能体执行任务、调用团队上下文以及连接Google、Notion等外部工具的能力,并支持从Slack迁移。

SemiAnalysis@SemiAnalysis_ · 5月6日55

Indium Phosphide (InP) is a III-V compound semiconductor, made from indium (group III) and phosphorus (group V). It is the substrate material that every datacenter laser chip is fabricated on. Every optical transceiver connecting GPUs in AI clusters uses InP laser dies inside. (1/3)🧵

译磷化铟(InP)是一种III-V族化合物半导体,由铟(III族)和磷(V族)制成。它是所有数据中心激光芯片制造所用的衬底材料。AI集群中连接GPU的每个光模块内部都使用了InP激光芯片。(1/3)🧵

Rohan Paul@rohanpaul_ai · 5月6日49

Nvidia and Span is turning homes into small AI data centers, using spare household electrical capacity to run compute nodes while giving hosts cheaper power and internet. The idea starts with a mismatch: many homes are wired for 200 amps, but they often use far less than that, so Span wants its smart panel to measure unused capacity and feed an XFRA Node without overloading the house. Each node is serious hardware, with 16 Nvidia RTX Pro 6000 Blackwell GPUs, 4 AMD EPYC CPUs, and 3TB RAM, which means this is not a hobby server but a rented slice of AI infrastructure. The battery matters because AI workloads hate interruptions, so it buffers demand spikes, supports demand-response events, and shifts work away if a home loses power. The business claim is that distributed nodes can avoid the slowest part of data center growth: getting land, permits, utility approval, grid upgrades, and power access. Span plans a 100-node proof of concept in Q3-26, then aims for more than 1GW of annual capacity from 2027. --- pv-magazine-usa .com/2026/04/15/span-and-nvidia-to-develop-ai-data-centers-in-your-backyard-lowering-electric-bills/

译NVIDIA与Span计划利用家庭未充分利用的电力容量,将住宅转变为分布式AI计算节点。其核心是配备16块NVIDIA RTX Pro 6000 Blackwell GPU和4颗AMD EPYC CPU的XFRA节点,并内置电池以确保AI负载稳定运行。该模式旨在规避传统数据中心在土地、审批和电网升级方面的扩张瓶颈。Span计划于2026年第三季度启动100个节点的概念验证,目标是从2027年起实现年容量超过1吉瓦的分布式算力网络,同时为参与家庭降低电费成本。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月8日
00:36
Microsoft Research@MSFTResearch
55
Tyger将最耗时的MRI处理工作转移到云端,帮助研究人员将原始信号转化为可读图像--这意味着几小时而非数天或数周即可获得结果。https://msft.it/6010vMCSa
Microsoft产品更新多模态部署/工程
00:31
Chubby♨️@kimmonismus
57
算力竞赛的核心:从硬件占有到消化效率的转变

xAI与Anthropic在算力运用上呈现出镜像困境。xAI虽拥有全球顶尖的GPU集群,但其模型计算利用率仅约11%,凸显出将硬件转化为有效算力的挑战。相反,Anthropic面临需求远超供给的局面:其Claude收入年化已超300亿美元,百万美元级企业客户在两个月内从500家激增至1000家以上,新增的算力被立即转化为更高的使用限额和收入。这场竞赛的关键已非单纯比拼集群规模,而在于“算力消化效率”——即谁能最快速地将原始计算资源转化为可盈利的产品能力。稀缺资源正从GPU硬件本身,转向这种高效的转化能力。

AnthropicxAI大佬观点数据/训练
5月7日
23:21
Berryxia.AI@berryxia
精选76
SenseNova-U1开源8步蒸馏LoRA,扩散模型推理提速11倍

SenseNova-U1开源了一项8步蒸馏LoRA技术,将扩散模型的生成步骤从100步压缩至8步,使GPU推理时间从23秒大幅缩短至2秒,速度提升达11倍。该技术同时完整支持ComfyUI,并提供了文本生图、图像编辑和交错生成等开箱即用的工作流程。此举标志着扩散模型从研究阶段迈向实用化,引发了业界关于未来应聚焦参数规模竞赛还是追求速度与实用性的讨论。

Ziwei Liu: 🚀SenseNova-U1 Update🚀 ⚡Open-source an 8-step distilled LoRA: 100 NFE → 8 NFE, cutting GPU inference from 23s to 2s 🧩C...

图像生成开源/仓库部署/工程

推荐理由:这个LoRA把扩散模型推理从23秒压到2秒,还带全套ComfyUI工作流,玩图像生成的人今天就应该装上去试试,速度飞升11倍是真的能立刻用上。
23:04
OpenRouter@OpenRouter
精选72
1/ 音频现已成为OpenRouter的一等公民。 今日上线两个新端点: 📢 /api/v1/audio/speech - 文本转语音(TTS) 🎤 /api/v1/audio/transcriptions - 语音转文本(SST) 沿用您已在文本、图像和视频中使用的相同路由、计费和密钥。
产品更新语音部署/工程

推荐理由:OpenRouter 突然把 TTS 和 STT 拉进了统一路由,用同一把 Key 和账单,做多模态 App 的人可以少调一个 API。更新不大,但省事。
22:05
Ant Ling@AntLingAGI
39
解锁长周期任务(如深度研究)的稳定执行可归结为三点: - 高性价比的LLM - 高级推理能力 - 精良的工具框架 选择一个稳健且技能完备的工具框架可能颇具挑战。
推理现象/趋势部署/工程
21:21
Berryxia.AI@berryxia
62
AI的真正瓶颈从来不是芯片,而是电力

Elon Musk揭示了xAI在孟菲斯建设超算集群时遭遇的严峻电力挑战。为供应约11万块GB300 GPU,团队不得不协调数十台燃气轮机,因许可问题将发电厂迁至密西西比州,并铺设高压输电线路。实际电力需求远超GPU功耗,在孟菲斯极端夏季,冷却系统峰值功耗增加约40%,冗余维护还需20-25%的额外容量,最终需要约330兆瓦的实际发电量。这凸显了前沿AI数据中心的真正瓶颈并非芯片,而是稳定、大规模的电力供应与管理能力。

X Freeze: Elon Musk explains the "series of miracles" xAI had to achieve to bring one gigawatt of power online for its supercomput...

行业动态部署/工程
21:04
SemiAnalysis@SemiAnalysis_
16
专家以激烈言辞回应网络质疑,宣称将用技术数据驳斥行业错误分析

一位自称AI基础设施领域的顶尖专家以激烈言辞回应网络上的行业分析。他宣称自己拥有顶尖的硅片拆解分析能力、超过300次确认的FLOPS/watt与MFU计算经验,并精通KV缓存大小调整等技术。该专家表示,将动用包括NCCL调试日志、NVIDIA DCGM与AMD设备指标导出器遥测数据以及sglang性能分析追踪在内的全部工具,来彻底驳斥关于GB200 NVL72等产品的错误观点,并特别点名批评了关于推理成本的“自作聪明”的LinkedIn帖子。

其他部署/工程
20:11
TestingCatalog News 🗞@testingcatalog
57
Anthropic测试Claude Console托管代理的Insights功能

Anthropic正在为其Claude Console平台的托管代理测试Insights功能。该功能会获取最多100个近期会话,将每个会话记录与代理系统提示并行发送给模型,以生成包含任务、行动、问题和评估的摘要,并给出0-100的质量评分。同时,直接从事件数据中计算令牌、缓存和工具错误等统计数据。随后,另一个模型调用会读取所有摘要和统计信息,生成跨会话洞察,包括重复错误、使用模式、效率异常点和成功案例,并对错误类别与使用场景进行聚类。所有发现均关联真实的会话ID。摘要与洞察结果会被保存以实现页面即时加载,所有数值均基于原始事件数据计算,仅文本描述和分类来自模型生成。

智能体Anthropic产品更新部署/工程
17:20
Berryxia.AI@berryxia
73
开源20B参数MoE模型本地流畅运行

刚刚刷到Hugging Face上这个gpt-oss-20b-tq3,真的有点爽啊! OpenAI自己开源的20B参数MoE模型,被社区用TurboQuant 3-bit量化 + MLX优化后,竟然能直接在普通MacBook上本地丝滑跑起来。 完全不用联网、不用交月费,还支持131K超长上下文。 日常聊天、写作、写代码这些日常需求,现在都能在自己笔记本上搞定。 非常适合公司的一些部门使用啊! 以前本地跑大模型还得配高端显卡,现在一台M系列Mac就够了。 模型直达👉 https://huggingface.co/manjunathshiva/gpt-oss-20b-tq3

Hugging Models: A new GPT model just dropped for Apple Silicon. The gpt-oss-20b-tq3 is a 20B parameter MoE text generator, optimized wit...

Hugging FaceOpenAI开源/仓库部署/工程
17:20
Berryxia.AI@berryxia
77
算力竞赛白热化:Claude季度增长80倍远超预期,引发全球巨头紧急"输血"

Anthropic的AI产品Claude本季度增长高达80倍,远超10倍的预期,导致算力严重短缺并出现用户限流与排队。为应对需求爆炸,CEO Dario Amodei紧急签署多项大规模算力协议:与亚马逊达成1000亿美元十年AWS协议,获取新一代Trainium芯片及高达5吉瓦的容量;与博通和谷歌合作开发定制TPU芯片;SpaceX更是将其孟菲斯Colossus 1数据中心的全部22万张NVIDIA GPU开放给Anthropic,并计划共同开发吉瓦级的轨道AI计算能力。这些举措凸显AI需求已远超当前基础设施的扩建速度,全球算力竞赛正在加速。

Milk Road AI: The most in demand AI product in the world just ran out of compute because it grew 80x in a single quarter (Save this). ...

Anthropic行业动态部署/工程
16:16
阿绎 AYi@AYi_AInotes
56
AI API中转站盈利真相:瞄准高消耗企业的成本优化空间

AI API中转站的核心盈利模式并非依赖微小的token差价,而是瞄准高消耗企业的巨大支出规模及其优化潜力。以法律合同审查产品为例,每日处理数千万tokens,按官方定价年成本可达8.1万美元。通过应用Prompt Caching和Batch处理等优化技术,有效输入成本可大幅降低,年成本能压缩至2.2-3.2万美元。巨大的成本优化空间解释了该赛道激烈竞争乃至价格战的现象。

阿绎 AYi: http://x.com/i/article/2051958484304891904

现象/趋势部署/工程
12:03
SemiAnalysis@SemiAnalysis_
67
当Anthropic在周三增加200兆瓦算力时
Anthropic行业动态部署/工程
11:03
Greg Brockman@gdb
48
OpenAI罕见地通过一篇关于MRC和超级计算机网络的文章,深入揭示了构建与运营大规模可靠算力系统的复杂工程实践。文章指出,当前AI发展的关键瓶颈不仅是算力稀缺,更在于确保从网络、调度、硬件健康、存储到编排、可靠性、可观测性、安全及研究人员开发体验等整个技术栈各层面的协同可靠运行。这远非单纯获取更多GPU所能解决。OpenAI旨在分享其设计、构建和运营行星级算力的经验,并为此招募基础设施软件工程师。

Uday Ruddarraju: There is a lot of news about compute being the bottleneck for AI. There is less visibility into the engineering it takes...

OpenAI教程/实践部署/工程
10:16
阿绎 AYi@AYi_AInotes
62
马斯克一语道破2026年AI行业最残酷真相:算力为王

马斯克仅用一句“GB300是最好的AI计算机”,便揭示了AI竞争核心已从模型转向算力。他通过SpaceX将旗下全球最大的GB300集群Colossus 1(拥有超22万块顶级GPU)全部容量开放给Anthropic使用,使两大顶尖实验室共享同一计算平台。此举不仅彰显了NVIDIA硬件的统治地位,更展现了马斯克构建的完整商业闭环:自建集群、开放变现、再投资扩建,并规划未来将数据中心送入太空以突破能源与散热限制。这标志着他正从AI参与者转变为算力规则的制定者。

Elon Musk: The GB300 is the best AI computer

AnthropicxAI现象/趋势部署/工程
08:06
meng shao@shao__meng
69
SpaceX 与 Anthropic 达成 Colossus 超算集群合作,支持 Claude 扩大推理部署

SpaceX 与 Anthropic 就 Colossus 超算集群达成合作,将 Colossus 1 出租给后者以扩展 Claude 的推理部署能力。此次合作源于埃隆·马斯克与 Anthropic 高层深入接触后,对其安全文化及团队责任感的认可。马斯克评估认为团队具备高度能力与自我批判精神,无人触发其“邪恶探测器”,Claude 很可能对人类有益。合作的关键背景是 xAI 已将训练工作迁移至 Colossus 2,从而释放了 Colossus 1 的算力资源。

Elon Musk: Same here. By way of background for those who care, I spent a lot of time last week with senior members of the Anthropic...

Anthropic推理行业动态部署/工程
08:06
Replit ⠕@Replit
62
现在所有Replit开发者都能安全地将webhooks、GitHub、Slack等外部服务连接到私有应用 这样内部工具可以发布Slack更新,或商业应用可以接收Stripe付款,同时保持对组织或团队的私密性。 要实现此功能,请将应用私有发布,您将在发布面板的"安全"部分看到外部访问令牌选项,可在此创建和管理这些外部服务的令牌
产品更新部署/工程
05:33
Elon Musk@elonmusk
51
GB300是最佳AI计算机 【引用 @nvidia】:两家前沿实验室。一个加速计算平台。祝贺@SpaceX和@AnthropicAI达成新的计算合作,由Colossus 1内的22万+ NVIDIA GPU驱动。AI的未来运行在NVIDIA上。

NVIDIA: Two frontier labs. One accelerated computing platform. Congrats to @SpaceX and @AnthropicAI on the new compute partnersh...

Anthropic行业动态部署/工程
04:34
Rohan Paul@rohanpaul_ai
57
NVIDIA、微软和OpenAI联合推出多路径可靠连接(MRC)协议

多路径可靠连接(MRC)是一种新型RDMA传输协议,由NVIDIA、微软和OpenAI联合推出,并与AMD、博通和英特尔合作。该协议首先在NVIDIA Spectrum-X以太网硬件上得到验证和优化。MRC的核心创新是改变连接方式,允许单个RDMA数据流利用多条网络路径传输AI训练流量,而非强制每个GPU连接走单一固定路由。RDMA技术使GPU能以极少CPU帮助移动数据,这对于数千GPU在训练中不断交换模型更新至关重要。当网络出现拥塞、链路故障或交换机过载时,流量可自动绕行,无需软件层面修复,从而避免单一不良路径拖慢整个计算集群,保障大规模AI训练任务的高效进行。

OpenAI数据/训练行业动态部署/工程
04:31
Chubby♨️@kimmonismus
56
Dario&Daniela Amodei访谈:据报道,80倍的增长完全出乎他们意料,这正是算力受限的原因。 与SpaceX的算力合作是解决短缺的首次尝试,目前仍在寻找解决方案。
Anthropic行业动态部署/工程
03:16
阿绎 AYi@AYi_AInotes
83
Anthropic全面接管SpaceX为Grok建造的超算集群,算力竞争格局生变

Anthropic与SpaceX达成协议,将全面接管原为Grok建造的Colossus 1超算集群。该集群拥有300兆瓦算力和超过22万张顶级NVIDIA GPU。此举使Claude立即获得巨大算力,用户已享受到速率限制提升等服务红利。对马斯克而言,闲置算力得以变现并为SpaceX IPO增添收入;对Anthropic而言,这使其无需等待其他公司的新集群,直接提升了竞争力。双方还计划共同开发太空数据中心,以突破地球的电价、散热等物理限制。此次交易加剧了AI算力竞争,同时降低了企业部署门槛,使普通开发者受益。

Claude: Our agreement with @SpaceX means we will use all the compute capacity at their Colossus 1 data center. This will give us...

Anthropic行业动态部署/工程
03:16
Emad@EMostaque
58
这每月可能花费约5亿美元,每年约60亿美元的混合租赁成本 这大约相当于xAI在第一季度末的净亏损运行率 Anthropic在2025年底的收入运行率为90亿美元,一个月前为300亿美元

Claude: Our agreement with @SpaceX means we will use all the compute capacity at their Colossus 1 data center. This will give us...

AnthropicxAI大佬观点部署/工程
03:01
Chubby♨️@kimmonismus
85
Anthropic刚刚获得了xAIs Colossus 1数据中心的全部算力。天啊,什么?! 【引用 @claudeai】:Our agreement with @SpaceX means we will use all the compute capacity at their Colossus 1 data center. This will give us over 300 megawatts of additional capacity to deploy within the month.

Claude: Our agreement with @SpaceX means we will use all the compute capacity at their Colossus 1 data center. This will give us...

Anthropic行业动态部署/工程
02:34
Rohan Paul@rohanpaul_ai
70
Anthropic与SpaceX达成合作,大幅提升计算能力与服务上限

Anthropic宣布与SpaceX建立合作伙伴关系,以显著提升其计算能力。公司将获得Colossus 1的全部容量,并在一个月内增加超过300兆瓦的电力及22万块以上NVIDIA GPU。此举直接导致Claude各项服务的用量上限大幅提高:Claude Code的5小时限制翻倍,Pro和Max版本取消高峰时段限制,Opus API的速率限制也急剧提升。其中,Opus API第四层级现已支持每分钟1000万输入令牌和80万输出令牌,表明其目标已转向处理大型智能体工作负载。Anthropic正在构建一个跨NVIDIA、AWS Trainium和Google TPU的多供应商计算堆栈。

Claude: We've agreed to a partnership with @SpaceX that will substantially increase our compute capacity. This, along with our o...

Anthropic编码行业动态部署/工程
02:01
Chubby♨️@kimmonismus
精选76
OrcaRouter-Lite 现已开源,这是一个采用MIT许可、可自托管的大型语言模型路由工具。它支持用户自带密钥,无需外部数据库,并能对接OpenAI、Anthropic、Google、Groq等多种服务提供商。其核心创新是model="auto"模式,可自动为每次请求选择成本最低且能力匹配的模型,并具备跨提供商的确定性提示缓存功能,使得重复的相同请求能在毫秒内以零成本返回。该项目旨在解决开发团队手动编写复杂模型选择逻辑的痛点,通过简单的Docker部署即可实现路由功能,托管版本将于本周稍晚推出。

OrcaRouter: Every product team has a 30-line file in their codebase called pick_model.py. Nine if/else branches. Three retry decorat...

GitHub开源/仓库开源生态部署/工程

推荐理由:每个 LLM 团队都在手搓那个叫 pick_model.py 的烂摊子,现在改个 base_url 就搞定了。BYOK 自托管零加价,设计干净到反常,值得所有做产品的开发者立刻尝试。
01:38
Thariq@trq212
47
Claude进入太空领域 🤞

xAI: SpaceXAI and @AnthropicAI have also expressed interest in partnering to develop multiple gigawatts of orbital AI compute...

Anthropic行业动态部署/工程
01:36
宝玉@dotey
78
Anthropic与SpaceX达成算力合作并提升Claude使用上限

Anthropic宣布与SpaceX达成合作,获得原属xAI的超级计算机Colossus 1全部算力(规模超300兆瓦、22万张GPU),并因此同步调高了Claude Code和Claude API的使用限制。Claude Code用户滚动限额翻倍,高峰时段限速取消,Opus系列API速率限制也大幅上调。此次合作源于SpaceX收购xAI后,其训练重心已转向新一代Colossus 2。Anthropic还提及有意与SpaceX共同开发轨道AI算力。这是其近期系列千兆瓦级算力协议的一环,解决了此前瓶颈,故能放开使用限制。

Claude: We've agreed to a partnership with @SpaceX that will substantially increase our compute capacity. This, along with our o...

AnthropicxAI行业动态部署/工程
01:08
Thariq@trq212
71
我们正在回调高峰时段的使用限制缩减,并将5小时限额提升一倍。 很高兴能与SpaceX合作为大家提供更多算力资源,我们将持续努力打造世界顶级的编程助手。

Claude: We've agreed to a partnership with @SpaceX that will substantially increase our compute capacity. This, along with our o...

Anthropic行业动态部署/工程
01:03
SemiAnalysis@SemiAnalysis_
56
2025年末,当Chipbook团队专注于识别将受益于高端AI加速器封装中测试重要性提升的测试公司时,该团队在12月23日的Core Research周报中重点提及了两家关键的测试耗材厂商:台湾的Winway和韩国的ISC。(1/5) 🧵
行业动态部署/工程
00:39
TestingCatalog News 🗞@testingcatalog
59
ANTHROPIC 🚨:付费计划的Claude Code 5小时速率限制即将翻倍! Anthropic与SpaceX合作以利用Colossus容量。 这正在发生🤯 【引用 @ClaudeDevs】:Code with Claude is happening now! ▪︎ 9:00AM - 主题演讲 ▪︎ 10:30AM - Claude Code新功能 ▪︎ 11:15AM - GitHub规模上的Claude开发实践 ▪︎ 12:00PM - 通过托管代理加速产品上线 以上均为太平洋时间。https://x.com/i/broadcasts/1qGoNegbnRNKv

ClaudeDevs: Code with Claude is happening now! ▪︎ 9:00AM - Keynote ▪︎ 10:30AM - What's new in Claude Code ▪︎ 11:15AM - Building on C...

Anthropic产品更新编码部署/工程
00:36
xAI@xai
67
SpaceXAI将为@AnthropicAI提供访问Colossus 1的权限,这是全球规模最大、部署速度最快的AI超级计算机之一,旨在为Claude提供额外算力 → http://x.ai/news/anthropic-compute-partnership
AnthropicxAI行业动态部署/工程
00:34
宝玉@dotey
58
OpenAI 联合多家巨头开源 AI 训练网络协议 MRC

OpenAI 联合 AMD、博通、英特尔、微软和英伟达,通过 OCP 开源了新型网络协议 MRC。该协议旨在解决大规模 AI 训练集群中因网络延迟或故障导致的 GPU 闲置问题。MRC 将数据包拆分并通过数百条路径并行传输,实现微秒级故障绕行,无需交换机重算路由。这简化了网络架构,将连接十几万 GPU 所需的交换机层级从 3-4 层减至 2 层,降低了功耗、成本和故障点。该协议已部署于 OpenAI 最大的 GB200 超算,并成功用于训练多个模型,显著提升了训练任务的鲁棒性。

OpenAI: We've partnered with @AMD, @Broadcom, @Intel, @Microsoft, and @NVIDIA, to release Multipath Reliable Connection (MRC), a...

OpenAI开源/仓库部署/工程
5月6日
23:37
Perplexity@perplexity_ai
49
我们开发了自有的推理引擎--运行时优化服务引擎(ROSE),可服务于从嵌入模型到万亿参数大语言模型的各种模型。 通过将CuTeDSL集成到推理引擎中,Perplexity能够更快构建专用GPU内核,使模型在NVIDIA Hopper和Blackwell GPU上达到峰值性能。
产品更新部署/工程
23:20
Berryxia.AI@berryxia
75
Warp 开源内部高效工具集 Skills,包含15个生产级技能

Warp 团队将其内部用于大幅提升工作流效率的“Skills”工具集完全开源。用户通过一条命令 npx skills add warpdotdev/oz-skills 即可安装包含 SEO 与无障碍审计、文档自动写作、Terraform/DevOps 配置、GitHub Issue 处理等在内的15个高质量生产级技能。团队此举旨在将其实用工具开放给整个社区,而非私有化,体现了开放精神。项目 GitHub 仓库已开放,并鼓励社区贡献。

Warp: The Warp team uses a lot of Skills to speed up our workflow, so we open-sourced them. > npx skills add warpdotdev/oz-ski...

MCP/工具开源/仓库部署/工程
23:04
OpenAI@OpenAI
66
大规模AI超算需要新型网络来保持芯片同步。OpenAI专家讨论了在庞大芯片集群间可靠高效传输数据的挑战,并介绍了新发布的多路径可靠连接(MRC)网络协议。该协议由OpenAI与AMD、Broadcom、Intel、Microsoft、NVIDIA等行业伙伴共同推出,旨在帮助大型AI训练集群运行得更快、更可靠,减少GPU闲置时间。MRC是一个开放的行业协议,可供整个业界使用。

OpenAI: We've partnered with @AMD, @Broadcom, @Intel, @Microsoft, and @NVIDIA, to release Multipath Reliable Connection (MRC), a...

OpenAI数据/训练行业动态部署/工程
22:04
OpenAI@OpenAI
54
我们已与@AMD、@Broadcom、@Intel、@Microsoft和@NVIDIA合作,推出多路径可靠连接(MRC)--这是一种全新的开放式网络协议,可帮助大型AI训练集群运行得更快更可靠,并减少GPU时间浪费。 https://openai.com/index/mrc-supercomputer-networking/
OpenAI产品更新开源生态部署/工程
21:29
Chubby♨️@kimmonismus
54
NVIDIA开源支撑OpenAI Blackwell集群的新型网络传输协议

NVIDIA通过OCP开源了MRC协议,这是一种专为大规模AI训练集群设计的新型RDMA传输协议。其核心创新在于将单一连接分散到多条网络路径上,当某条路径出现故障或拥塞时,能在微秒级时间内通过硬件重路由流量,以解决前沿AI训练中日益严峻的网络瓶颈问题。该协议已应用于OpenAI的Blackwell集群,微软和Oracle也是其主要部署方。NVIDIA此举在表面推动更开放标准的同时,优先为自家Spectrum-X平台优化,实则强化了其全栈竞争优势,并将以太网技术推向传统上由InfiniBand主导的高性能计算领域。

OpenAI开源/仓库数据/训练部署/工程
17:35
OpenClaw🦞@openclaw
48
OpenClaw 2026.5.5 🦞 💬 Feishu, LINE, Telegram, Discord 修复 🖥️ 控制 UI/TUI 保持响应 🔌 插件更新不丢失 SDK 链接 🛠️ 网关状态/重启更清晰 微小 bug 修复发布。极其微小。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.5
智能体产品更新部署/工程
13:00
Orange AI@oran_ge
38
Slack退出中国引发对AI原生工作空间替代方案的思考

Slack关闭大中华区服务导致历史数据面临丢失,促使人们反思在AI native时代是否仍需传统协作工具。近期涌现的AI原生工作空间普遍试图整合并取代Slack、Linear和Notion的组合功能。其中相对成熟的Tanka提供了团队沟通、内置智能体执行任务、调用团队上下文以及连接Google、Notion等外部工具的能力,并支持从Slack迁移。

智能体现象/趋势部署/工程
05:29
SemiAnalysis@SemiAnalysis_
55
磷化铟(InP)是一种III-V族化合物半导体,由铟(III族)和磷(V族)制成。它是所有数据中心激光芯片制造所用的衬底材料。AI集群中连接GPU的每个光模块内部都使用了InP激光芯片。(1/3)🧵
其他教程/实践部署/工程
03:57
Rohan Paul@rohanpaul_ai
49
NVIDIA与Span合作将住宅变为小型AI数据中心,利用家庭富余电力

NVIDIA与Span计划利用家庭未充分利用的电力容量,将住宅转变为分布式AI计算节点。其核心是配备16块NVIDIA RTX Pro 6000 Blackwell GPU和4颗AMD EPYC CPU的XFRA节点,并内置电池以确保AI负载稳定运行。该模式旨在规避传统数据中心在土地、审批和电网升级方面的扩张瓶颈。Span计划于2026年第三季度启动100个节点的概念验证,目标是从2027年起实现年容量超过1吉瓦的分布式算力网络,同时为参与家庭降低电费成本。

产品更新端侧部署/工程
‹ 上一页
1…1617181920…25
下一页 ›