AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 983 条
全部一手资讯X论文
标签「部署/工程」清除
OpenBMB@OpenBMB · 6月2日56

🎉 Exciting News! MiniCPM-o 4.5 has officially been merged into vLLM-Omni! 👏 💡 Currently, it supports simplex non-streaming usage—a solid first step for what's to come. 🚀 The journey continues! We will keep pushing forward with the amazing open-source community to integrate duplex streaming capabilities next. Get ready for an even more powerful and seamless interactive experience. Stay tuned! 💪 http://github.com/vllm-project/vllm-omni/pull/4067 http://huggingface.co/openbmb/MiniCPM-o-4_5

译🎉 好消息!MiniCPM-o 4.5 已正式合并至 vLLM-Omni!👏 💡 目前,它支持单工非流式使用——这是未来发展的坚实第一步。 🚀 旅程继续!我们将与出色的开源社区一起,继续推进下一步的双工流式功能集成。 敬请期待更强大、更无缝的交互体验。敬请关注!💪 http://github.com/vllm-project/vllm-omni/pull/4067 http://huggingface.co/openbmb/MiniCPM-o-4_5

Rohan Paul@rohanpaul_ai · 6月2日57

This paper proposes a way to predict the cheapest safe AWS spot fleet before launching it. AWS spot machines can be much cheaper, but users usually cannot see the final fleet price across regions before starting, so this paper turns that blind choice into a comparison that can save up to 64%. Spot instances are cheap because they are conditional: the cloud provider can take them back, prices move, and capacity shifts by region. The quiet problem is that AWS helps users launch spot fleets, but not fully see the fleet’s price or best region before launch. The authors build a service that watches how AWS creates these fleets, learns those patterns with time-aware AI models, and then estimates the fleet mix and cost across 9 regions. A user gives the service a target amount of computing power and a placement strategy, and the service returns region-ranked options before anything is launched. They tested it on AWS with fleets up to 1500 virtual CPUs, using 720 test launches after a 90-day monitoring period. The predicted fleet matched AWS exactly in 92.78% of cases, reached 99.79% overall accuracy against AWS behavior, and AWS accepted every recommended fleet. Result is that choosing the best region mattered far more than changing the strategy inside 1 region, with possible savings up to 64%. ---- Paper Link – arxiv. org/abs/2605.22778 Paper Title: "AI-Driven Multi-Region Provisioning for Cloud Services Using Spot Fleets"

译该研究提出了一种AI驱动的服务,用于在启动前预测最便宜且安全的AWS Spot实例舰队。该服务通过时间感知模型学习AWS创建舰队的模式,并估算9个区域的舰队组合与成本,向用户返回排序后的区域选项。测试显示,在最多1500 vCPU的舰队上,预测结果与AWS完全匹配的比例达92.78%,整体准确率为99.79%,且所有推荐舰队均被AWS接受。关键发现是选择最佳区域比在单个区域内调整策略更重要,潜在成本节省最高可达64%。

OpenBMB@OpenBMB · 6月2日67

MiniCPM-V 4.6 is now fully supported in vLLM v0.22.0! No custom branch. No extra compile. Just pull the pre-built package and run. Huge thanks to @vllm_project for the smooth integration! 🤝 🤗 http://huggingface.co/openbmb/MiniCPM-V-4.6

译MiniCPM-V 4.6 现已完全支持 vLLM v0.22.0! 无需自定义分支,无需额外编译。 只需拉取预构建包即可运行。 非常感谢 @vllm_project 的顺畅集成! 🤝 🤗 http://huggingface.co/openbmb/MiniCPM-V-4.6

SemiAnalysis@SemiAnalysis_ · 6月2日54

The recent Ornn H100 index drop to $2.63 (-7.72%) is confusing. But mostly because it's a misleading index. Our H100 hourly has been in a $2.70–$3.01 band for 146 straight days. Ornn's last month alone: $1.80 → $3.22 → $2.63. Why? OCPI is built only from printed transactions. But H100 on-demand has been sold out across our coverage for months. No continuous spot tape exists. What's left is a thin residual of bilateral trades from a narrow contributor set. Small N gets pushed around easily.

译近期Ornn H100指数跌至2.63美元(-7.72%)令人困惑。但这主要因为该指数具有误导性。我们的H100小时价格已连续146天在2.70–3.01美元区间内波动。仅上月Ornn指数就经历了1.80→3.22→2.63美元的剧烈波动。 原因在于OCPI仅基于已成交交易构建。但数月来我们覆盖范围内H100按需实例已售罄。不存在连续的现货交易记录。剩余数据仅来自少数贡献者的双边交易残余。小样本量极易被扭曲。

Rohan Paul@rohanpaul_ai · 6月2日82

In roughly 28 years, Google/Alphabet has tapped primary equity capital only seven times; the 2026 announced $80B raise is more than 10x all prior identified primary raises combined.

译Alphabet宣布计划通过多种方式筹集约800亿美元资金,以支持其AI算力扩张支出。该融资规模超过其过去28年间七次主要股权融资总和的10倍。融资结构包括承销股票、强制性可转换优先股、伯克希尔100亿美元的私募配售以及400亿美元的ATM计划(其中约300亿与员工股权税务相关)。市场将此举视为看涨信号,表明AI发展瓶颈已从需求和模型转向算力供应,Alphabet正通过融资投资于类似铁路、电网和晶圆厂的关键基础设施。

Rohan Paul@rohanpaul_ai · 6月2日86

Alphabet to raise $80B from share sales to fund AI spending splurge, Berkshire to invest $10B Very bullish news, as it shows again the limiting factor is no longer demand, models, or products, but compute supply. For years, the cleanest story was excess cash, buybacks, and software-like returns; now the story is closer to railroads, power grids, and fabs, where whoever can finance the bottleneck may own the toll road. Berkshire’s $10B placement gives the raise a stamp of patient capital. Alphabet is not simply selling $80B of common stock straight into the market tomorrow for AI capex. It is using a mix of underwritten stock, mandatory convertible preferred, Berkshire private placement, and a $40B ATM program, with about $30B of that ATM tied to employee equity tax mechanics. --- s206.q4cdn .com/479360582/files/doc_news/2026/Jun/01/attachments/2026-June-Alphabet-Equity-Capital-Raise-Press-Release-PDF.pdf

译Alphabet计划通过包括承销股票、可转换优先股、Berkshire的100亿美元私募配售以及一个400亿美元的市场发售计划在内的多种方式,募集高达800亿美元资金,主要用于AI基础设施投资。市场将此举视为强烈看涨信号,表明AI发展的关键瓶颈已从需求侧转向计算供给。Berkshire的投资被视为对“耐心资本”的背书,此事件也标志着行业投资逻辑正从追求软件式回报转向对铁路、电网和晶圆厂等瓶颈基础设施的重资产竞争。

swyx@swyx · 6月2日59

title undersells it - this @workos talk is doing v well and is the first to seriously challenge @mattpocockuk in weeks. team is ab testing

译标题低估了它——这个WorkOS的演讲表现很好,是几周来第一个真正挑战@mattpocockuk的。团队正在进行A/B测试。

AYi@AYi_AInotes · 6月2日63

这条不限学生,做项目的都能薅,可能是门槛最低的一个🤩 Microsoft for Startups Founders Hub: 自助申请就有 $1000 起的 Azure 云额度(含 Azure OpenAI 服务), 有点进展能一路爬到 $25k,顶档最高 $150k。 最香的是—— 不需要 VC、不需要进孵化器, 你手上有个在做的项目,就能自己去申请。 还白送 GitHub Enterprise、Microsoft 365、LinkedIn Premium。 入口:搜 Microsoft for Startups Founders Hub ($150k 顶档要 Series A+,但 $1k–$25k 这档真的好拿)

译Microsoft for Startups Founders Hub 提供最高 $150k 的 Azure 云额度(含 Azure OpenAI 服务)。自助申请可获 $1000 起,随项目进展可升至 $25k,顶档 $150k 需 Series A+。其最大优势是门槛极低,无需风投或孵化器背景,在进行中的项目即可申请,并赠送 GitHub Enterprise、Microsoft 365 等权益。该福利近期更新后,与面向学生的、总价值 $3500+ 的 GitHub 学生大礼包形成对比,后者为学生提供 GitHub Copilot Pro、JetBrains 全家桶等 50 多种工具的免费/折扣权益,同样零门槛。

Tibo@thsottiaux · 6月2日68

Heard that AWS is where the cool kids are. Hello. We have GPT-5.5.

译OpenAI宣布其前沿模型与Codex现已在Amazon Bedrock上全面可用,为企业提供了通过现有安全、合规与治理工作流使用OpenAI的新途径。此举标志着OpenAI能力在AWS上的更广泛扩展的开端,未来将纳入如Daybreak等网络安全功能。

MiniMax (official)@MiniMax_AI · 6月2日55

we're live now 🔴 Inside M3 with @togethercompute: the model, the MSA architecture, and the inference powering it. come hang 👇 https://x.com/i/spaces/1nxeLLDDBEaJX/peek

译我们现在正在直播 🔴 与 @togethercompute 一起深入探讨 M3:模型、MSA 架构以及驱动它的推理技术。 欢迎加入 👇 https://x.com/i/spaces/1nxeLLDDBEaJX/peek

SemiAnalysis@SemiAnalysis_ · 6月2日66

Your RL training efficiency is only as good as your sandbox infra. Check out what Modal does to keep your rollouts rolling!

译你的强化学习训练效率取决于沙盒基础设施。来看看 Modal 如何让你的 rollout 持续运行!

Greg Brockman@gdb · 6月2日67

OpenAI + Amazon Bedrock:

译OpenAI的GPT-5.5、GPT-5.4及Codex编程智能体现已在Amazon Bedrock平台正式上线。开发者可通过Bedrock的下一代推理引擎部署这些模型,享受自动扩展能力。具体应用包括使用GPT-5.5和GPT-5.4构建能处理多步骤编码、数据分析和知识工作的自主AI智能体,或将Codex编程智能体集成至开发工作流,并通过Bedrock进行所有模型调用。该服务按token计费,支持弹性扩展。

Greg Brockman@gdb · 6月2日61

OpenAI is now available for enterprises on Amazon Bedrock:

译OpenAI前沿模型与Codex现已在Amazon Bedrock上对企业客户全面可用,企业可通过现有的安全、合规与治理工作流程在AWS上使用OpenAI进行构建。这也是OpenAI能力在AWS上更广泛扩展的开始,未来将包括Daybreak等网络安全能力。

🚨 AI News | TestingCatalog@testingcatalog · 6月2日79

OpenAI ❤️ AWS OpenAI models are now generally available on AWS Bedrock! Daybreak will be available later on AWS as well. > That includes future availability for Daybreak, OpenAI’s vision for changing how software is built and defended. > Daybreak, which includes cyber models and Codex Security, is designed to help cyber defenders see risk earlier.

译OpenAI的前沿模型与Codex现已在AWS Bedrock平台正式上线(一般可用)。这为企业提供了通过其现有的安全、合规和治理工作流,直接在Amazon Bedrock上使用OpenAI能力的新途径。同时,OpenAI表示,这是其在AWS上更广泛扩展能力的开始,其网络安全平台Daybreak(包含网络模型和Codex Security)未来也将在AWS上提供。

jason@jxnlco · 6月2日62

now available on bedrock!

译现已在Bedrock上可用! [引用 @OpenAI]:OpenAI前沿模型和Codex现已在AWS上全面可用,为企业提供了一种新方式,通过其现有的安全、合规和治理工作流,在Amazon Bedrock上使用OpenAI进行构建。 这同时也是OpenAI在AWS上更广泛能力扩展的开端,包括未来将提供Daybreak等网络安全能力。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

OpenAI@OpenAI · 6月2日72

OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bedrock with OpenAI through the security, compliance, and governance workflows they already use. This is also the beginning of a broader expansion of OpenAI capabilities on AWS, including future availability for cybersecurity capabilities like Daybreak. https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

译OpenAI前沿模型和Codex现已在AWS全面可用,为企业提供了一种新方式:通过其现有的安全、合规和治理工作流,在Amazon Bedrock上使用OpenAI进行构建。 这也标志着OpenAI在AWS上更广泛扩展的开始,未来将包括Daybreak等网络安全能力的可用性。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

OpenAI Developers@OpenAIDevs · 6月2日73

OpenAI models and Codex, now in your AWS workflows. Build AI apps and software engineering workflows with OpenAI on Amazon Bedrock, using the AWS environments and controls your team already trusts.

译OpenAI前沿模型和Codex现已在AWS上全面可用。企业可以通过Amazon Bedrock服务,利用其已有的安全、合规与治理工作流,来构建基于OpenAI的AI应用及软件工程工作流。此次上线是OpenAI能力在AWS上更广泛扩展的开始,未来还将包括Daybreak等网络安全功能的可用性。

jason@jxnlco · 6月2日52

What willl you build?

译你将构建什么? [引用 @jxnlco]:哇,我们刚刚发布了 Codex 的 Python 应用服务器 感谢 @ah20im

Rohan Paul@rohanpaul_ai · 6月2日78

OpenAI just broke ground on a 1GW AI data center campus in Michigan. The project, called The Barn, is part of Stargate. OpenAI says the project will pay for its own required energy infrastructure, avoid passing costs to local ratepayers, and use closed-loop cooling, meaning water is circulated rather than constantly pulled and dumped.

译OpenAI在美国密歇根州破土动工,启动名为“The Barn”的Stargate Michigan项目,这是一座规模达1GW的AI数据中心。该数据中心将采用闭环冷却技术,耗水量仅与普通办公楼相当,并承诺自身承担能源基础设施成本,不增加当地用户负担。项目预计创造数千个工会岗位。此外,OpenAI将为密歇根州所有大学、社区学院和技术学校的学生提供超过4000万美元的免费Codex额度。

Replit ⠕@Replit · 6月2日75

Can you build a real business for free with a single prompt? Starting today on Replit, the answer is yes. From a single prompt, get a website, mobile app, slide deck, and launch video. Plus unlock perks from @stripe @atlas, @QuickBooks, @mercury & @doolaHQ

译你能用单个提示词免费构建一个真正的业务吗? 从今天起,在 Replit 上,答案是肯定的。 从单个提示词开始,获得一个网站、移动应用、幻灯片和发布视频。 此外,还能解锁来自 @stripe @atlas、@QuickBooks、@mercury 和 @doolaHQ 的福利。

Replit ⠕@Replit · 6月2日73

Can you build a real business for free with a single prompt? Starting today on Replit, the answer is yes. From a single prompt, get a website, mobile app, slide deck, and launch video. Plus unlock perks to run your business from @stripe @atlas, @QuickBooks, @mercury & @doolaHQ

译你能用单个提示词免费构建一个真实的业务吗? 从今天起,在 Replit 上,答案是肯定的。 从一个提示词开始,获得一个网站、移动应用、幻灯片和发布视频。 此外,还能解锁使用 @stripe @atlas, @QuickBooks, @mercury & @doolaHQ 运营业务的福利。

Logan Kilpatrick@OfficialLoganK · 6月2日53

We just shipped the first iteration of API Key breakdown of your Gemini API usage 🗝️, you can now filter your request chart via API key! More granular controls in other areas coming soon : )

译我们刚刚发布了 Gemini API 用量按 API Key 分类的首个版本 🗝️,你现在可以通过 API Key 来筛选请求图表了!其他领域更精细的控制功能也将很快推出 : )

Chubby♨️@kimmonismus · 6月2日10

Of course, in today's newsletter I wrote in detail about what NVIDIA released at Computex and then focused on Minimax's M3. All that and more in my newsletter :)

译当然,在今天的通讯中,我详细写了NVIDIA在Computex上发布的内容,然后重点介绍了MiniMax的M3。所有这些以及更多内容都在我的通讯里 :)

Chubby♨️@kimmonismus · 6月2日67

NVIDIA's quieter Computex drop actually matters more than RTX Spark: DGX Station for Windows. A GB300 (!) superchip under your desk that runs trillion-parameter models locally, 748GB coherent memory, 20 petaflops FP4, shipping Q4. GB300 Grace Blackwell Ultra Desktop Superchip -72-core Grace CPU + Blackwell Ultra GPU over NVLink-C2C -Up to 748GB coherent memory -up to 20 petaflops FP4 -ConnectX-8 SuperNIC, up to 800Gb/s (chain multiple units) -Runs models up to 1 trillion parameters locally -Optional RTX PRO 6000 Blackwell for ray-traced simulation Frontier models fully on-prem, hundreds of agents in parallel, local pretrain/fine-tune/inference, Linux toolchains via WSL, 748GB datasets in coherent memory. NVIDIA OpenShell, an open-source runtime that sandboxes each agent and enforces policy at the OS level via Windows containment primitives. Lets freaking go!

译NVIDIA发布了DGX Station for Windows,这是一款桌面级AI超级计算机,搭载新的GB300 Grace Blackwell Ultra Desktop Superchip。其核心规格包括72核Grace CPU与Blackwell Ultra GPU通过NVLink-C2C连接,提供最高748GB统一内存与20 petaflops FP4算力,可本地运行最高达1万亿参数的模型。该设备计划于2026年第四季度发货。同时,NVIDIA推出了开源运行时OpenShell,可在Windows系统层面为AI智能体构建安全沙箱。

OpenRouter@OpenRouter · 6月2日77

The Auto Router now lets you tune how it weighs cost against quality. New `cost_quality_tradeoff` parameter, 0 to 10: Set it to 0 and it always picks the most capable model regardless of price. Set it to 10 and the cheapest model wins.

译Auto Router 现在允许你调整其在成本与质量之间的权衡。 新增 `cost_quality_tradeoff` 参数,范围 0 到 10: 设为 0 时,它总是选择最强大的模型,无论价格如何。设为 10 时,最便宜的模型胜出。

Berryxia.AI@berryxia · 6月1日62

我正好有个批量的需求,看来明天的方案可以按照这个方向来做了,多谢~

译FastClaw是一个面向云原生多租户场景的轻量级Agent运行框架。它通过存算分离的架构,让Agent无需常驻,而是根据请求动态挂载sandbox提供服务。实测显示,将托管服务从OpenClaw迁移到FastClaw后,服务器数量从18台降至3台,运营成本降至约1/6。此外,FastClaw代码体积约为OpenClaw的1/40,运行资源占用约为其1/7,支持单二进制分发和秒级启动。这个框架非常适合处理批量任务。

Rohan Paul@rohanpaul_ai · 6月1日69

There’s now a platform that hires AI agents for you from 273,000 skills and keeps them running 24/7 while you sleep @lobehub just launched something called a Chief Agent Operator. you don’t build agents. you don’t prompt agents. you just say what needs doing, and it finds the right agent, deploys it, and reports back through Slack, Discord, or whatever you already use In 2015, you hired humans on Fiverr for $5/hr. in 2026, AI is hiring AI like it has a budget and a calendar. Currently most agent-powered workflow asks you to open separate agents, repeat context, assign tasks, check progress, move results between apps, and decide when to escalate work. LobeHub has an operator layer that hires agents from a 273K-skill marketplace, schedules them in the cloud 24/7, and sends reports through the IM apps where teams already work. So their "Task" turns an agent into a background worker: you assign the job once, the agent keeps running, shares progress, moves finished work to Pending Review, and updates its work when you leave comments. 50%+ cost savings and cloud 24/7, no self-hosting The way I understand LobeHub: Claude Code, Cursor, and Manus are powerful agents/tools, but LobeHub is the operator layer that decides who does what, when, and how the work comes back to you. 🧵 1.

译LobeHub发布了名为“Chief Agent Operator”的平台。用户无需自行构建或提示代理,只需提出需求,平台便从一个拥有273,000个技能的市场中自动匹配、部署合适的AI智能体。这些智能体可在云端24/7运行,并通过Slack、Discord等IM工具汇报进展。该平台旨在解决当前工作流中需手动管理多个代理、重复提供上下文等问题,据称可节省超50%成本。其定位是作为统一调度层,管理如Claude Code、Cursor等各类AI代理工具的运作与结果回传。

Alibaba Cloud@alibaba_cloud · 6月1日58

Alibaba Cloud recently showcased our latest milestones at SAP Sapphire Madrid 2026, further deepening our global alliance. We are scaling 16TB RAM re8 ECS instances for SAP HANA and integrating Qwen LLM & Model Studio into SAP to power enterprise intelligence.

译阿里云近日在SAP Sapphire Madrid 2026上展示了最新里程碑,进一步深化我们的全球联盟。我们正在扩展用于SAP HANA的16TB RAM re8 ECS实例,并将通义千问大语言模型与Model Studio集成到SAP中,以赋能企业智能化。

SiliconFlow@SiliconFlowAI · 6月1日57

The #1 coding agent on @OpenRouter, now living in your Discord server Step-by-step setup, model selection & pro tips Here's everything you need with @NousResearch Hermes Agent + SiliconFlow 🧵

译OpenRouter上排名第一的编程智能体,现已入驻你的Discord服务器 分步设置、模型选择与专业技巧 以下是使用NousResearch Hermes Agent + SiliconFlow所需的一切 🧵

SemiAnalysis@SemiAnalysis_ · 6月1日56

F TIER KEYNOTEMAX: Jensen ComputeX presentation was one of the worst keynotes he has done. He announced nothing new on the AI datacenter side, and he only announced Windows on NVIDIA ARM CPU which the transition will not go work unlike Apple transition from x86 to M1 ARM. The NVIDIA laptop chip is already delayed by 6 to 8 months from its original expected launch window.  During development, the high-speed connection between the Nvidia and MediaTek parts caused so much interference that the video output was completely broken, Laptop makers are reportedly being told definitely not let anyone turn them on or run benchmarks. That screams "immature hardware."

译演讲被评为黄仁勋最差之一,AI数据中心方面未发布新内容。仅宣布Windows on NVIDIA ARM CPU,但该转型被认为难以成功。NVIDIA笔记本芯片已比原计划延迟6-8个月,开发中因高速连接干扰导致视频输出完全故障。据报道,笔记本厂商被告知禁止开机或运行基准测试,暗示硬件不成熟。

SemiAnalysis@SemiAnalysis_ · 6月1日68

BREAKING NEWS: JENSEN JUST ANNOUNCED MICROSOFT HAS FINISHED BRING UP ON THEIR FIRST RUBIN VR200 NVL72 RACK with their ODM partner, Foxconn.  Jensen also announced that wafer-level mass production has started. That being said, rack-level mass production has not started yet and remains in the engineering/quality sample stage.

译突发新闻:黄仁勋刚刚宣布,微软已与其ODM合作伙伴富士康完成了首台Rubin VR200 NVL72机架的验证工作。黄仁勋还宣布晶圆级量产已启动。但需注意,机架级量产尚未开始,目前仍处于工程/质量样品阶段。

Berryxia.AI@berryxia · 6月1日63

兄弟们,讲真! 那些让你每个月付费的AI工具、Bloomberg终端、交易系统、视频工作室,其实是资本用来维持稳定收入的机制。 大家还在继续订阅OpenAI、HeyGen、Bloomberg吗? GitHub上已经有10个开源项目,完全可以替代这些付费产品。 它们免费、功能强大、支持自托管,并且让你完全掌握自己的数据和控制权。 1. AutoHedge:四个AI代理组成自主对冲基金,在Solana上实时交易,pip install即可运行 → https://github.com/The-Swarm-Corporation/AutoHedge 2. Vibe-Trading:64个金融技能加29个专家代理群,使用DAG模型实时讨论策略,包含清算热图和代币解锁追踪 → https://github.com/HKUDS/Vibe-Trading 3. Fincept Terminal:笔记本上运行的Bloomberg替代品,提供CFA级别分析以及巴菲特、达里奥、索罗斯等20多位投资大佬的AI代理,连接100多个数据源 → https://github.com/Fincept-Corporation/FinceptTerminal 4. LibreChat:自托管版ChatGPT+Claude+Gemini+DeepSeek等20多个模型,你的数据和历史全部保留在本地 → https://github.com/danny-avila/LibreChat 5. Open Higgsfield AI:自托管电影工作室,把Flux、Midjourney、Sora、Kling、Veo、GPT-4o全部集成进去,支持文本生图、图生视频,本地运行 → https://github.com/Anil-matcha/Open-Higgsfield-AI 6. Open-LLM-VTuber:开源AI虚拟主播,直接本地部署 → https://github.com/Open-LLM-VTuber/Open-LLM-VTuber 7. Claude Ads:Claude一键生成广告素材工具 → https://github.com/AgriciDaniel/claude-ads 8. Agentic Inbox:AI直接帮你管理邮箱,自动处理邮件 → https://github.com/cloudflare/agentic-inbox 9. Camofox Browser:无头浏览器,让AI代理完全隐身操作 → https://github.com/jo-inc/camofox-browser 10. Hyperframes:AI直接写HTML生成专业视频 → https://github.com/heygen-com/hyperframes 我们一直以为AI变革来自估值百亿的大公司。 然而GitHub上的这些开源项目正在把机构级工具直接交给普通人。

译该推文指出,许多付费的AI工具和专业软件(如Bloomberg)是资本维持收入的机制。GitHub上已有10个开源项目可替代它们,提供免费、功能强大且支持自托管的选项。示例包括:AutoHedge(自主交易代理)、Vibe-Trading(金融技能与代理系统)、Fincept Terminal(Bloomberg替代品)、LibreChat(多模型聊天)以及Open Higgsfield AI(电影工作室)等。这些项目让用户能完全掌控自己的数据和控制权,将原本昂贵的订阅服务免费提供给普通人。

Rohan Paul@rohanpaul_ai · 6月1日28

For orbital datacenters, space has lots of energy, but cooling is hard there. Without convection, heat must radiate away, which needs large surfaces. But it is solvable because "there's a lot of space in space" ~ Nvidia CEO Jensen Huang

译对于轨道数据中心,太空有大量能源,但散热很难。没有对流,热量只能辐射出去,这需要很大的表面积。但这是可以解决的,因为“太空里有很多空间” ~ Nvidia CEO Jensen Huang

SemiAnalysis@SemiAnalysis_ · 6月1日26

Ever wonder what L11 diags means? Let's break it into two components: L11 and diags. (1/5)

译好奇L11诊断是什么意思吗?让我们把它拆解成两个部分:L11和诊断。(1/5)

Rohan Paul@rohanpaul_ai · 5月31日59

Some cool visuals. Dell Delivers world's first Nvidia Vera Rubin NVL72 rack to CoreWeave. It packs 72 Rubin GPUs, 36 Vera CPUs, 3.6 exaFLOPS of FP4 inference, 75 TB of fast memory, and 260 TB/s NVLink bandwidth

译一些很酷的视觉效果。 戴尔向CoreWeave交付全球首个Nvidia Vera Rubin NVL72机架。 它包含72个Rubin GPU、36个Vera CPU、3.6 exaFLOPS的FP4推理性能、75 TB的快速内存和260 TB/s的NVLink带宽。

StepFun@StepFun_ai · 5月31日80

A 198B vision model, running on a box that sits on a desk. This is what we built Step 3.7 Flash for. Brilliant breakdown @sudoingX — saved everyone a few hours of head-scratching 🎉

译阶跃星辰发布了Step 3.7 Flash,这是一款198B参数的视觉模型,旨在DGX Spark等桌面设备上运行。用户实测表明,128GB统一内存是运行门槛,模型占用约104GB。部署无需官方专用llama.cpp分支,主线版本即可。在上下文长度上存在权衡:启用视觉功能时,基于q8 KV cache的64K为上限;若要使用最高256K上下文,则需禁用视觉并切换至q4 KV cache,此时模型与缓存共占约114GB内存。该模型是推理模型,思考过程可能消耗大量max_tokens,需注意设置。

SemiAnalysis@SemiAnalysis_ · 5月31日61

BREAKING NEWS: COREWEAVE & DELL IS THE FIRST CLOUD TO ANNOUNCE THAT THEY HAVE RUBIN VR200 NVL72 WITH FULLY PASSING L11 DIAGS. Next Step is to get multiple racks burnin in a couple & do software level bringup like sglang, vllm, dynamo, etc.

译突发新闻:CoreWeave与Dell是首个宣布其Rubin VR200 NVL72已完全通过L11诊断的云服务商。下一步是获取多个机架进行数周的烧机测试,并完成软件层面的启动工作,如SGLang、vLLM、Dynamo等。

SemiAnalysis@SemiAnalysis_ · 5月31日53

One of the throughlines in our Great AI Silicon Shortage piece is that the conversation about leading-edge capacity has shifted entirely, and most consensus accelerator models haven't caught up to where N3 demand is actually heading. (1/4) 🧵

译我们关于AI芯片严重短缺的系列报道中,一个贯穿始终的观点是,关于前沿产能的讨论已完全转变,而大多数主流加速器模型尚未跟上N3需求的实际走向。(1/4) 🧵

Rohan Paul@rohanpaul_ai · 5月31日76

FT: SoftBank just pledged €75B to build Europe’s largest AI computing facility in France, turning cheap, stable nuclear-heavy power into the raw fuel for training and running bigger AI systems. The plan starts with €45B for 3.1GW of capacity in Hauts-de-France by 2031, then adds another 2GW, creating a 5GW AI complex roughly comparable to the power draw of a major city. Dunkirk is the anchor site, with Schneider Electric expected to help build an AI infrastructure and robotics manufacturing hub around the project. The weak point is financing, because industry estimates put 1GW of AI infrastructure near $50B, meaning SoftBank will probably need heavy project debt and outside partners. --- ft .com/content/1022f9bd-5b6d-44a5-9303-c8b05b8c6463?syn-25a6b1a6=1

译软银宣布在法国投资750亿欧元,旨在打造欧洲规模最大的AI算力设施。该计划旨在利用当地稳定廉价的核电。项目分阶段推进,第一阶段投资450亿欧元,目标是到2031年在法国北部-加来海峡大区建成3.1GW容量,随后再增加2GW,最终形成5GW的AI综合体。敦刻尔克是核心选址,施耐德电气预计参与建设AI基础设施及机器人制造中心。融资是潜在挑战,行业估算显示1GW的AI基础设施成本约为500亿美元,因此软银可能需要依赖大量项目债务和外部合作伙伴。

Berryxia.AI@berryxia · 5月31日51

最近大家看到小米的MiMo 模型的降价! 我今天看了一下用了120 w 差不多花了3块多钱! 正好看到小米MiMo团队罗福莉分享的一篇技术博客。 V2.5系列刚把API价格降下来,背后其实是他们把推理系统彻底重构了一遍。 他们用的Hybrid Sliding Window Attention架构,能把KVCache存储压缩到全注意力的约1/7。 但罗福莉他们很清楚,架构优势在真实生产流量里不会自动变现。 于是团队重新设计了KVCache管理、层级缓存和prefix-cache tree,针对SWA特有的缓存难题做了专项处理,同时深度优化了调度策略和Prefill/Decode流水线。 在真实生产流量验证后,有效KVCache容量提升了接近5倍,主流框架下的服务端缓存命中率稳定在93%到95%。 再叠加MoE配置调优和多模态推理优化,才真正把长上下文推理成本打下来,支撑了这次降价。 这恰巧说明,好架构只是天花板,把它真正落地成可规模化、低成本的生产能力,才是决定模型性价比的关键。

译小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构,理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地,团队重新设计了KVCache管理、层级缓存和prefix-cache tree,并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证,有效KVCache容量提升了近5倍,服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用,显著降低了长上下文推理成本,从而支撑了本次降价。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
22:51
OpenBMB@OpenBMB
56
🎉 好消息!MiniCPM-o 4.5 已正式合并至 vLLM-Omni!👏 💡 目前,它支持单工非流式使用--这是未来发展的坚实第一步。 🚀 旅程继续!我们将与出色的开源社区一起,继续推进下一步的双工流式功能集成。 敬请期待更强大、更无缝的交互体验。敬请关注!💪 http://github.com/vllm-project/vllm-omni/pull/4067 http://huggingface.co/openbmb/MiniCPM-o-4_5
产品更新开源/仓库部署/工程
22:44
Rohan Paul@rohanpaul_ai
57
AI驱动预测最便宜安全AWS Spot实例舰队

该研究提出了一种AI驱动的服务,用于在启动前预测最便宜且安全的AWS Spot实例舰队。该服务通过时间感知模型学习AWS创建舰队的模式,并估算9个区域的舰队组合与成本,向用户返回排序后的区域选项。测试显示,在最多1500 vCPU的舰队上,预测结果与AWS完全匹配的比例达92.78%,整体准确率为99.79%,且所有推荐舰队均被AWS接受。关键发现是选择最佳区域比在单个区域内调整策略更重要,潜在成本节省最高可达64%。

数据/训练论文/研究部署/工程
22:21
OpenBMB@OpenBMB
精选67
MiniCPM-V 4.6 现已完全支持 vLLM v0.22.0! 无需自定义分支,无需额外编译。 只需拉取预构建包即可运行。 非常感谢 @vllm_project 的顺畅集成! 🤝 🤗 http://huggingface.co/openbmb/MiniCPM-V-4.6
产品更新部署/工程

推荐理由:MiniCPM-V 4.6 现在 vLLM 原生支持,不用自己折腾编译和环境了,做多模态部署的可以无痛接入,国产端侧模型生态又往前走了一步。
21:21
SemiAnalysis@SemiAnalysis_
54
近期Ornn H100指数跌至2.63美元(-7.72%)令人困惑。但这主要因为该指数具有误导性。我们的H100小时价格已连续146天在2.70-3.01美元区间内波动。仅上月Ornn指数就经历了1.80→3.22→2.63美元的剧烈波动。 原因在于OCPI仅基于已成交交易构建。但数月来我们覆盖范围内H100按需实例已售罄。不存在连续的现货交易记录。剩余数据仅来自少数贡献者的双边交易残余。小样本量极易被扭曲。
现象/趋势部署/工程
17:13
Rohan Paul@rohanpaul_ai
82
Alphabet宣布计划通过多种方式筹集约800亿美元资金,以支持其AI算力扩张支出。该融资规模超过其过去28年间七次主要股权融资总和的10倍。融资结构包括承销股票、强制性可转换优先股、伯克希尔100亿美元的私募配售以及400亿美元的ATM计划(其中约300亿与员工股权税务相关)。市场将此举视为看涨信号,表明AI发展瓶颈已从需求和模型转向算力供应,Alphabet正通过融资投资于类似铁路、电网和晶圆厂的关键基础设施。

Rohan Paul: Alphabet to raise $80B from share sales to fund AI spending splurge, Berkshire to invest $10B Very bullish news, as it s...

Google行业动态部署/工程
16:43
Rohan Paul@rohanpaul_ai
86
Alphabet计划融资800亿美元以大幅增加AI支出,Berkshire将投资100亿美元

Alphabet计划通过包括承销股票、可转换优先股、Berkshire的100亿美元私募配售以及一个400亿美元的市场发售计划在内的多种方式,募集高达800亿美元资金,主要用于AI基础设施投资。市场将此举视为强烈看涨信号,表明AI发展的关键瓶颈已从需求侧转向计算供给。Berkshire的投资被视为对“耐心资本”的背书,此事件也标志着行业投资逻辑正从追求软件式回报转向对铁路、电网和晶圆厂等瓶颈基础设施的重资产竞争。

Google行业动态部署/工程
12:00
swyx@swyx
59
标题低估了它--这个WorkOS的演讲表现很好,是几周来第一个真正挑战@mattpocockuk的。团队正在进行A/B测试。

Nick Nisi: My talk from AIE Europe is up! Come learn the lessons I learned while shipping real production AI systems. https://www.y...

教程/实践部署/工程
11:53
AYi@AYi_AInotes
63
门槛最低的云服务福利:Microsoft for Startups Founders Hub 深度解析

Microsoft for Startups Founders Hub 提供最高 $150k 的 Azure 云额度(含 Azure OpenAI 服务)。自助申请可获 $1000 起,随项目进展可升至 $25k,顶档 $150k 需 Series A+。其最大优势是门槛极低,无需风投或孵化器背景,在进行中的项目即可申请,并赠送 GitHub Enterprise、Microsoft 365 等权益。该福利近期更新后,与面向学生的、总价值 $3500+ 的 GitHub 学生大礼包形成对比,后者为学生提供 GitHub Copilot Pro、JetBrains 全家桶等 50 多种工具的免费/折扣权益,同样零门槛。

AYi: Damn,这绝对是学生党这辈子能薅到的最狠的羊毛,没有之一😭 GitHub学生大礼包2026年全面升级 总价值直接干到$3500+!! 而且真的是零门槛, 只要你是学生,基本都能过。 这可不是什么几块钱的优惠券啊宝子们, 这是GitHub...

GitHubMicrosoft教程/实践部署/工程
11:03
Tibo@thsottiaux
68
OpenAI宣布其前沿模型与Codex现已在Amazon Bedrock上全面可用,为企业提供了通过现有安全、合规与治理工作流使用OpenAI的新途径。此举标志着OpenAI能力在AWS上的更广泛扩展的开端,未来将纳入如Daybreak等网络安全功能。

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI行业动态部署/工程
09:23
MiniMax (official)@MiniMax_AI
55
我们现在正在直播 🔴 与 @togethercompute 一起深入探讨 M3:模型、MSA 架构以及驱动它的推理技术。 欢迎加入 👇 https://x.com/i/spaces/1nxeLLDDBEaJX/peek

Together AI: Make sure to join our live Spaces chat on MiniMax M3 starting in 4 hours. You can pre-submit questions by replying to th...

推理教程/实践部署/工程
09:18
SemiAnalysis@SemiAnalysis_
66
你的强化学习训练效率取决于沙盒基础设施。来看看 Modal 如何让你的 rollout 持续运行!

Modal: Reinforcement learning has exploded on Modal, and we've been cooking. Here's a review of lessons learned helping teams t...

开源/仓库部署/工程
08:47
Greg Brockman@gdb
67
OpenAI的GPT-5.5、GPT-5.4及Codex编程智能体现已在Amazon Bedrock平台正式上线。开发者可通过Bedrock的下一代推理引擎部署这些模型,享受自动扩展能力。具体应用包括使用GPT-5.5和GPT-5.4构建能处理多步骤编码、数据分析和知识工作的自主AI智能体,或将Codex编程智能体集成至开发工作流,并通过Bedrock进行所有模型调用。该服务按token计费,支持弹性扩展。

Amazon Web Services: Now generally available, @OpenAI GPT-5.5, GPT-5.4, and Codex on Amazon Bedrock. Deploy frontier AI models with automatic...

OpenAI行业动态部署/工程
07:45
Greg Brockman@gdb
61
OpenAI前沿模型与Codex现已在Amazon Bedrock上对企业客户全面可用,企业可通过现有的安全、合规与治理工作流程在AWS上使用OpenAI进行构建。这也是OpenAI能力在AWS上更广泛扩展的开始,未来将包括Daybreak等网络安全能力。

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI产品更新部署/工程
06:16
🚨 AI News | TestingCatalog@testingcatalog
79
OpenAI的前沿模型与Codex现已在AWS Bedrock平台正式上线(一般可用)。这为企业提供了通过其现有的安全、合规和治理工作流,直接在Amazon Bedrock上使用OpenAI能力的新途径。同时,OpenAI表示,这是其在AWS上更广泛扩展能力的开始,其网络安全平台Daybreak(包含网络模型和Codex Security)未来也将在AWS上提供。

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI产品更新安全/对齐部署/工程
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
06:01
jason@jxnlco
62
现已在Bedrock上可用! 【引用 @OpenAI】:OpenAI前沿模型和Codex现已在AWS上全面可用,为企业提供了一种新方式,通过其现有的安全、合规和治理工作流,在Amazon Bedrock上使用OpenAI进行构建。 这同时也是OpenAI在AWS上更广泛能力扩展的开端,包括未来将提供Daybreak等网络安全能力。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI产品更新编码部署/工程
06:00
OpenAI@OpenAI
72
OpenAI前沿模型和Codex现已在AWS全面可用,为企业提供了一种新方式:通过其现有的安全、合规和治理工作流,在Amazon Bedrock上使用OpenAI进行构建。 这也标志着OpenAI在AWS上更广泛扩展的开始,未来将包括Daybreak等网络安全能力的可用性。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/
OpenAI产品更新部署/工程
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
05:47
OpenAI Developers@OpenAIDevs
73
OpenAI前沿模型和Codex现已在AWS上全面可用。企业可以通过Amazon Bedrock服务,利用其已有的安全、合规与治理工作流,来构建基于OpenAI的AI应用及软件工程工作流。此次上线是OpenAI能力在AWS上更广泛扩展的开始,未来还将包括Daybreak等网络安全功能的可用性。

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI产品更新部署/工程
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
04:48
jason@jxnlco
52
你将构建什么? 【引用 @jxnlco】:哇,我们刚刚发布了 Codex 的 Python 应用服务器 感谢 @ah20im

jason: wow we just shipped codex app server for python shoutouts to @ah20im

OpenAI产品更新开源/仓库部署/工程
04:40
Rohan Paul@rohanpaul_ai
78
OpenAI在美国密歇根州破土动工,启动名为"The Barn"的Stargate Michigan项目,这是一座规模达1GW的AI数据中心。该数据中心将采用闭环冷却技术,耗水量仅与普通办公楼相当,并承诺自身承担能源基础设施成本,不增加当地用户负担。项目预计创造数千个工会岗位。此外,OpenAI将为密歇根州所有大学、社区学院和技术学校的学生提供超过4000万美元的免费Codex额度。

OpenAI Newsroom: We're breaking ground on Stargate Michigan-a 1GW data center utilizing closed-loop cooling that uses water at the rate o...

OpenAI行业动态部署/工程
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
04:23
Replit ⠕@Replit
75
你能用单个提示词免费构建一个真正的业务吗? 从今天起,在 Replit 上,答案是肯定的。 从单个提示词开始,获得一个网站、移动应用、幻灯片和发布视频。 此外,还能解锁来自 @stripe @atlas、@QuickBooks、@mercury 和 @doolaHQ 的福利。
智能体产品更新部署/工程
03:53
Replit ⠕@Replit
精选73
你能用单个提示词免费构建一个真实的业务吗? 从今天起,在 Replit 上,答案是肯定的。 从一个提示词开始,获得一个网站、移动应用、幻灯片和发布视频。 此外,还能解锁使用 @stripe @atlas, @QuickBooks, @mercury & @doolaHQ 运营业务的福利。
产品更新编码部署/工程

推荐理由:Replit 从写代码进化到了‘一个提示生成网站+App+PPT+视频’,还串起了 Stripe 和 QuickBooks,‘建个生意玩玩’的成本降到史低,产品人和独立开发者值得试。
03:31
Logan Kilpatrick@OfficialLoganK
53
我们刚刚发布了 Gemini API 用量按 API Key 分类的首个版本 🗝️,你现在可以通过 API Key 来筛选请求图表了!其他领域更精细的控制功能也将很快推出 : )
Google产品更新部署/工程
03:11
Chubby♨️@kimmonismus
10
当然,在今天的通讯中,我详细写了NVIDIA在Computex上发布的内容,然后重点介绍了MiniMax的M3。所有这些以及更多内容都在我的通讯里 :)

Superintelligence.: Today's Newsletter on Superintelligence has just been sent! Today's main article is: "🧠 MiniMax M3 Opens Frontier Agent...

行业动态部署/工程
01:41
Chubby♨️@kimmonismus
67
NVIDIA发布桌面级AI超级计算机DGX Station for Windows

NVIDIA发布了DGX Station for Windows,这是一款桌面级AI超级计算机,搭载新的GB300 Grace Blackwell Ultra Desktop Superchip。其核心规格包括72核Grace CPU与Blackwell Ultra GPU通过NVLink-C2C连接,提供最高748GB统一内存与20 petaflops FP4算力,可本地运行最高达1万亿参数的模型。该设备计划于2026年第四季度发货。同时,NVIDIA推出了开源运行时OpenShell,可在Windows系统层面为AI智能体构建安全沙箱。

NVIDIA Newsroom: Introducing NVIDIA DGX Station for Windows, the world's most powerful deskside AI supercomputer with Windows powered by ...

智能体产品更新端侧部署/工程
00:25
OpenRouter@OpenRouter
精选77
Auto Router 现在允许你调整其在成本与质量之间的权衡。 新增 `cost_quality_tradeoff` 参数,范围 0 到 10: 设为 0 时,它总是选择最强大的模型,无论价格如何。设为 10 时,最便宜的模型胜出。
产品更新部署/工程

推荐理由:OpenRouter 给 Auto Router 加了成本质量权衡参数,0 到 10,0 是最强模型不管价格,10 是便宜模型优先。做 AI 产品想自己控制成本线,这个参数比只靠自动判断实用很多,值得细调。
6月1日
23:42
Berryxia.AI@berryxia
62
FastClaw是一个面向云原生多租户场景的轻量级Agent运行框架。它通过存算分离的架构,让Agent无需常驻,而是根据请求动态挂载sandbox提供服务。实测显示,将托管服务从OpenClaw迁移到FastClaw后,服务器数量从18台降至3台,运营成本降至约1/6。此外,FastClaw代码体积约为OpenClaw的1/40,运行资源占用约为其1/7,支持单二进制分发和秒级启动。这个框架非常适合处理批量任务。

idoubi: 我年初开始做 OpenClaw 托管服务,在一套 k8s 集群部署了 500 个 Pod,每个 Pod 限制 4g 的运行内存。日常开着 18 台 4c16g 的服务器作为节点池,一个月成本将近 5k 刀。 几个月下来,托管服务的 MRR ...

智能体GitHub开源/仓库部署/工程
21:39
Rohan Paul@rohanpaul_ai
69
LobeHub发布AI代理调度平台"Chief Agent Operator"

LobeHub发布了名为“Chief Agent Operator”的平台。用户无需自行构建或提示代理,只需提出需求,平台便从一个拥有273,000个技能的市场中自动匹配、部署合适的AI智能体。这些智能体可在云端24/7运行,并通过Slack、Discord等IM工具汇报进展。该平台旨在解决当前工作流中需手动管理多个代理、重复提供上下文等问题,据称可节省超50%成本。其定位是作为统一调度层,管理如Claude Code、Cursor等各类AI代理工具的运作与结果回传。

智能体产品更新部署/工程
21:04
Alibaba Cloud@alibaba_cloud
58
阿里云近日在SAP Sapphire Madrid 2026上展示了最新里程碑,进一步深化我们的全球联盟。我们正在扩展用于SAP HANA的16TB RAM re8 ECS实例,并将通义千问大语言模型与Model Studio集成到SAP中,以赋能企业智能化。
行业动态部署/工程
18:02
SiliconFlow@SiliconFlowAI
57
OpenRouter上排名第一的编程智能体,现已入驻你的Discord服务器 分步设置、模型选择与专业技巧 以下是使用NousResearch Hermes Agent + SiliconFlow所需的一切 🧵
智能体教程/实践部署/工程
13:36
SemiAnalysis@SemiAnalysis_
56
黄仁勋ComputeX演讲被批缺乏AI新进展

演讲被评为黄仁勋最差之一,AI数据中心方面未发布新内容。仅宣布Windows on NVIDIA ARM CPU,但该转型被认为难以成功。NVIDIA笔记本芯片已比原计划延迟6-8个月,开发中因高速连接干扰导致视频输出完全故障。据报道,笔记本厂商被告知禁止开机或运行基准测试,暗示硬件不成熟。

大佬观点部署/工程
12:05
SemiAnalysis@SemiAnalysis_
68
突发新闻:黄仁勋刚刚宣布,微软已与其ODM合作伙伴富士康完成了首台Rubin VR200 NVL72机架的验证工作。黄仁勋还宣布晶圆级量产已启动。但需注意,机架级量产尚未开始,目前仍处于工程/质量样品阶段。
Microsoft行业动态部署/工程
08:41
Berryxia.AI@berryxia
63
GitHub开源项目挑战付费订阅模式

该推文指出,许多付费的AI工具和专业软件(如Bloomberg)是资本维持收入的机制。GitHub上已有10个开源项目可替代它们,提供免费、功能强大且支持自托管的选项。示例包括:AutoHedge(自主交易代理)、Vibe-Trading(金融技能与代理系统)、Fincept Terminal(Bloomberg替代品)、LibreChat(多模型聊天)以及Open Higgsfield AI(电影工作室)等。这些项目让用户能完全掌控自己的数据和控制权,将原本昂贵的订阅服务免费提供给普通人。

Harman: 10 GitHub repos so good they shouldn't be free. 1. AutoHedge An autonomous hedge fund built in Python with four AI agent...

智能体多模态开源/仓库部署/工程
07:28
Rohan Paul@rohanpaul_ai
28
对于轨道数据中心,太空有大量能源,但散热很难。没有对流,热量只能辐射出去,这需要很大的表面积。但这是可以解决的,因为"太空里有很多空间" ~ Nvidia CEO Jensen Huang
大佬观点部署/工程
04:25
SemiAnalysis@SemiAnalysis_
26
好奇L11诊断是什么意思吗?让我们把它拆解成两个部分:L11和诊断。(1/5)

Michael Dell 🇺🇸: We have the first @DellTech + @nvidia Vera Rubin NVL72 @CoreWeave. Here we go! 🚀

教程/实践部署/工程
5月31日
15:48
Rohan Paul@rohanpaul_ai
59
一些很酷的视觉效果。 戴尔向CoreWeave交付全球首个Nvidia Vera Rubin NVL72机架。 它包含72个Rubin GPU、36个Vera CPU、3.6 exaFLOPS的FP4推理性能、75 TB的快速内存和260 TB/s的NVLink带宽。

Michael Dell 🇺🇸: We have the first @DellTech + @nvidia Vera Rubin NVL72 @CoreWeave. Here we go! 🚀

推理行业动态部署/工程
15:16
StepFun@StepFun_ai
同事件精选80
阶跃星辰发布了Step 3.7 Flash,这是一款198B参数的视觉模型,旨在DGX Spark等桌面设备上运行。用户实测表明,128GB统一内存是运行门槛,模型占用约104GB。部署无需官方专用llama.cpp分支,主线版本即可。在上下文长度上存在权衡:启用视觉功能时,基于q8 KV cache的64K为上限;若要使用最高256K上下文,则需禁用视觉并切换至q4 KV cache,此时模型与缓存共占约114GB内存。该模型是推理模型,思考过程可能消耗大量max_tokens,需注意设置。

Sudo su: i am running stepfun's new step 3.7 flash on a dgx spark right now. 198b vision model, on a box that sits on a desk. her...

多模态教程/实践部署/工程
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》
推荐理由:把 198B 的视觉模型塞进一台桌面盒子,还跑通了,这本身就是个小里程碑。更关键的是,这篇实战直接帮你绕开了三个大坑,省下的三小时够你喝杯咖啡慢慢试了。
10:49
SemiAnalysis@SemiAnalysis_
61
突发新闻:CoreWeave与Dell是首个宣布其Rubin VR200 NVL72已完全通过L11诊断的云服务商。下一步是获取多个机架进行数周的烧机测试,并完成软件层面的启动工作,如SGLang、vLLM、Dynamo等。
推理行业动态部署/工程
05:19
SemiAnalysis@SemiAnalysis_
53
我们关于AI芯片严重短缺的系列报道中,一个贯穿始终的观点是,关于前沿产能的讨论已完全转变,而大多数主流加速器模型尚未跟上N3需求的实际走向。(1/4) 🧵
现象/趋势部署/工程
04:17
Rohan Paul@rohanpaul_ai
76
软银在法国投资750亿欧元建设欧洲最大AI算力设施

软银宣布在法国投资750亿欧元,旨在打造欧洲规模最大的AI算力设施。该计划旨在利用当地稳定廉价的核电。项目分阶段推进,第一阶段投资450亿欧元,目标是到2031年在法国北部-加来海峡大区建成3.1GW容量,随后再增加2GW,最终形成5GW的AI综合体。敦刻尔克是核心选址,施耐德电气预计参与建设AI基础设施及机器人制造中心。融资是潜在挑战,行业估算显示1GW的AI基础设施成本约为500亿美元,因此软银可能需要依赖大量项目债务和外部合作伙伴。

数据/训练行业动态部署/工程
00:34
Berryxia.AI@berryxia
51
小米MiMo-V2.5降价背后的技术重构

小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构,理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地,团队重新设计了KVCache管理、层级缓存和prefix-cache tree,并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证,有效KVCache容量提升了近5倍,服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用,显著降低了长上下文推理成本,从而支撑了本次降价。

Fuli Luo: Inference Optimizations Behind the MiMo-V2.5 Series API Price Reductions Read the full technical blog: https://mimo.xiao...

推理行业动态部署/工程
‹ 上一页
1…89101112…25
下一页 ›