If you are asking "Why push back against anti-datacenter efforts?" I consider it a tragedy that anti-nuclear efforts lar...
6️⃣ Things to Know about AI Engineer World's Fair 2026 - It's bigger than all previous AIEs - 4x Larger Expo with 4 Expo...
美国国会正在推进《Ratepayer Protection Act》,要求AI数据中心开发商承担新建电厂、输电线路和电网升级费用,而非转嫁给普通电力用户。法案鼓励各州设立“大负荷标准”,将高耗电数据中心单独分类,通过特殊关税、押金、担保或合同预先收费,防止普通家庭和企业补贴此类基础设施。科技公司此前已签署白宫承诺覆盖数据中心能源及输送基础设施,但该法案为各州提供了正式执行路径。这是首个将AI物理能耗成本内部化的联邦举措,可能使数据中心选址更侧重供电能力而非廉价土地。
Sky Computing Lab推出JetSpec,一种通过因果并行树草稿(causal parallel tree drafting)联合优化草稿成本与质量的推测解码方法,可将LLM生成延迟推向极致。在MATH-500上达到最高9.64x端到端加速,开放式聊天达4.58x,且保持无损。结合CUDA graph和kernel优化,在单B200上实现约1000 TPS。
We raised $8m to build self-healing software. In 2026, software moves fast. But monitoring and observability are still m...
IBM推出0.7nm芯片技术,采用新型nanostack架构将晶体管垂直堆叠,取代传统平面缩放。指甲盖大小面积可容纳近1000亿个晶体管,性能较其2nm节点提升50%,能效提升70%,SRAM缩小40%。该技术突破原子尺度工程极限,有望让AI芯片、手机、服务器等更快更省电。
If OpenClaw feels more like babysitting, you're not alone. Skip the daily crashes, leaked secrets, and constant monitori...
基于 Dify 异常分支的省钱小妙招 增加一个 openrouter/free 节点处理,异常时使用 flash 模型兜底,每天可以调用 1000 次
AI算力需求激增推动数据中心扩张,但真正的瓶颈可能并非芯片或能源生产,而是电网接入。OpenAI与SoftBank在德州的Stargate园区耗资超400亿美元,峰值负载约1.2吉瓦。然而美国电网并网等待时间中位数从2005年的不到20个月增至2023年的55个月。现行先到先得的审批机制导致严肃项目被投机项目阻塞。未来赢家可能不是拥有最佳模型或最多芯片的国家,而是能快速接入电网的国家。
阿里云发布面向AI智能体的约束基础设施(Constraint Infra),提供治理层解决Agent混乱问题。核心能力包括:通过Nacos热更新提示词与规则实现动态控制;支持token限制及多智能体安全的细粒度治理;已在生产环境验证,StarOps SRE智能体在该边界内安全运行高风险任务;通过AgentLoop数据飞轮驱动规则自我进化。
一款开源路由框架(非API售卖),让用户自行申请各厂商免费API密钥,通过配置实现自动负载均衡与故障切换,从而零成本使用10亿+免费LLM Token。操作极简:克隆仓库、填入密钥、将应用指向本地端点,30秒即可运行,无需手写回退逻辑。项目几周前刚发布,作者开放改进建议,GitHub链接见评论。
http://x.com/i/article/2069352641423896576
GLM-5.2 自带 MTP(推测性解码)头因采用 DSA(动态稀疏注意力),导致 vLLM、llama.cpp、mlx 等推理引擎难以支持。原始 bf16 精度需 1.5TB,4bit 量化仅 430GB。社区作者 dnhkng 制作了 GLM-5.2-AWQ-INT4-FP8-MTP-delta 魔改版:底座用 INT4(Marlin 算子)+ MTP 用 FP8,使 vLLM 支持 MTP,速度从 2 token/s 提升至 43.39 token/s(绑定 NUMA+MTP-3)。SGLang 因支持混合精度可直接使用 GLM-5.2-W4AFP8;llama.cpp 和 mlx 用户仍需等待社区适配。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
OpenAI 发布首颗自研 AI 芯片 "Jalapeño",专为 LLM 推理设计,与 Broadcom 合作生产。从设计到流片仅 9 个月,且由自身 AI 模型辅助设计。首批样片已到手,性能功耗比显著优于当前顶级加速器,Broadcom CEO 称性能媲美 NVIDIA Blackwell 与 Google TPU,同时成本降低约一半。目标 2026 年底实现吉瓦级部署,推理成本有望下降约 50%。该芯片将驱动 ChatGPT、Codex、API 及未来 Agent 产品,标志着 OpenAI 从模型公司向全栈 AI 基础设施公司转型。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
UPDATE: Fable 5 has now reportedly also reappeared in Amazon Bedrock Chat...
OpenAI发布首款自研AI芯片Jalapeño,专为ChatGPT、Codex、API及未来Agent产品的LLM推理设计,由Broadcom生产。从设计到流片仅用9个月,借助AI模型辅助设计。首批样片实测性能功耗比显著优于当前顶级加速器,Broadcom CEO称性能媲美NVIDIA Blackwell与Google TPU,成本减半。若2026年底实现吉瓦级部署,推理成本有望降低约50%。Jalapeño仅针对推理,训练仍依赖NVIDIA。此举标志OpenAI从模型公司向全栈AI基础设施公司转型。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
字节火山引擎大会上,洪定坤分享了AI开发的三个核心方法论:1. 原型驱动开发——用AI生成可交互原型替代PRD,提前暴露分歧。2. AI Development系统化——AI写Spec→功能实现→Browser Use验证→自动提交上线。3. Harness基建——上下文工程、架构约束、团队知识Memory、技术债梳理,能将可交付性从40~60分提升至80分。
OpenAI与Broadcom合作推出首款自研AI芯片Jalapeño(ASIC),专为ChatGPT、Codex、API及未来AI智能体产品的LLM工作负载设计。在已知工作负载下,Jalapeño比NVIDIA GPU更便宜、更快,通过减少数据移动、均衡计算/内存/网络资源实现更接近理论峰值的实际利用率,能效更优。该芯片从设计到流片仅用9个月,OpenAI自己的模型加速了部分设计工作。这标志着OpenAI从购买算力转向构建完整堆栈(模型、软件、服务器、网络、芯片)的战略转变。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
Notion 发布招聘帖,职位列表中找不到传统 Prompt Engineer,取而代之的是模型行为工程师、AI 评估师、AI 治理专员、客户体验知识架构师等工程化岗位,负责调优模型行为边界、评估输出质量、设计权限与审计体系。Notion 认为 AI 负责执行,人类负责定义价值,因此同步扩招销售、客户成功、知识架构师。实习生要求对艺术、历史、社会科学有兴趣,强调判断力。招聘帖采用 ASCII 艺术设计,获得高传播。
______ | We're hiring | |______| \ (•◡•) / \ / -- | | |_ |_ Open roles: → AI Applications Engineer → AI Conversation Des...
OpenAI 推出首款自研 AI 芯片 Jalapeño,专为 LLM 推理从零设计。从初始设计到流片仅用 9 个月,ChatGPT 参与了芯片设计,堪称高性能先进半导体领域最快的 ASIC 开发周期。该芯片由 Broadcom 和 Celestica 代工,针对 ChatGPT、Codex、API 及未来 Agent 产品的实际负载优化。早期样片已在实验室达到目标频率和功耗,成功运行 GPT-5.3-Codex-Spark 等 ML 负载;性能功耗比显著优于当前 SOTA,详细基准后续公布。部署计划于 2026 年底启动,战略上旨在减少对外部 GPU 依赖,加强对算力经济的控制。
OpenAI just unveiled Jalapeño, its first custom AI chip designed from scratch for LLM inference- It is OpenAI moving dee...
OpenAI 联合 Broadcom 与 Celestica 从零设计首款自研推理芯片 Jalapeño,9 个月完成流片,专为 LLM 推理优化,能效优于当前 SOTA。计划 2026 年底起以吉瓦级规模部署,用于 ChatGPT、Codex、API 及未来智能体产品。OpenAI 称这是“全栈优势”关键环节,通过自研芯片构建飞轮:更好基础设施→更高算力效率→更好训练与推理→更强模型→更好产品→更多使用与收入→再投入。推理芯片直接改善成本、速度与可靠性,是 AI 触达用户的环节。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
OpenAI 推出其首款自研 AI 芯片 Jalapeño,与 Broadcom 和 Celestica 合作构建,针对 ChatGPT、Codex、API 及未来智能体产品的工作负载优化。早期样品已在实验室以目标频率和功耗运行 ML 工作负载,包括 GPT-5.3-Codex-Spark。OpenAI 称每瓦性能显著优于当前最先进水平,详细基准稍后公布。部署计划于 2026 年底启动。此举旨在减少对外部 GPU 的依赖,增强对计算经济的控制,并强化模型、产品、收入与基础设施之间的飞轮效应。
https://openai.com/index/openai-broadcom-jalapeno-inference-chip/
阿里云数据安全中心(DSC)采用AI基础模型+专家模型+正则表达式的融合架构,取代传统规则驱动的数据分类。新方案支持800+种数据类型自动识别,具备上下文感知的准确率与召回率,实现毫秒级合规响应,并支持无缝云原生集成。
Andrew Ng分享了AI时代如何组织工程团队以加速:1到10人的团队由高度授权的通才组成,保持高语境。当代码生成速度大幅提升后,组织反而成为瓶颈——功能从想法到原型只需一天,迫使产品、设计、营销、法务等所有环节同步加速。他的解决方案是让少数高语境通才团队独立决策,避免跨部门翻译带来的延迟。源自LangChain YouTube频道。
NVIDIA Rubin AI 服务器用 45°C 水-乙二醇冷却液直接冷却芯片和网络部件,取代传统空气冷却。在适宜气候下,干式冷却器可替代冷却塔,设施冷却水用量从约 260 万加仑/MW/年降至接近零。液冷为闭环循环,不持续蒸发水。一个 50MW AI 设施每年可节省超 400 万美元冷却能源和水费。全液冷 Rubin 服务器还将系统从 6 个机架单元缩减至 2 个,在相同空间内容纳更多计算。引用 NVIDIA 数据称,数据中心用水仅占美国日常用水量的 0.2%,液冷却正大幅降低水耗并创造热量再利用机会。
Water usage has been a hot topic in the AI data center world, but the numbers may surprise you. According to the Manhatt...
the number of providers for glm 5.2 is insane. i count 20 of them.