We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
字节火山引擎大会上,洪定坤分享了AI开发的三个核心方法论:1. 原型驱动开发——用AI生成可交互原型替代PRD,提前暴露分歧。2. AI Development系统化——AI写Spec→功能实现→Browser Use验证→自动提交上线。3. Harness基建——上下文工程、架构约束、团队知识Memory、技术债梳理,能将可交付性从40~60分提升至80分。
OpenAI与Broadcom合作推出首款自研AI芯片Jalapeño(ASIC),专为ChatGPT、Codex、API及未来AI智能体产品的LLM工作负载设计。在已知工作负载下,Jalapeño比NVIDIA GPU更便宜、更快,通过减少数据移动、均衡计算/内存/网络资源实现更接近理论峰值的实际利用率,能效更优。该芯片从设计到流片仅用9个月,OpenAI自己的模型加速了部分设计工作。这标志着OpenAI从购买算力转向构建完整堆栈(模型、软件、服务器、网络、芯片)的战略转变。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
Notion 发布招聘帖,职位列表中找不到传统 Prompt Engineer,取而代之的是模型行为工程师、AI 评估师、AI 治理专员、客户体验知识架构师等工程化岗位,负责调优模型行为边界、评估输出质量、设计权限与审计体系。Notion 认为 AI 负责执行,人类负责定义价值,因此同步扩招销售、客户成功、知识架构师。实习生要求对艺术、历史、社会科学有兴趣,强调判断力。招聘帖采用 ASCII 艺术设计,获得高传播。
______ | We're hiring | |______| \ (•◡•) / \ / -- | | |_ |_ Open roles: → AI Applications Engineer → AI Conversation Des...
OpenAI 周三公布其首款自研推理处理器 Jalapeño,由 Broadcom 设计制造,专为推理系统优化,OpenAI 自身 AI 模型参与了芯片开发。早期测试显示能效比显著优于当前顶尖替代方案。该芯片旨在降低实时编码模型的运行成本,但预训练等高性能任务仍将依赖 Nvidia GPU。OpenAI 称此举使其能全栈优化芯片架构、内核、内存系统、调度等基础设施,以提升模型速度、可靠性和经济性。
OpenAI 推出首款自研 AI 芯片 Jalapeño,专为 LLM 推理从零设计。从初始设计到流片仅用 9 个月,ChatGPT 参与了芯片设计,堪称高性能先进半导体领域最快的 ASIC 开发周期。该芯片由 Broadcom 和 Celestica 代工,针对 ChatGPT、Codex、API 及未来 Agent 产品的实际负载优化。早期样片已在实验室达到目标频率和功耗,成功运行 GPT-5.3-Codex-Spark 等 ML 负载;性能功耗比显著优于当前 SOTA,详细基准后续公布。部署计划于 2026 年底启动,战略上旨在减少对外部 GPU 依赖,加强对算力经济的控制。
OpenAI just unveiled Jalapeño, its first custom AI chip designed from scratch for LLM inference- It is OpenAI moving dee...
6月24日,宁德时代与银河通用机器人签署全球战略合作协议,银河通用研发的重载人形机器人Galbot S1成为全球首款搭载宁德时代电池的具身智能常态化运营机器人。该机器人具备双臂50公斤级载重、纯视觉厘米级定位、360°全向避障能力;宁德时代电芯失效率达PPB级别,保障8小时超长续航与产线高安全性。目前Galbot S1已在宁德时代智慧产线中替代物料搬运、拣选等高强度人工。
高通宣布收购Modular,交易预计2026H2完成。Modular并非AI芯片硬件企业,而是为AI XPU提供高效软件堆栈的软件公司,其AI原生软件平台可在各类XPU上以业界领先性能运行AI模型,开发者和企业仅需一次构建,无需针对每种架构重写代码。高通将结合硬件领先地位与Modular的软件专业知识,帮助客户将AI从端侧迁移到云上,构建速度更快、效率更高、更易扩展的系统。
OpenAI 联合 Broadcom 与 Celestica 从零设计首款自研推理芯片 Jalapeño,9 个月完成流片,专为 LLM 推理优化,能效优于当前 SOTA。计划 2026 年底起以吉瓦级规模部署,用于 ChatGPT、Codex、API 及未来智能体产品。OpenAI 称这是“全栈优势”关键环节,通过自研芯片构建飞轮:更好基础设施→更高算力效率→更好训练与推理→更强模型→更好产品→更多使用与收入→再投入。推理芯片直接改善成本、速度与可靠性,是 AI 触达用户的环节。
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
OpenAI 推出其首款自研 AI 芯片 Jalapeño,与 Broadcom 和 Celestica 合作构建,针对 ChatGPT、Codex、API 及未来智能体产品的工作负载优化。早期样品已在实验室以目标频率和功耗运行 ML 工作负载,包括 GPT-5.3-Codex-Spark。OpenAI 称每瓦性能显著优于当前最先进水平,详细基准稍后公布。部署计划于 2026 年底启动。此举旨在减少对外部 GPU 的依赖,增强对计算经济的控制,并强化模型、产品、收入与基础设施之间的飞轮效应。
https://openai.com/index/openai-broadcom-jalapeno-inference-chip/
OpenAI 部署负责人 Arnaud Fournier 在采访中透露,DeployCo 团队正通过派驻自家工程师将 AI 深度嵌入大型企业。他称 Codex 正经历爆发式增长,客户反馈已直接回传至模型开发环节,并指出 AI 智能价格已大幅下降。
OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño,专为当前及未来 LLM 从头设计。早期测试显示,其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT‑5.3‑Codex‑Spark 等负载。芯片从设计到流片仅用 9 个月,并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心,推出多代计算平台。
中科曙光 ParaStor F9000 分布式全闪存储系统在 ISC High Performance 2026 上包揽 IO500 生产型总榜与 10 节点挑战榜双项冠军,刷新世界纪录。该系统已在数万卡集群中稳定运行超一年,支持千亿参数大模型部署时间缩短 1 倍、训练效率提升 50%。联合龙讯旷腾 MatPL 及 scaleX 万卡算力平台,完成 414.7 亿原子规模的液态水分子动力学模拟(第一性原理级精度),超越此前 290 亿原子纪录,在 4096 张异构加速卡并行下完成。同期展出 scaleX AI 超集群、全栈自研 400G 无损高速网络 scaleFabric 等产品。
日月光投控 COO 吴田玉在股东会上透露,2025 年先进封装营收 502 亿新台币,封测占比从 6% 升至 13%;预计今年先进封测营收翻倍。2026-2027 年支出维持高位,旗下日月光、矽品今年共开发 15 个厂区(含 2 个外购)。业界首条 310mm PLP 先进封装自动化产线最快 2026 年底量产。
火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施,构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块,实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系,Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库,支持IDP/SSO/OAuth及飞书、钉钉等IM入口统一管控。实践案例:海底捞门店经营Agent将小时级工作压缩到分钟级,人工跟进时长缩减70%,巡检满意度提升50%;创维酷开借助ArkClaw终端版打造AIOS,Token消耗节省50%,支撑百万级终端。
三星电子扩大员工对ChatGPT Enterprise和Codex的访问权限,使员工更广泛地将AI工具用于技术与非技术工作。该部署覆盖韩国所有三星电子员工及全球所有Device eXperience员工,DX部门涵盖智能手机、消费电子和家电。
火山引擎在FORCE大会上提出企业Agent落地“1+N+X”体系:“1”是AgentSphere数字员工派遣站,“N”是开箱即用应用,“X”是基于TRAE、扣子、HiAgent持续进化的业务应用。TRAE企业版上线TRAE Work,实现一个账号切换IDE与办公端、一个后台统一管理,内部开发94%代码由AI贡献。亚信科技应用后单人日均节省约1.8小时,代码贡献率提升42%,千行代码缺陷率降低35%。扣子升级3.0,强化多端协同与行业知识沉淀。HiAgent 3.0构建开发-运行-管理闭环,引入Learning Loop实现Agent持续进化。某车企经AgentSphere统一纳管后,活动筹备周期从4周压缩至5个工作日,效率提升约3.5倍。
阿里云数据安全中心(DSC)采用AI基础模型+专家模型+正则表达式的融合架构,取代传统规则驱动的数据分类。新方案支持800+种数据类型自动识别,具备上下文感知的准确率与召回率,实现毫秒级合规响应,并支持无缝云原生集成。
字节跳动正与多家银行磋商,寻求一笔约 200 亿美元(约合 1360.08 亿元人民币)的海外贷款,期限 3 年并附带延长期权,最长可至 5 年。若传闻属实,这将是字节跳动历史上规模最大的离岸融资项目,资金将为其 AI、云计算扩展提供支持。
百度千帆发布企业级AI生产力订阅服务Token Plan企业版,采用“席位制+企业共享积分包”模式,支持按需采购席位、统一额度池共享调度,并提供成员管理、用量统计、告警等运营能力。模型方面聚合DeepSeek-V4系列、GLM-5系列、Kimi-K2.6等,已率先接入智谱GLM-5.2,开箱即用。提供轻享版、标准版、高级版等多档位,承诺不使用用户数据训练,支持企业级SLA。
马斯克在 X 平台确认,SpaceX 轨道 AI 数据中心项目正式定名为 Starmind,xAI 已注册该商标。SpaceX 于 2026 年 1 月 30 日向美国联邦通信委员会提交申请,计划发射最多 100 万颗计算卫星部署于近地轨道。首代硬件 AI1 卫星高 20 米、翼展 70 米,单颗平均提供 120 kW 算力、峰值 150 kW,接近地面现代 AI 服务器机架。Starmind 卫星通过高速光学链路连接 Starlink,再由星链中继数据到地面站。
DFlash 由 UC San Diego 团队提出,是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token,再由目标模型并行验证,保证输出无损。相比 EAGLE-3,DFlash 实现最高 2.5 倍加速,在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍(MATH-500 达 6.08×)。在 NVIDIA Blackwell 上(TensorRT-LLM),gpt-oss-120b 模型吞吐量提升最高 15 倍,约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影,使接受长度随草稿深度增长。
蚂蚁 ASystem Core 与 SGLang-JAX 团队在 TPU v7x 上优化了 1T 参数稀疏 MoE 模型 Ling-2.6-1T 的推理性能。核心是 Fused MoE V2 Pallas kernel,将 scatter、expert FFN 和 gather 合并,通过计算与数据搬运重叠降低延迟。相比 V1,MoE prefill latency 从 5.16 ms 降至 2.42 ms(降 53%),decode kernel latency 从 0.249 ms 降至 0.211 ms。仅替换 MoE kernel 即可使 prefill throughput 提升 24.8%,decode throughput 提升 18.5%–35.3%。在 SGLang decode benchmark 下,16 颗 TPU v7x 的 output throughput 达到 16 张 H200 的 1.29x–1.77x。该工作还完整支持 hybrid backbone,包括 hybrid KV/recurrent memory pools、GLA linear attention 及 single-controller data parallelism。
华为宣布将在 WAIC 2026(7 月 17 日-7 月 20 日)首次展出业界最大规模超节点 Atlas 950 SuperPoD 真机,该产品以单柜 64 卡为基本单元,最大支持 8192 张 NPU 卡高速互联,全局统一内存编址,加速万亿参数大模型训练与推理。同期展示 Atlas 850E 风冷超节点真机,采用升级 VCE 散热技术,为 Agentic 推理提供高吞吐、低时延体验。昇腾 AI 基础软件开源开放,兼容第三方训练加速库等;超节点已在互联网、运营商等 11 大行业规模部署。
阿里云公告称,QoderWork 推出“峰谷 Token”,每晚 22:00 至次日 08:00 运行可自动享受优惠,其中 Qwen3.7-Max 模型低至 2 折。夜间折扣覆盖 QoderWork、QoderDesktop、CLI 等产品。用户可白天设置定时任务或睡前提交长程指令,由 Agent 在夜间自动执行,积分消耗仅为白天的 20%-40%。QoderWork 是阿里于 2026 年 1 月推出的桌面 AI 智能体工具,支持自然语言操作本地应用和文件,已服务全球超 500 万用户。
Andrew Ng分享了AI时代如何组织工程团队以加速:1到10人的团队由高度授权的通才组成,保持高语境。当代码生成速度大幅提升后,组织反而成为瓶颈——功能从想法到原型只需一天,迫使产品、设计、营销、法务等所有环节同步加速。他的解决方案是让少数高语境通才团队独立决策,避免跨部门翻译带来的延迟。源自LangChain YouTube频道。
NVIDIA Rubin AI 服务器用 45°C 水-乙二醇冷却液直接冷却芯片和网络部件,取代传统空气冷却。在适宜气候下,干式冷却器可替代冷却塔,设施冷却水用量从约 260 万加仑/MW/年降至接近零。液冷为闭环循环,不持续蒸发水。一个 50MW AI 设施每年可节省超 400 万美元冷却能源和水费。全液冷 Rubin 服务器还将系统从 6 个机架单元缩减至 2 个,在相同空间内容纳更多计算。引用 NVIDIA 数据称,数据中心用水仅占美国日常用水量的 0.2%,液冷却正大幅降低水耗并创造热量再利用机会。
Water usage has been a hot topic in the AI data center world, but the numbers may surprise you. According to the Manhatt...
the number of providers for glm 5.2 is insane. i count 20 of them.
甲骨文(Oracle)在最近12个月内裁员13%,员工数从16.2万降至14.1万,并在年度SEC 10-K文件中将AI部署列为部分原因。同期重组费用从3.74亿美元飙升至18亿美元,资本支出增长162%至557亿美元,自由现金流转为负237亿美元。
Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进行实验。
Introducing Claude Tag, a new way for teams to work with Claude. In Slack, Claude joins as a team member with access to ...
Most underrated data source in a company: your AI agent's conversations. Your agent talks to more customers than any emp...
Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。私有频道拥有独立身份,记忆和访问不跨频道流转;公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计,允许频道成员通过 Claude 访问已授权工具和数据,同时通过按身份撤销简化权限管理。