AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
6月26日周五
00:00Google Research:Blog(网页)55精选冻结多token预测加速Pixel上的Gemini Nano模型
00:00LMSYS:Blog(Chatbot Arena 团队)58精选SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡
6月25日周四
23:24elvis20Hyperagent:AI智能体专属云端机器解决本地运行难题
22:58IT之家(RSS)42MWC上海2026开幕,华为携手运营商发布5G-A与U6GHz等创新成果
21:20ginobefun62FreeLLMAPI 白嫖 1.3B token,还可自定义策略
20:35Chubby♨️54AI数据中心扩张的真正瓶颈:电网接入
20:11The Verge:AI(RSS)55福特因过度依赖自动化系统召回前工程师修复错误
20:07TechCrunch:AI(RSS)52亚马逊在印度追加130亿美元投资AI基础设施
19:58IT之家(RSS)54英伟达黄仁勋:AI基建周期长达数十年,将成人类史上最大基建项目
19:30公众号:百度智能云(文心)40浦发银行携手百度智能云:超2500个金融智能体上岗,覆盖营销风控等核心场景
18:13HuggingFace Daily Papers(社区热门论文)67开放权重LLM中的约束代价:结构化输出约束下工具调用抑制的实证研究
17:58IT之家(RSS)48联想发布问天超节点算力解决方案及万全异构智算平台V5.0
16:58IT之家(RSS)53亚马逊追加130亿美元投资,2030年前在印总投资达480亿美元
16:58IT之家(RSS)57月之暗面黄震昕:Kimi B端业务占比持续提升,目标与海外三家模型掰手腕
15:58IT之家(RSS)45康宁推出玻璃基光互连技术 Glass Bridge,瞄准下一代 AI 数据中心架构
15:54Alibaba Cloud37阿里云推出AI智能体安全约束基础设施
14:07Artificial Intelligence News(RSS)53OpenAI Jalapeño芯片背后的成本逻辑
11:58IT之家(RSS)48Saint-Gobain 巴赞谈美国 AI 基建:"有钱,没电没人"
11:22AK38GLM 5.2 超300次请求仅34美元
11:14AYi71免费LLM路由工具:零成本撸10亿+Token
10:19ginobefun61Dify异常分支免费节点兜底省钱法
09:58IT之家(RSS)41高通推出 Dragonfly 数据中心产品组合:HBC 架构、C1000 CPU、AI300 推理加速器
08:37TechCrunch:AI(RSS)59欧洲反击华盛顿芯片战:荷兰部长访美反对MATCH法案
08:21swyx 🔜 @aiDotEngineer19软件工厂时代需重建海量基础设施
08:08Simon Willison 博客69browser-compat-db:将 MDN 浏览器兼容性数据转为 SQLite 数据库
08:00HuggingFace Daily Papers(社区热门论文)44聚类、路由、升级:面向成本感知的LLM服务的级联框架
08:00HuggingFace Daily Papers(社区热门论文)54JetSpec:基于因果并行草稿头的推测解码框架
07:59Hacker News 热门(buzzing.cc 中文翻译)51PostHog工程师用多个并行Claude Code会话重写SQL解析器,速度提升70倍
07:29Hacker News 热门(buzzing.cc 中文翻译)69高通将收购Modular
06:59Hacker News 热门(buzzing.cc 中文翻译)36NVIDIA 45C冷却设计将数据中心用水量降至接近零
06:55Ars Technica:AI(RSS)54OpenAI与Broadcom联合发布定制芯片Jalapeño,专为大语言模型推理设计
04:54karminski-牙医50GLM-5.2 魔改版让 vLLM 支持推测性解码,速度飙升至 43 token/s
02:59Hacker News 热门(buzzing.cc 中文翻译)57OpenAI 发布首款定制芯片 Jalapeño,由博通制造
01:47Tibo65OpenAI 首款自研 AI 芯片 Jalapeño 发布
01:32Tomer Tunguz 博客(VC 分析)32防御AI驱动的攻击者
01:29Hacker News 热门(buzzing.cc 中文翻译)69OpenAI 与博通推出 LLM 推理优化芯片
01:18Berryxia.AI63OpenAI 自研 AI 芯片 Jalapeño 正式发布
01:04Chubby♨️42Fable 5 重现 Amazon Bedrock
00:20SemiAnalysis49Chat 9个月芯片设计到流片零失误
00:18Berryxia.AI66OpenAI发布首款自研AI芯片Jalapeño
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月26日
00:00
Google Research:Blog(网页)
精选55
冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。

Google推理端侧论文/研究

推荐理由:谷歌这篇技术博客值得端侧开发者细读,他们把多令牌预测硬是装进了已部署的 Nano 模型,Pixel 上生成加速五成,还省了 130MB 内存,零拷贝架构的想法挺巧,但没法直接复现,主要是开脑洞用的。
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选58
SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡

SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法:Waterfill 将共享专家分配给负载更低的 rank,在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%,在 DeepSeek V4 上最佳点从 49,253 tok/s 提升至 51,677 tok/s(+4.92%);LPLB 基于线性规划优化冗余专家副本的 token 路由,配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。

产品更新推理部署/工程

推荐理由:SGLang 引入 Waterfill 和 LPLB 两种负载均衡算法,实测 DeepSeek V3/R1 和 V4 吞吐提升最高 7%,用 SGLang 跑 MoE 推理的开发者值得一试。
6月25日
23:24
elvis@omarsar0
20
Hyperagent 为每个 AI 智能体提供专用云端机器,托管基础设施,无需笔记本常开也能持续运行。针对 OpenClaw 等本地框架常见的问题(每日崩溃、泄露秘密、频繁监控),Hyperagent 提供稳定安全替代方案。限时优惠:注册即获 $100 推理积分,迁移首个智能体再获 $500。

Andrew Busse: If OpenClaw feels more like babysitting, you're not alone. Skip the daily crashes, leaked secrets, and constant monitori...

智能体行业动态部署/工程
22:58
IT之家(RSS)
42
MWC上海2026开幕,华为携手运营商发布5G-A与U6GHz等创新成果

为期三天的2026上海世界移动通信大会6月24日开幕。华为轮值董事长汪涛发表演讲。展会期间,华为携手中国移动、中国联通、中国电信发布5G-A大上行、AI焕新主营业务、Token经营等创新成果,并发布AI-Centric目标网。5G-A用户数已破亿。U6GHz被认定为下一代频谱,超20个国家和地区已明确用于国际移动通信;2026年是U6GHz商用元年,中东、中国香港、中国澳门等将启动商用部署。中国移动与华为的无线网络智能化方案获“亚洲最佳AI驱动网络解决方案奖”等两项大奖,已在六大省市试点,网络质差工单自动闭环率提升至15%,额外节能增益达5.5%。

行业动态部署/工程
21:20
ginobefun@hongming731
62
开发者 @hongming731 分享使用 FreeLLMAPI 项目"光明正大白嫖",已累计消耗约 1.3B token,支持自定义策略。此外,他还提出基于 Dify 异常分支的省钱方法:增加一个 openrouter/free 节点,当异常时使用 flash 模型兜底,每天可免费调用 1000 次。

ginobefun: 基于 Dify 异常分支的省钱小妙招 增加一个 openrouter/free 节点处理,异常时使用 flash 模型兜底,每天可以调用 1000 次

MCP/工具教程/实践部署/工程
20:35
Chubby♨️@kimmonismus
54
AI数据中心扩张的真正瓶颈:电网接入

AI算力需求激增推动数据中心扩张,但真正的瓶颈可能并非芯片或能源生产,而是电网接入。OpenAI与SoftBank在德州的Stargate园区耗资超400亿美元,峰值负载约1.2吉瓦。然而美国电网并网等待时间中位数从2005年的不到20个月增至2023年的55个月。现行先到先得的审批机制导致严肃项目被投机项目阻塞。未来赢家可能不是拥有最佳模型或最多芯片的国家,而是能快速接入电网的国家。

OpenAI现象/趋势部署/工程
20:11
The Verge:AI(RSS)
55
福特因过度依赖自动化系统召回前工程师修复错误

福特近日首次登顶JD Power初始质量排名主流车企第一,但承认过度依赖自动化系统导致质量问题。福特车辆硬件工程副总裁表示,公司错误认为引入AI就能产出高质量产品,但资深工程师的经验未能完全转移至自动化系统。为此,福特雇佣、晋升或召回超350名经验丰富的工程师重建专业知识层,并改进数据采集与AI训练。同时成立40人软件质量保证团队,新增超10万项AI驱动测试,从“发现-修复”转向预防问题。

数据/训练现象/趋势部署/工程
20:07
TechCrunch:AI(RSS)
52
亚马逊在印度追加130亿美元投资AI基础设施

亚马逊周四宣布,到2030年将在印度追加130亿美元,用于扩建AWS在孟买和海得拉巴的数据中心容量。这是亚马逊三年内对印度的第三项重大承诺:2023年承诺投资150亿美元(含127亿美元AWS),2025年12月承诺超350亿美元,目前在印总投资承诺累计达480亿美元。微软12月承诺2029年前投资175亿美元,谷歌10月承诺150亿美元建设AI枢纽和数据中心。亚马逊今年还将在印新增20多个物流中心和100多个末端配送站,并计划将即时零售服务Amazon Now扩展至300多个城镇。

行业动态部署/工程
19:58
IT之家(RSS)
54
英伟达黄仁勋:AI基建周期长达数十年,将成人类史上最大基建项目

英伟达CEO黄仁勋在年度股东大会上表示,人工智能代表计算模式的根本性转变,从检索存储转向生成智能。Token是智能的基本单位,在“AI工厂”中被制造,计算能力越强,生成的Token越多,收益越丰厚。AI基础设施建设周期将长达数十年,类比电网、交通系统和互联网,有望成为人类历史上规模最大的基建项目。AI智能体正在加速投资,因为AI首次能胜任实质性工作并创造真实经济价值。

大佬观点部署/工程
19:30
公众号:百度智能云(文心)
40
浦发银行携手百度智能云:超2500个金融智能体上岗,覆盖营销风控等核心场景

浦发银行全行已上线超2500个金融智能体,近200个深度嵌入真实业务流程,覆盖营销、风控、运营等核心场景。智能体采用低代码与高代码结合、商用与开源模型互补的研发模式,并首创“三态管理”(创设、发布、运行)适配金融强监管。财报智能识别分析智能体将企业财报录入、校验与分析流程从数小时压缩至分钟级。百度智能云提供四层金融AI基础设施,包括昆仑芯国产芯片、异构算力平台、金融专精大模型及全流程AI治理平台。浦发银行计划推出面向C端的数字客户经理与数字分身,以对话交互实现“对话即服务”。

智能体行业动态部署/工程
18:13
HuggingFace Daily Papers(社区热门论文)
67
开放权重LLM中的约束代价:结构化输出约束下工具调用抑制的实证研究

当同时启用Tool Calling与JSON Schema约束时,多个开放权重LLM出现工具调用抑制(Tool Suppression)。控制实验在多模型与部署设置下复现了该现象。分析表明,JSON Schema约束被编译成基于语法的token掩码,导致工具调用token在解码中不可达。研究提出约束优先级反转(CPI)假设,并设计透明两遍执行(Transparent Two-Pass Execution)推理策略,将工具执行与模式约束响应生成解耦,无需重训练即可恢复工具调用并维持结构化输出。结果表明,单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。

智能体论文/研究部署/工程
17:58
IT之家(RSS)
48
联想发布问天超节点算力解决方案及万全异构智算平台V5.0

联想昨日发布问天超节点算力解决方案,单节点可搭载40张GPU,FP8算力超28 PFLOPS,HBM显存突破5.76 TB,访存总带宽超80TB/s,百纳秒级芯片P2P单向时延,支持40卡/32卡配置,采用无线缆正交直插架构,兼容标准19英寸机箱,部署周期压缩至数小时。同时发布的万全异构智算平台V5.0升级两大技术:集群训推加速技术通过分层解耦PD分离架构和KV Cache共享缓存优化提升资源利用率;芯模编译优化技术实现计算图自适应匹配与算子自动生成,适配多元算力芯片生态。

产品更新数据/训练部署/工程
16:58
IT之家(RSS)
53
亚马逊追加130亿美元投资,2030年前在印总投资达480亿美元

6月25日,亚马逊CEO安迪·贾西与印度总理莫迪会面,宣布追加130亿美元投资,用于在印度扩建AI及云基础设施,期限至2030年。2026年至2030年,亚马逊在印总投资达480亿美元,其中AI及云领域规划投入超210亿美元。新增投资将扩展AWS在孟买和海得拉巴的数据中心容量,提供Trainium定制AI芯片、Amazon Bedrock等服务。亚马逊还承诺到2030年支持超380万个就业岗位,助力实现800亿美元电子商务出口,使1500万家小企业和400万公立学校学生受益。

行业动态部署/工程
16:58
IT之家(RSS)
57
月之暗面黄震昕:Kimi B端业务占比持续提升,目标与海外三家模型掰手腕

6月25日,月之暗面B端负责人黄震昕透露,Kimi B端业务占比持续提升,覆盖互联网、金融、制造、教育、医疗等行业,海外业务快速增长。目前员工仅300多人,资源配置最高优先级仍在模型研发层,最终目标与OpenAI、谷歌、Anthropic竞争。用户对高性能Token愿意支付溢价,模型厂商通过Cache命中率优化与推理优化对冲成本,Kimi原厂服务Cache命中率已超90%。6月12日,月之暗面开源Kimi K2.7 Code模型,相比K2.6提升了长上下文编程指令遵循与长程任务性能,平均token消耗减少30%。

行业动态部署/工程
15:58
IT之家(RSS)
45
康宁推出玻璃基光互连技术 Glass Bridge,瞄准下一代 AI 数据中心架构

康宁在“AI 数据中心光通信与互连技术大会”推出玻璃基光互连技术 Glass Bridge,可直接连接光子集成电路(PIC)与光纤,用于共封装光学(CPO)和玻璃芯半导体封装。该技术通过晶圆级离子交换波导制备光通路,解决片上波导与光纤纤芯尺寸差问题。初期支持芯片核心间距 30 微米及以上,耦合损耗目标低于 2 dB,单连接器支持超 24 个光学通道,接口基于标准 TMT 物理接触式设计。同时发布 GlassWorks AI 光通信平台,已与 Meta、英伟达、亚马逊等签订数十亿美元长期供应协议。

产品更新部署/工程
15:54
Alibaba Cloud@alibaba_cloud
37
阿里云推出AI智能体安全约束基础设施

阿里云发布面向AI智能体的约束基础设施(Constraint Infra),提供治理层解决Agent混乱问题。核心能力包括:通过Nacos热更新提示词与规则实现动态控制;支持token限制及多智能体安全的细粒度治理;已在生产环境验证,StarOps SRE智能体在该边界内安全运行高风险任务;通过AgentLoop数据飞轮驱动规则自我进化。

智能体产品更新部署/工程
14:07
Artificial Intelligence News(RSS)
53
OpenAI Jalapeño芯片背后的成本逻辑

OpenAI与Broadcom合作开发的ASIC芯片Jalapeño专为大语言模型推理设计,旨在降低对Nvidia硬件的依赖。OpenAI提供架构,Broadcom负责硅工程,TSMC制造,Celestica构建板卡系统。早期样品已运行未发布的GPT-5.3-Codex-Spark模型,达到目标频率和功耗。芯片集成Broadcom Tomahawk网络硅,通过最小化数据移动提高实际利用率。去年ChatGPT成本84亿美元,今年预计达140亿美元,周用户9亿。公司未来八年承诺约1.4万亿美元计算投入,年收入250亿美元。

OpenAI产品更新推理部署/工程
11:58
IT之家(RSS)
48
Saint-Gobain 巴赞谈美国 AI 基建:"有钱,没电没人"

Saint-Gobain 首席执行官贝努瓦·巴赞接受 Bloomberg TV 采访时指出,北美数据中心项目已受技能人才短缺影响,欧洲也开始出现同类问题。AI 基建落地需要电工、高压技术员、光纤安装工、暖通专家等专业岗位,普通商业建筑队伍无法胜任,相关技能需多年培训积累,即便资金充裕也难以快速推进。此外,电力供应仍是首要约束,电网、变电站、变压器及并网能力均承受压力。

现象/趋势部署/工程
11:22
AK@_akhaliq
38
通过 HF 推理提供商的 hf-claude,超过 300 次 GLM 5.2 请求仅花费 34 美元。
Hugging Face其他部署/工程
11:14
AYi@AYi_AInotes
71
免费LLM路由工具:零成本撸10亿+Token

一款开源路由框架(非API售卖),让用户自行申请各厂商免费API密钥,通过配置实现自动负载均衡与故障切换,从而零成本使用10亿+免费LLM Token。操作极简:克隆仓库、填入密钥、将应用指向本地端点,30秒即可运行,无需手写回退逻辑。项目几周前刚发布,作者开放改进建议,GitHub链接见评论。

AYi: http://x.com/i/article/2069352641423896576

产品更新开源生态部署/工程
10:19
ginobefun@hongming731
61
基于 Dify 异常分支的省钱小妙招 增加一个 openrouter/free 节点处理,异常时使用 flash 模型兜底,每天可以调用 1000 次
教程/实践部署/工程
09:58
IT之家(RSS)
41
高通推出 Dragonfly 数据中心产品组合:HBC 架构、C1000 CPU、AI300 推理加速器

高通在投资者日发布 Dragonfly 方案,含 HBC 分离式架构(2D 基板+TSV 堆叠 LPDDR DRAM,能效与 TCO 优于 HBM)、C1000 CPU(250+ Oryon 内核、>5GHz,能效达竞品 2 倍,2028 年上市)及 AI300 推理平台(HBC Gen 2,每 W 带宽较今天 GPU 提升 4~8 倍,有效内存带宽为 AI200 的 54 倍,2028 年送样)。HBC Gen 1 的 AI250 加速器单卡读写 133TB/s,有效带宽为 AI200 的 18 倍,2027 年中启动样品测试。高通另提供芯片设计服务与 800G/1.6T 互连方案。

产品更新推理部署/工程
08:37
TechCrunch:AI(RSS)
59
欧洲反击华盛顿芯片战:荷兰部长访美反对MATCH法案

荷兰贸易部长Sjoerd Sjoerdsma本周访问华盛顿,与商务部长及国会议员会面,反对MATCH法案。该法案将禁止中国芯片制造商获取西方半导体设备,尤其影响荷兰ASML——全球唯一生产尖端光刻机的公司。中国占ASML净系统销售额的19%。MATCH法案在现有禁令基础上进一步限制深紫外浸没式设备出口,此前已禁止最先进的极紫外(EUV)工具对华出口。ASML CEO表示中国目前可购买的是约十年前出货的老一代深紫外工具。法案于4月提出,尚未在众议院或参议院全院表决。

政策/监管部署/工程
08:21
swyx 🔜 @aiDotEngineer@swyx
19
我们将不得不为软件工厂时代重建大量基础设施。

Zach Lloyd: http://x.com/i/article/2069756055639281664

大佬观点部署/工程
08:08
Simon Willison 博客
69
browser-compat-db:将 MDN 浏览器兼容性数据转为 SQLite 数据库

Simon Willison 受 Mozilla 新 MDN MCP 服务启发,将 mdn/browser-compat-data 的浏览器兼容性数据转为 SQLite 数据库。他用 Claude Code for web (Opus 4.8) 生成基于 sqlite-utils 的转换脚本,再用 Codex Desktop (GPT-5.5) 编写 GitHub Actions 工作流,将约 66MB 数据库 force-push 到仓库的 db 孤立分支,使其可通过 GitHub CDN 访问并附带开放 CORS 头。用户可直接下载或通过 Datasette Lite 在线探索。

GitHubMCP/工具开源/仓库部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
44
聚类、路由、升级:面向成本感知的LLM服务的级联框架

提出一种两阶段级联方案,用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型;第二阶段引入质量估计(QE)级联,将低质量输出升级至更强模型。在测试集上,该系统保留了最强模型97-99%的准确性,同时降低了每个输出token的时间(TPOT)。仅需任务正确性标签即可适应模型池变化,无需手动重新配置。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
54
JetSpec:基于因果并行草稿头的推测解码框架

JetSpec 是一种头部驱动推测解码框架,通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头,生成与自回归因子分解对齐的候选树,从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中,JetSpec 一致优于双向头和树形基线。在 H100 GPU 上,MATH-500 达 9.64 倍加速,开放对话达 4.58 倍;经 vLLM 集成在现实服务负载下进一步降低延迟。

arXivGitHub开源生态推理
07:59
Hacker News 热门(buzzing.cc 中文翻译)
51
PostHog工程师用多个并行Claude Code会话重写SQL解析器,速度提升70倍

PostHog工程师使用多个并行的长时Claude Code会话重写了公司的SQL解析器,将解析速度提升约70倍。新解析器包含16K行解析器代码和5K行工具代码。原始解析器基于ANTLR生成,采用图遍历解释器,性能受限;新解析器采用手动编写的递归下降解析器配合Pratt表达式循环,仅在必要时引入前瞻与回溯。开发过程中通过属性测试(Hypothesis)确保与原始C++解析器在真实查询上的等价性。

教程/实践编码部署/工程
07:29
Hacker News 热门(buzzing.cc 中文翻译)
69
高通将收购Modular

6月24日,高通宣布将收购Modular,具体交易条款尚未披露。该消息在Hacker News上获得102个点赞。

行业动态部署/工程
06:59
Hacker News 热门(buzzing.cc 中文翻译)
36
NVIDIA 45C冷却设计将数据中心用水量降至接近零

NVIDIA 推出的 45C 冷却设计将数据中心用水量降至接近零,大幅降低水资源消耗。该方案源自 NVIDIA 官方博客。

教程/实践部署/工程
06:55
Ars Technica:AI(RSS)
54
OpenAI与Broadcom联合发布定制芯片Jalapeño,专为大语言模型推理设计

OpenAI与Broadcom宣布推出名为Jalapeño的定制ASIC芯片,专为数据中心大规模大语言模型推理设计。该芯片基于OpenAI研究人员提供的洞察及未来模型路线图,研发耗时9个月。早期测试显示其能效显著优于当前最先进方案,但完整性能数据尚未公布,详细技术报告将在未来数月内发布。该项目旨在通过垂直整合降低对Nvidia等外部供应商的依赖,首批芯片计划于今年年底部署到数据中心。

OpenAI行业动态部署/工程
04:54
karminski-牙医@karminski3
50
GLM-5.2 魔改版让 vLLM 支持推测性解码,速度飙升至 43 token/s

GLM-5.2 自带 MTP(推测性解码)头因采用 DSA(动态稀疏注意力),导致 vLLM、llama.cpp、mlx 等推理引擎难以支持。原始 bf16 精度需 1.5TB,4bit 量化仅 430GB。社区作者 dnhkng 制作了 GLM-5.2-AWQ-INT4-FP8-MTP-delta 魔改版:底座用 INT4(Marlin 算子)+ MTP 用 FP8,使 vLLM 支持 MTP,速度从 2 token/s 提升至 43.39 token/s(绑定 NUMA+MTP-3)。SGLang 因支持混合精度可直接使用 GLM-5.2-W4AFP8;llama.cpp 和 mlx 用户仍需等待社区适配。

推理教程/实践部署/工程
02:59
Hacker News 热门(buzzing.cc 中文翻译)
57
OpenAI 发布首款定制芯片 Jalapeño,由博通制造

OpenAI 本周三发布首款定制推理处理器 Jalapeño,由博通制造,OpenAI 自有 AI 模型参与了芯片开发。该芯片专为推理系统设计,早期测试显示单位功耗性能显著优于当前业界替代方案,运行实时编码模型时运营成本低。此举旨在降低对 NVIDIA GPU 的依赖,并优化 Codex 等 Agent 产品及底层基础设施。OpenAI 正从芯片架构、内核、内存系统到部署体验进行全栈协同优化,以使模型更快、更可靠、更经济。

OpenAI产品更新推理部署/工程
01:47
Tibo@thsottiaux
65
OpenAI 设计并制造了其首款 AI 芯片:Jalapeño。该芯片由 OpenAI 从零设计,与 Broadcom 合作量产,专为支撑 ChatGPT、Codex、API 及未来智能体产品的大语言模型工作负载而打造。芯片是 AI 经济的基础,自研芯片扩展了 OpenAI 从产品到模型再到基础设施的全栈平台,将助力扩展智能、服务更多人、并扩大 AI 的可及性。主推文:「劲爆。」

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI产品更新部署/工程
01:32
Tomer Tunguz 博客(VC 分析)
32
防御AI驱动的攻击者

7月9日,Glean首席信息安全官Sunil Agrawal将做客Office Hours,探讨安全团队如何防御AI驱动的攻击。AI压缩了攻击者了解目标、绘制攻击面及个性化发起攻击所需的时间。传统攻击中可暴露的语法、语气和上下文线索正逐渐消失。深度伪造电话和合成媒体正在改变审批、支付和信任的控制平面。安全团队需要新的流程、工具和组织能力,以跟上模型驱动攻击的速度。

安全/对齐部署/工程
01:29
Hacker News 热门(buzzing.cc 中文翻译)
69
OpenAI 与博通推出 LLM 推理优化芯片

OpenAI 与博通(Broadcom)联合发布一款专为大语言模型(LLM)推理优化的芯片。该消息发布于 2026 年 6 月 24 日,在 Hacker News 上获得 105 个点赞。

OpenAI产品更新推理部署/工程
01:18
Berryxia.AI@berryxia
63
OpenAI 自研 AI 芯片 Jalapeño 正式发布

OpenAI 发布首颗自研 AI 芯片 "Jalapeño",专为 LLM 推理设计,与 Broadcom 合作生产。从设计到流片仅 9 个月,且由自身 AI 模型辅助设计。首批样片已到手,性能功耗比显著优于当前顶级加速器,Broadcom CEO 称性能媲美 NVIDIA Blackwell 与 Google TPU,同时成本降低约一半。目标 2026 年底实现吉瓦级部署,推理成本有望下降约 50%。该芯片将驱动 ChatGPT、Codex、API 及未来 Agent 产品,标志着 OpenAI 从模型公司向全栈 AI 基础设施公司转型。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI推理现象/趋势部署/工程
01:04
Chubby♨️@kimmonismus
42
据报,Fable 5 已重新出现在 Amazon Bedrock。主推文反应:我们回来了。Fable 5 回来了。

leo 🐾: UPDATE: Fable 5 has now reportedly also reappeared in Amazon Bedrock Chat...

行业动态部署/工程
00:20
SemiAnalysis@SemiAnalysis_
49
Chat从初始设计到流片在9个月内开发出一颗芯片,并且不犯任何错误。
现象/趋势部署/工程
00:18
Berryxia.AI@berryxia
66
OpenAI发布首款自研AI芯片Jalapeño

OpenAI发布首款自研AI芯片Jalapeño,专为ChatGPT、Codex、API及未来Agent产品的LLM推理设计,由Broadcom生产。从设计到流片仅用9个月,借助AI模型辅助设计。首批样片实测性能功耗比显著优于当前顶级加速器,Broadcom CEO称性能媲美NVIDIA Blackwell与Google TPU,成本减半。若2026年底实现吉瓦级部署,推理成本有望降低约50%。Jalapeño仅针对推理,训练仍依赖NVIDIA。此举标志OpenAI从模型公司向全栈AI基础设施公司转型。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI大佬观点推理部署/工程
‹ 上一页
1…45678…50
下一页 ›