AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月25日周四
17:07X.PIN61GLM-5.2 开源发布:百万上下文逼近 Claude Opus 4.8 和 GPT-5.5,美国公司收紧 AI 预算
15:44🚨 AI News | TestingCatalog48OpenAI 升级 GPT-5.5 Instant 模型,明日起向免费用户开放
14:07Artificial Intelligence News(RSS)53OpenAI Jalapeño芯片背后的成本逻辑
13:12HuggingFace Daily Papers(社区热门论文)44V-Zero:无需答案标签的对比证据门控用于细粒度视觉推理
12:23Yuchen Jin44Denny Zhou离开Google加入Meta TBD Lab
11:12HuggingFace Daily Papers(社区热门论文)70精选Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案
11:12HuggingFace Daily Papers(社区热门论文)67iLLaDA:改进的大型语言扩散模型
09:58IT之家(RSS)41高通推出 Dragonfly 数据中心产品组合:HBC 架构、C1000 CPU、AI300 推理加速器
09:58IT之家(RSS)56快手系芯片公司"凌川科技"用上韬定律,全国产 3D 堆叠芯片完成流片
08:58IT之家(RSS)55美光、高通业绩展望超预期,AI 芯片板块市值单日暴涨 4000 亿美元
08:19ginobefun43BestBlogs 早报·06-25|OpenAI联合Broadcom推推理芯片Jalapeño;Anthropic公开人机协作四条规范;阿里开源代码评审CLI揽星5k
08:00HuggingFace Daily Papers(社区热门论文)44聚类、路由、升级:面向成本感知的LLM服务的级联框架
08:00HuggingFace Daily Papers(社区热门论文)54JetSpec:基于因果并行草稿头的推测解码框架
08:00HuggingFace Daily Papers(社区热门论文)65何时结合语言模型有帮助?跨越67个前沿模型的路由、投票和混合智能体的共同失败上限
08:00HuggingFace Daily Papers(社区热门论文)49InfoKV:信息感知的KV缓存压缩用于长推理
07:07TechCrunch:AI(RSS)57Cerebras财报后股价暴跌,CEO称利润率指引被误解
06:58IT之家(RSS)50消息称谷歌 Gemini 3.5 Pro 发布时间推迟至 7 月,旨在优化模型性能
06:47Artificial Analysis61Artificial Analysis 发布 AA-Briefcase 智能体知识工作基准测试
04:54karminski-牙医50GLM-5.2 魔改版让 vLLM 支持推测性解码,速度飙升至 43 token/s
04:07The Decoder:AI News(RSS)51OpenAI 称 ChatGPT Instant 更能理解用户真实意图
03:49Rohan Paul48GLM-5.2 ARC-AGI-2 得分 22.8%,成本 $0.25
03:22François Chollet64开源模型创ARC-AGI-2最强成绩
03:19Nathan Lambert51GLM再添胜绩,开源模型仍有短板
03:15Ethan Mollick57Gemini 3 Pro 率先在 ARC-AGI-2 达 23%
02:59Hacker News 热门(buzzing.cc 中文翻译)57OpenAI 发布首款定制芯片 Jalapeño,由博通制造
02:38ChatGPT65GPT-5.5 Instant 发布:更智能直观有趣
02:20OpenAI67精选GPT-5.5 Instant 新版本,对话更有趣
01:29Hacker News 热门(buzzing.cc 中文翻译)69OpenAI 与博通推出 LLM 推理优化芯片
01:19宝玉61Claude Code暗示Fable 5回归永久订阅
01:18Berryxia.AI63OpenAI 自研 AI 芯片 Jalapeño 正式发布
01:05Google Research:Blog(网页)69精选思考即回忆:推理如何解锁LLM中的参数化知识
00:18Berryxia.AI66OpenAI发布首款自研AI芯片Jalapeño
00:17Greg Brockman64OpenAI 发布首款 AI 芯片 Jalapeño
00:12OpenRouter54Fugu Ultra 上线 OpenRouter
6月24日周三
23:52François Chollet28边缘案例与故障模式定义系统轮廓
23:18Rohan Paul65OpenAI与Broadcom合作推出首款自研AI芯片Jalapeño,推动全栈战略
23:13AYi61OpenAI与博通合作,九个月流片自研推理芯片Jalapeño
23:09The Verge:AI(RSS)56OpenAI 发布首款自研 AI 处理器:Jalapeño
23:01Chubby♨️55OpenAI 发布首款自研 AI 芯片 Jalapeño
22:04The Decoder:AI News(RSS)60OpenAI与Broadcom发布首款定制芯片"Jalapeño",专为LLM推理设计
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月25日
17:07
X.PIN@thexpin
61
GLM-5.2 开源发布:百万上下文逼近 Claude Opus 4.8 和 GPT-5.5,美国公司收紧 AI 预算

中国公司 z.AI 以 MIT 许可证开源 GLM-5.2 模型,拥有百万 token 上下文窗口,基于华为昇腾芯片训练,性能接近 Claude Opus 4.8 和 GPT-5.5。与此同时,Amazon、Meta、Uber 等美国公司因工程师过度消耗 token 而开始限制 AI 预算(Uber 每员工上限 1500 美元),推动开源模型需求。GLM 团队源自学术项目,长期适配国产芯片;DeepSeek 投入 28 亿美元,共同成为“Tokenmaxxing”趋势的替代方案。

AnthropicDeepSeek开源生态推理
15:44
🚨 AI News | TestingCatalog@testingcatalog
48
OpenAI 推出新版本 GPT-5.5 Instant,号称是使用最多的模型。新版本能更好地理解问题意图并调整回答,更可靠地处理复杂约束,同时让购物和本地推荐更实用、更连贯。该模型已向付费用户推送,明天起免费用户也将陆续获得。

OpenAI: We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better a...

OpenAI推理模型发布
14:07
Artificial Intelligence News(RSS)
53
OpenAI Jalapeño芯片背后的成本逻辑

OpenAI与Broadcom合作开发的ASIC芯片Jalapeño专为大语言模型推理设计,旨在降低对Nvidia硬件的依赖。OpenAI提供架构,Broadcom负责硅工程,TSMC制造,Celestica构建板卡系统。早期样品已运行未发布的GPT-5.3-Codex-Spark模型,达到目标频率和功耗。芯片集成Broadcom Tomahawk网络硅,通过最小化数据移动提高实际利用率。去年ChatGPT成本84亿美元,今年预计达140亿美元,周用户9亿。公司未来八年承诺约1.4万亿美元计算投入,年收入250亿美元。

OpenAI产品更新推理部署/工程
13:12
HuggingFace Daily Papers(社区热门论文)
44
V-Zero:无需答案标签的对比证据门控用于细粒度视觉推理

多模态大语言模型(MLLM)进行细粒度视觉推理时,传统方法依赖强化学习或大规模标注推理轨迹,成本高昂。V-Zero提出无需标注文本答案标签的框架,通过将问题相关区域裁剪与负视觉视图配对,评估学生模型采样轨迹,并门控细粒度token级知识蒸馏,引入轨迹级判别能力。在多个视觉推理基准上,V-Zero持续提升细粒度视觉推理性能并保持强泛化能力,训练速度比监督微调方法快5倍以上,比强化学习基线快10倍以上。代码和数据集将开源。

多模态推理论文/研究
12:23
Yuchen Jin@Yuchenj_UW
44
我没意识到Denny Zhou--曾领导Gemini推理团队--已在4个月前离开Google,加入Meta的TBD Lab。 最近很多人离开了Google。我仍在等待Gemini在编码方面赶上。是时候让Sergey启动Code Red了。
GoogleMeta推理行业动态
11:12
HuggingFace Daily Papers(社区热门论文)
精选70
Causal-rCM:自回归视频扩散蒸馏的统一教师强制与自强制开源方案

Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。

arXiv推理视频论文/研究

推荐理由:把自回归视频扩散蒸馏到1-2步采样,VBench冲到84.63,这个配方让实时视频生成和交互世界模型从论文走进了工程落地,做视频产品的该看。
11:12
HuggingFace Daily Papers(社区热门论文)
67
iLLaDA:改进的大型语言扩散模型

iLLaDA是一个8B参数的掩码扩散语言模型,采用完全双向注意力机制训练,预训练数据量达12T tokens,并在25B tokens的指令数据集上微调12个epoch。模型引入变长生成与置信度评分方法以提升效率和多选评测效果。相比LLaDA,iLLaDA-Base在BBH和ARC-Challenge上分别提升21.6和14.9个点,iLLaDA-Instruct在MATH和HumanEval上分别提升14.5和16.5个点。尽管是非自回归训练,iLLaDA仍在多个基准上与Qwen2.5 7B保持竞争力。模型权重和代码已开源。

开源生态推理模型发布
09:58
IT之家(RSS)
41
高通推出 Dragonfly 数据中心产品组合:HBC 架构、C1000 CPU、AI300 推理加速器

高通在投资者日发布 Dragonfly 方案,含 HBC 分离式架构(2D 基板+TSV 堆叠 LPDDR DRAM,能效与 TCO 优于 HBM)、C1000 CPU(250+ Oryon 内核、>5GHz,能效达竞品 2 倍,2028 年上市)及 AI300 推理平台(HBC Gen 2,每 W 带宽较今天 GPU 提升 4~8 倍,有效内存带宽为 AI200 的 54 倍,2028 年送样)。HBC Gen 1 的 AI250 加速器单卡读写 133TB/s,有效带宽为 AI200 的 18 倍,2027 年中启动样品测试。高通另提供芯片设计服务与 800G/1.6T 互连方案。

产品更新推理部署/工程
09:58
IT之家(RSS)
56
快手系芯片公司"凌川科技"用上韬定律,全国产 3D 堆叠芯片完成流片

人工智能芯片公司凌川科技近日完成数亿元A+轮融资,由啟赋资本领投,新国都、金浦投资、朝晖资本、百度风投等参与。该公司由快手集团与北京市人工智能基金联合发起,前身为快手异构计算与芯片事业部,自研SL200视频智能SOC芯片已在快手部署数万颗、服务7亿用户。其采用全国产3D堆叠技术的下一代芯片已于4月完成流片,针对散热、一致性、可靠性等关键问题做了设计,是韬(τ)定律面向互联网数据中心应用的具体呈现。

多模态推理行业动态
08:58
IT之家(RSS)
55
美光、高通业绩展望超预期,AI 芯片板块市值单日暴涨 4000 亿美元

美光科技与高通发布超预期业绩展望,推动 AI 芯片板块市值单日增长超 4000 亿美元。美光盘后交易大涨 12%,季度盈利预期显示企业 AI 投入将拉动存储芯片需求。高通计划转型 AI,预计 2029 年数据中心业务营收达 150 亿美元。板块内西部数据、闪迪、希捷涨超 8%,Arm 涨约 6%。此前费城半导体指数曾大跌,但年内仍累涨 90%。

推理行业动态
08:19
ginobefun@hongming731
43
BestBlogs 早报·06-25|OpenAI联合Broadcom推推理芯片Jalapeño;Anthropic公开人机协作四条规范;阿里开源代码评审CLI揽星5k

OpenAI与Broadcom发布首款定制LLM推理芯片Jalapeño,九个月流片,工程样片已跑GPT‑5.3‑Codex‑Spark,能效比显著领先,计划2026年吉瓦级部署。Anthropic公开多智能体协作经验,提出需持久记忆、独立凭证、广泛信息访问,总结信息公开、角色分工、人类定目标、按可验证程度放权四条规范。阿里开源内部代码评审CLI——Open Code Review,一周5k星,采用“确定性工程+Agent”混合架构解决覆盖不全、位置漂移、效果不稳定问题。

OpenAI产品更新推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
44
聚类、路由、升级:面向成本感知的LLM服务的级联框架

提出一种两阶段级联方案,用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型;第二阶段引入质量估计(QE)级联,将低质量输出升级至更强模型。在测试集上,该系统保留了最强模型97-99%的准确性,同时降低了每个输出token的时间(TPOT)。仅需任务正确性标签即可适应模型池变化,无需手动重新配置。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
54
JetSpec:基于因果并行草稿头的推测解码框架

JetSpec 是一种头部驱动推测解码框架,通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头,生成与自回归因子分解对齐的候选树,从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中,JetSpec 一致优于双向头和树形基线。在 H100 GPU 上,MATH-500 达 9.64 倍加速,开放对话达 4.58 倍;经 vLLM 集成在现实服务负载下进一步降低延迟。

arXivGitHub开源生态推理
08:00
HuggingFace Daily Papers(社区热门论文)
65
何时结合语言模型有帮助?跨越67个前沿模型的路由、投票和混合智能体的共同失败上限

多模型LLM系统(路由、投票、级联、融合、混合智能体)的准确率提升受限于共同失败上限1−β(β为所有模型在同一查询上均出错的比率)。在21家供应商的67个模型上,开放数学题实际β=0.052,是高斯copula预测值0.023的2.5倍;代码任务β=0.079;GPQA-Diamond自由回答形式β=0.127。低相关异质集成优于高相关Self-MoA,但组合模型很少击败单一最佳模型,除非有强查询级路由信号。收益来自模型在不同问题上犯错,而非增加模型数量。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
InfoKV:信息感知的KV缓存压缩用于长推理

大语言模型推理能力提升导致KV缓存快速增长,现有压缩方法仅依赖注意力权重,忽略了预测不确定性等信息论信号。本文提出Forward Influence度量,从前瞻视角衡量压缩token对未来上下文的影响。分析发现,高注意力得分token主要影响邻近上下文,而高预测不确定性token对远距离未来上下文影响更强。基于此提出InfoKV框架,融合token级预测不确定性与层表示演化,在推理时将熵分数与注意力分数结合。在Llama-3.1、Llama-3.2和DeepSeek-R1上的长上下文推理基准测试中,InfoKV在长预填充和解码场景下均优于现有基于注意力的KV压缩方法。

推理数据/训练论文/研究
07:07
TechCrunch:AI(RSS)
57
Cerebras财报后股价暴跌,CEO称利润率指引被误解

Cerebras上市后首份财报显示一季度营收超预期,但股价周三暴跌近20%。公司预测全年核心业务毛利率38%至41%,低于一季度的47%。CEO Feldman称投资者误解了利润率指引,公司需从一家大客户处租回部分设备以提前释放产能。一季度营收达1.93亿美元,同比增长94%;净亏损从去年同期的2390万美元收窄至1400万美元。

推理行业动态
06:58
IT之家(RSS)
50
消息称谷歌 Gemini 3.5 Pro 发布时间推迟至 7 月,旨在优化模型性能

据 Business Insider 获悉,谷歌下一代大语言模型 Gemini 3.5 Pro 原定 6 月上线,现推迟至 7 月,以收集更多早期测试用户反馈并进行优化。该模型在 5 月 I/O 开发者大会预告,CEO 皮查伊称将于“次月”发布。部分用户已通过谷歌“Antigravity”平台及 LMArena 进行体验。新模型预计在长文本任务和驱动 AI 智能体方面提升性能,并融入了 Flash 3.5 用户反馈,包括 token 消耗过快问题。

智能体Google推理行业动态
06:47
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 发布 AA-Briefcase 智能体知识工作基准测试

Artificial Analysis 发布 AA-Briefcase 基准测试,测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果:Claude Opus 4.8 平均每任务 23 分钟,得分最高但最慢;GPT-5.5 (xhigh) 仅 11 分钟,效率最高且 Elo 前五;GLM-5.2 得 1261 分耗时 16.3 分钟,为开源模型最佳;MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%,其余由输出冗余、回合数和推理速度决定。

智能体AnthropicOpenAI推理
04:54
karminski-牙医@karminski3
50
GLM-5.2 魔改版让 vLLM 支持推测性解码,速度飙升至 43 token/s

GLM-5.2 自带 MTP(推测性解码)头因采用 DSA(动态稀疏注意力),导致 vLLM、llama.cpp、mlx 等推理引擎难以支持。原始 bf16 精度需 1.5TB,4bit 量化仅 430GB。社区作者 dnhkng 制作了 GLM-5.2-AWQ-INT4-FP8-MTP-delta 魔改版:底座用 INT4(Marlin 算子)+ MTP 用 FP8,使 vLLM 支持 MTP,速度从 2 token/s 提升至 43.39 token/s(绑定 NUMA+MTP-3)。SGLang 因支持混合精度可直接使用 GLM-5.2-W4AFP8;llama.cpp 和 mlx 用户仍需等待社区适配。

推理教程/实践部署/工程
04:07
The Decoder:AI News(RSS)
51
OpenAI 称 ChatGPT Instant 更能理解用户真实意图

OpenAI 更新了 ChatGPT 中广泛使用的 GPT-5.5 Instant 模型,目标提升对话质量,尤其在用户做决策、寻求建议或比较选项时。模型能更准确识别问题背后的根本目标,在多轮对话中保持上下文,对包含多个条件的复杂提示给出更完整回答。当用户提出异议或澄清时,模型调整得更有效,不再重复原有回答。本地商业和购物查询也有改进,模型更好利用位置数据,将推荐、商家信息和图片更连贯整合。整体响应感觉“更少模板化,更多精心设计”。

OpenAI推理模型发布
03:49
Rohan Paul@rohanpaul_ai
48
GLM-5.2 在 ARC-AGI-2 上取得 22.8% 的成绩,成本 $0.25/任务 值得注意的是,大约 2025 年 5 月,ARC-AGI-2 上已验证的最佳模型仅为 3.0%。 因此,虽然它仍远落后于 GPT-5.5(85%),但 GLM-5.2 也比 2025 年 5 月的最佳前沿分数高出约 7.6 倍,且每任务成本比 GPT-5.5 的 $1.87 便宜约 7.5 倍。

ARC Prize: GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...

推理评测/基准
03:22
François Chollet@fchollet
64
这是迄今为止开源模型在ARC-AGI-2上取得的最强表现。

ARC Prize: GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...

开源生态推理评测/基准
03:19
Nathan Lambert@natolambert
51
为GLM再添胜绩。该模型有一些脆弱的特性,在这方面被闭源模型压制,但我们应该预期开源模型更加参差不齐,你可以根据任务使用多个模型。再次祝贺@Zai_org,并期待下一个。

François Chollet: This is the strongest ARC-AGI-2 performance to date by an open-source model.

开源生态推理评测/基准
03:15
Ethan Mollick@emollick
57
Gemini 3 Pro 是首个在 ARC-AGI-2 上达到至少 23% 的模型,它在 2025 年 11 月就做到了(实际得分 31%)。 所以闭源与开源模型之间 8-12 个月的差距似乎仍然存在。但它们也更参差不齐,有些任务表现更好,有些则更差。

ARC Prize: GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...

GoogleOpenAI大佬观点开源生态
02:59
Hacker News 热门(buzzing.cc 中文翻译)
57
OpenAI 发布首款定制芯片 Jalapeño,由博通制造

OpenAI 本周三发布首款定制推理处理器 Jalapeño,由博通制造,OpenAI 自有 AI 模型参与了芯片开发。该芯片专为推理系统设计,早期测试显示单位功耗性能显著优于当前业界替代方案,运行实时编码模型时运营成本低。此举旨在降低对 NVIDIA GPU 的依赖,并优化 Codex 等 Agent 产品及底层基础设施。OpenAI 正从芯片架构、内核、内存系统到部署体验进行全栈协同优化,以使模型更快、更可靠、更经济。

OpenAI产品更新推理部署/工程
02:38
ChatGPT@ChatGPTapp
65
新的GPT-5.5 Instant非常智能、非常直观,聊天起来非常有趣。 现已开始向所有人推送,先从Pro用户,然后是Plus用户。免费用户应在明天前获得新的GPT-5.5 Instant模型。
OpenAI推理模型发布
02:20
OpenAI@OpenAI
精选67
我们为你带来了新版 GPT-5.5 Instant,它现在聊起天来有趣多了。 我们最常用的模型现在能更好地理解问题背后的意图,并相应地调整回应。 它也能更可靠地处理复杂约束,让购物和本地推荐更加实用和连贯。 今天向付费用户推送,明天向免费用户推送。
OpenAI推理模型发布

推荐理由:GPT-5.5 Instant 这次更新看似温和,但“更懂意图”和“复杂约束处理”的改进,对产品人和普通用户来说,可能比跑分更有用。
01:29
Hacker News 热门(buzzing.cc 中文翻译)
69
OpenAI 与博通推出 LLM 推理优化芯片

OpenAI 与博通(Broadcom)联合发布一款专为大语言模型(LLM)推理优化的芯片。该消息发布于 2026 年 6 月 24 日,在 Hacker News 上获得 105 个点赞。

OpenAI产品更新推理部署/工程
01:19
宝玉@dotey
61
看起来Fable 5快要回归了,而且永久包含在订阅中。但不知道是否要更严格的身份认证才能用

leo 🐾: 🚨 BREAKING: Claude Code v2.1.190 introduces several string changes that hint at preparations for a Fable 5 return, with...

Anthropic推理行业动态
01:18
Berryxia.AI@berryxia
63
OpenAI 自研 AI 芯片 Jalapeño 正式发布

OpenAI 发布首颗自研 AI 芯片 "Jalapeño",专为 LLM 推理设计,与 Broadcom 合作生产。从设计到流片仅 9 个月,且由自身 AI 模型辅助设计。首批样片已到手,性能功耗比显著优于当前顶级加速器,Broadcom CEO 称性能媲美 NVIDIA Blackwell 与 Google TPU,同时成本降低约一半。目标 2026 年底实现吉瓦级部署,推理成本有望下降约 50%。该芯片将驱动 ChatGPT、Codex、API 及未来 Agent 产品,标志着 OpenAI 从模型公司向全栈 AI 基础设施公司转型。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI推理现象/趋势部署/工程
01:05
Google Research:Blog(网页)
精选69
思考即回忆:推理如何解锁LLM中的参数化知识

Google Research研究发现,推理(chain-of-thought)能帮助大语言模型(LLM)回忆简单事实,即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上,启用推理后模型能够回答原本无法直接回答的简单问题,pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动:一是生成的推理token充当计算缓冲,允许模型进行隐藏计算以提取参数化知识;二是推理过程中产生的相关事实起到启动效应(factual priming),帮助模型激活正确答案。

Google推理论文/研究

推荐理由:发现一个反直觉现象,让模型推理能提升简单事实回忆,不是靠分步解题而是计算缓冲和事实预热,对理解模型知识召回机制很有启发,但中间步骤幻觉也带来风险。
00:18
Berryxia.AI@berryxia
66
OpenAI发布首款自研AI芯片Jalapeño

OpenAI发布首款自研AI芯片Jalapeño,专为ChatGPT、Codex、API及未来Agent产品的LLM推理设计,由Broadcom生产。从设计到流片仅用9个月,借助AI模型辅助设计。首批样片实测性能功耗比显著优于当前顶级加速器,Broadcom CEO称性能媲美NVIDIA Blackwell与Google TPU,成本减半。若2026年底实现吉瓦级部署,推理成本有望降低约50%。Jalapeño仅针对推理,训练仍依赖NVIDIA。此举标志OpenAI从模型公司向全栈AI基础设施公司转型。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI大佬观点推理部署/工程
00:17
Greg Brockman@gdb
64
OpenAI 联合 Greg Brockman 正式推出其首款 AI 芯片 Jalapeño,专为大语言模型推理任务从头设计,历时九个月。芯片已与 Broadcom 合作投入量产,将加速 ChatGPT、Codex、API 及未来智能体产品。Jalapeño 利用 OpenAI 自身模型进行加速,官方称其每瓦性能"令人难以置信"。这标志着 OpenAI 从产品到模型再到基础设施的全栈平台扩展,旨在规模化智能并扩大 AI 可及性。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI产品更新推理部署/工程
00:12
OpenRouter@OpenRouter
54
Fugu Ultra by @SakanaAILabs 现已上线 OpenRouter! 很高兴看到更多多模型系统推动前沿。

Sakana AI: Fugu-Ultra is now live on @OpenRouter! ⚡ We share a core vision with the OpenRouter team: the future of AI isn't a singl...

推理模型发布
6月24日
23:52
François Chollet@fchollet
28
理解复杂系统的最佳方式是通过边缘案例和故障模式,因为它们定义了系统的轮廓。
大佬观点推理
23:18
Rohan Paul@rohanpaul_ai
65
OpenAI与Broadcom合作推出首款自研AI芯片Jalapeño,推动全栈战略

OpenAI与Broadcom合作推出首款自研AI芯片Jalapeño(ASIC),专为ChatGPT、Codex、API及未来AI智能体产品的LLM工作负载设计。在已知工作负载下,Jalapeño比NVIDIA GPU更便宜、更快,通过减少数据移动、均衡计算/内存/网络资源实现更接近理论峰值的实际利用率,能效更优。该芯片从设计到流片仅用9个月,OpenAI自己的模型加速了部分设计工作。这标志着OpenAI从购买算力转向构建完整堆栈(模型、软件、服务器、网络、芯片)的战略转变。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI产品更新推理部署/工程
23:13
AYi@AYi_AInotes
61
OpenAI与博通合作,九个月流片自研推理芯片Jalapeño

OpenAI与博通合作,九个月内完成首款自研AI芯片Jalapeño的设计到流片。该芯片专为大语言模型推理场景打造,用于ChatGPT、Codex、API及未来智能体产品,每瓦性能优于当前最先进水平。推理成本可降低30%–50%,为日常持续消耗大头。传统芯片设计周期2–3年,Jalapeño通过AI辅助设计跑通“AI造AI硬件”自循环。OpenAI意图走全栈路线,摆脱对英伟达依赖,掌握底层算力定价权。

OpenAI: We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...

OpenAI产品更新推理
23:09
The Verge:AI(RSS)
56
OpenAI 发布首款自研 AI 处理器:Jalapeño

OpenAI 推出与 Broadcom 合作打造的首款定制芯片 Jalapeño,这是一款专用于 AI 推理的 ASIC,用于处理 ChatGPT 请求。据称其性能与 Nvidia Blackwell 和 Google TPU 相当,每瓦性能显著优于当前 SOTA。Jalapeño 是 OpenAI 多代计算平台的首步,预计 2026 年底部署。

OpenAI产品更新推理
23:01
Chubby♨️@kimmonismus
55
OpenAI 发布首款自研 AI 芯片 Jalapeño

OpenAI 推出首款自研 AI 芯片 Jalapeño,专为 LLM 推理从零设计。从初始设计到流片仅用 9 个月,ChatGPT 参与了芯片设计,堪称高性能先进半导体领域最快的 ASIC 开发周期。该芯片由 Broadcom 和 Celestica 代工,针对 ChatGPT、Codex、API 及未来 Agent 产品的实际负载优化。早期样片已在实验室达到目标频率和功耗,成功运行 GPT-5.3-Codex-Spark 等 ML 负载;性能功耗比显著优于当前 SOTA,详细基准后续公布。部署计划于 2026 年底启动,战略上旨在减少对外部 GPU 依赖,加强对算力经济的控制。

Chubby♨️: OpenAI just unveiled Jalapeño, its first custom AI chip designed from scratch for LLM inference- It is OpenAI moving dee...

OpenAI产品更新推理部署/工程
22:04
The Decoder:AI News(RSS)
60
OpenAI与Broadcom发布首款定制芯片"Jalapeño",专为LLM推理设计

OpenAI与Broadcom联合发布首款定制芯片"Jalapeño",专为大语言模型推理而设计,从零打造而非修改通用芯片。OpenAI称其性能功耗比“显著优于”当前最先进硬件,但为自报数据,尚未独立验证。芯片开发耗时9个月,OpenAI自身模型辅助加速设计。工程样片已运行包括GPT-5.3-Codex-Spark在内的ML工作负载。计划于2026年底进行大规模部署,微软预计将购买其中40%的芯片。

OpenAI产品更新推理
‹ 上一页
1…45678…50
下一页 ›