Hugging Face：Blog（RSS）

PyTorch 剖析系列（二）：从 nn.Linear 到融合 MLP

2026-06-11 08:00·22天前

AI 摘要

本部分将手写 matmul-add 对替换为 nn.Linear（bias=True），堆叠三层 Linear 与激活函数构成多层感知机（MLP）块，在 NVIDIA A100 GPU 上剖析。Profile trace 显示 nn.Linear 内部调用 aten::addmm，将 bias 加法作为 epilogue 融合进矩阵乘法核，避免额外 HBM 访问；transpose 操作（aten::t）仅改写 CPU 端张量元数据（shape 和 stride），不启动 GPU 核。

这是一则列表来源，站内未收录完整正文。

Hugging Face 教程/实践部署/工程

阅读完整原文导出 Markdown

Hugging Face：Blog（RSS）

46导出 Markdown