本文系统介绍了R-CNN(基于区域的卷积神经网络)家族的四个核心模型:R-CNN、Fast R-CNN、Faster R-CNN和Mask R-CNN。这些模型一脉相承,后续版本在速度上相较于前代实现了显著优化与提升。文章涵盖了该系列模型从基础架构到高效推理的演进脉络,并特别针对R-CNN补充了边界框回归等关键技术细节与常见优化技巧的深入解析。
本文系统介绍了R-CNN(基于区域的卷积神经网络)家族的四个核心模型:R-CNN、Fast R-CNN、Faster R-CNN和Mask R-CNN。这些模型一脉相承,后续版本在速度上相较于前代实现了显著优化与提升。文章涵盖了该系列模型从基础架构到高效推理的演进脉络,并特别针对R-CNN补充了边界框回归等关键技术细节与常见优化技巧的深入解析。
本文作为系列教程的第二部分,重点介绍了目标检测发展中的几个经典模型。文章解析了用于图像分类的卷积神经网络,包括AlexNet、VGG和ResNet,阐述了它们如何通过深度架构推动图像分类性能的突破。同时,详细讲解了早期用于目标识别的DPM(可变形部件模型)与Overfeat模型,说明了它们在特征提取与区域提议方面的创新思路。内容梳理了从分类到检测的技术演进脉络,为理解现代目标检测方法奠定了基础。
物体检测入门系列第一部分发布,聚焦基础概念,介绍梯度向量、HOG(方向梯度直方图)算法和选择性搜索用于图像分割。文章针对无计算机视觉经验的读者,以通俗方式解释传统物体检测技术,不涉及深度神经网络。内容涵盖梯度向量计算、HOG 算法原理及选择性搜索的图像分割应用,旨在激发学习兴趣。深度学习模型将在后续 Part 2 和 Part 3 中详细探讨。
词嵌入是一种将词汇表示为数值向量的密集表达方法,能够通过多种语言模型学习得到。这种表示形式可以揭示词语之间隐藏的关系,例如“猫”与“小猫”的向量差类似于“狗”与“小狗”的向量差。文章介绍了几种用于学习词嵌入的模型,并阐述了其损失函数的设计原理,旨在帮助机器学习模型理解和处理自然语言文本。
生成对抗网络(GAN)在模拟图像、语言和音乐等现实世界内容的生成任务中成果显著,但其训练过程常因不稳定和难以收敛而受阻。Wasserstein GAN(WGAN)针对这一问题,引入 Wasserstein 距离作为平滑度量,用于优化概率分布间的距离测量,从而提升训练稳定性并促进模型收敛。该研究深入解析了 GAN 的数学原理,并展示了 WGAN 如何通过改进度量方式克服 GAN 的固有训练缺陷。
随着机器学习模型渗透到医疗保健、司法系统和金融行业等关键领域,理解其决策过程并确保符合伦理要求或法律规范变得至关重要。本文回顾了模型可解释性的研究进展,覆盖两个主要方面:一是可解释模型及其特定解释方法,二是针对黑盒模型的解释策略。文章还探讨了可解释人工智能的开放讨论,强调提升模型透明度和可信度的必要性,以促进负责任的应用。这些研究为模型在敏感领域的部署提供了理论支持。
Part 2 教程在 Part 1 构建循环神经网络预测单一股票价格的基础上,扩展了模型能力,使其能同时处理多只股票的价格预测。为此,作者引入股票符号嵌入向量作为输入特征,以区分不同股票价格序列的独特模式。这一方法改进旨在增强模型的通用性和准确性,完整工作代码已开源在 GitHub 仓库 lilianweng/stock-rnn,方便读者复现和进一步研究。
该教程介绍了如何使用Tensorflow构建循环神经网络(RNN)来预测股票市场价格,其中第一部分重点针对标准普尔500指数进行预测。教程提供了完整可运行的代码,托管于GitHub仓库。
本文源于作者为Affirm公司举办的WiMLDS x Fintech聚会所做的演讲,旨在分享其近期对深度学习领域的学习心得。文章以2016年AlphaGo与围棋九段世界冠军李世石的系列赛为引,回顾了AlphaGo以4-1的比分取胜,这一标志性事件突显了当年人工智能领域的重大突破。作者借此概述了深度学习模型及其应用,为同样对这一领域感兴趣的读者提供了入门指引。