Convolutional Neural Networks

  1. Learn Spatial Feature

    • 一系列卷积层和池化层

    • 逐步学习更多样化的和更高层次的特征

  2. Flattening

    • 转换为固定长度的一维向量
  3. Learn Nonlinear Features

    • 完全连接层(普通的 neurons)

    • 使用多层来学习非线性关系

  4. Classification

    • Softmax - 多类逻辑回归

    • 输入向量为图像嵌入向量(image embedding vector)

Convolutional Layer

卷积核(Kernel),或称过滤器(Filter),用于提取特征。

Hyperparameters:

  • Kernel size k = {3 × 2}
    • 卷积核大小
  • Padding p = {(2 + 2) × 0}
    • 边界填充
  • Stride s = {1 × 2}
    • 步幅

通道(Channel)数:灰度图像通道数是 1,RGB 图像则有红蓝绿共 3 个通道。

加上通道数这个维度,一个卷积核用一个三维向量来进行表示。

Pooling Layer

  • 对 feature maps 进行降样(Downsample)处理

  • 帮助训练之后的卷积核检测更高层次的特征

  • 降低维度

  • 聚合方法:

    • Max-Pool(最常用)

    • Average-Pool

    • Sum-Pool