Transformer

1、transformer 的总体架构

image-20230420161850815

2、Transformer的组成

  • 输入部分

    image-20230420162139645

    • ​ 源文本嵌入层及其位置的编码器

    • ​ 目标文本嵌入层及其位置编码器

  • 输出部分

    image-20230420162417026

    • ​ 线性层
    • softmax 层
  • 编码器部分

    image-20230420162503966

    • n个编码器堆叠而成
    • 每一个编码器由三个子层连接结构组成
    • 第一个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
  • 解码器部分

    • 由N个解码器堆叠而成

    • 每一个解码器由三个子层连接而成

    • 第一个子层结构包括一个多头注自意力机制和规范化层以及一个全连接层

    • 第二个子层结构包括一个多头注意力机制和规范化层以及一个全连接层