Transformer のモデルのまとめ

もともとの論文には，Transformer は encoder と decoder を含む構造として記載されています．

もう少しわかりやすい図があったので紹介します．

Encoder / Decoder

実際には encoder と decoder はどちらかがあればモデルとして成立するので， encoder-only, decoder-only, encoder-decoder の3種類に大きく分類されます．それぞれで改良が加えられて，たくさんのモデルが乱立しています．

なお，使い方によっては異なるタスクに対応させることも可能なので，完全に分類させるものではありません．

もともとの構造では O(n²) となるので規模を大きくしにくいという欠点がありました．

モデルを改良する方向性として，扱えるシークエンスの長さを増やす，学習に必要な計算量を減らす，メモリ使用量を減らす，並列計算しやすくする，パラメーターを増やす/減らす，扱えるデータ量を増やす/減らす，などをすぐに思いつきますが，これらを実現するための様々な工夫が発表されています．