Transformer 模型

一、起源发展

​ 1.两个著名的Transformer模型:

​ GPT:(the Generative Pretrained Transformer)

​ BERT(Bidirection Encoder Representations Transformers)

​ 2.分类

​ 纯Encoder 模型(例如BERT),又称自编码(auto-encoding) Transformer模型;

​ 纯Decoder 模型(例如GPT), 又称自回归(auto-regressive)Transformer模型;

​ Encoder-Decoder模型(例如BART、T5),又称Seq2Seq(sequenece-to-sequence) Transformer模型。

二、Transformer模型

​ 1.Transformer 模型本质是预训练模型,大都采用自监督模型(Self-supervised learning) 的方式在大量语料上进行训练。

​ 2.自监督学习是一种训练目标可以根据模型的输入自动计算的训练方法。