模型结构

wav2vec 2.0是一个基于对比学习的自监督学习方法,输入原始波形,即一维的振幅值序列,输出其特征表示。

模型的pipeline如下:

X是原始波形,通过一个七层的CNN(每层卷积是一维的对序列进行卷积),得到初级的特征表示Z,然后这步有一个量化操作,设置一个码本(codebook),从中找到最接近Z的向量作为新的特征表示Q。我们把Z输入到transformer中再进行特征提取,得到一个上下文表示C,然后我们遮盖某个特征,如z_3,让模型根据z_1,z_2,z_4,...,z_n 预测c_3,同时让c_3q_3的差异尽可能小的同时,与q_1,q_2等尽可能的大。