INTERSPEECH2022

[论文简记]ATST: Audio Representation Learning with Teacher-Student Transformer

音频音乐技术

ATST建立在对比学习之上，了解ATST需要先知道一个音频自监督对比学习模型BYOL-A。

在SSL对比学习中，最大化对比学习中的“正对”相似度，在学习表征方面很有效，但是有时会发生模型崩塌，即模型学不到有意义的表示，而是找到了一种简单但无效的方式来最小化损失函数。COLA模型利用从正样本中区分负样本来解决模型崩塌，但对音频而言，随机取的所谓“负样本”，可能其实与正样本相似，所以BYOL-A模型只用正样本，同时可以克服模型崩溃。BYOL-A使用教师学生模型，教师通过EMA学生网络参数来更新，较为稳定（不易崩塌），学生去预测匹配教师的网络表示。（当然，SSL模型还有另一个技术路线就是随即遮盖预测表示，或者类似于BEATs离散标签分类）

音频的SSL模型使用transformer很少，只有SSAST等，并且它们沿用wav2vec2的思路。（wav2vec2：输入原始音频1维振幅序列然后通过对比学习训练模型）。ATST改进BYOL-A，第一点，使用transformer替代cnn，第二点，使用两个不同的长段来构建正样本，正对的选取是有讲究的，使用audioset进行预训练。

来看模型结构：

首先将两端略有重合的音频数据分别经过不同的增强得到一个正对，分别输入到学生和教师模型中，然后过encoder和投影器，学生模型去预测教师模型的输出。这个过程是对称的，即X输入到teacher，X’输入到student计算出一个loss，然后交换X和X'再次输入网络得到loss，两个loss加在一起，更新student，注意这个地方teacher并不需要计算梯度，teacher的更新方式是使用ema从学生更新。

Creation of Views

取两个相邻且部分重叠的6秒片段构建正对样本，并且每个片段使用不同的数据增强方法。输入的是mel图。

Transformer Encoder

可以从(b)图中得知，四个帧一组输入linear得到一个embedding，插入一个CLS表示全局信息，CLS是随机初始化，可训练的，再与位置编码结合，得到输出，其中O1来自于CLS，O1作为接下来的h，也就是(a)中编码器的输出

如果觉得文章对你有用，请随意赞赏

自监督学习声音事件检测深度学习

[论文简记]ATST: Audio Representation Learning with Teacher-Student Transformer

http://www.yelfen.com/archives/lun-wen-jian-ji-atst-audio-representation-learning-with-teacher-student-transformer

作者

Yelfen

发布于

2024-12-05

更新于

2024-12-05

许可协议

CC BY 4.0