ICASSP2024

[论文简记]FINE-TUNE THE PRETRAINED ATST MODEL FOR SOUND EVENT DETECTION

音频音乐技术

重点

文章想要对预训练的模型也进行微调，比如BEATs，ATST，所以模型的结构并非是重点，微调方式是重点

模型结构

模型结构如图所示：

微调方法

文章提出两阶段来微调一个由RCNN和BEATs（或ATST等预训练模型，都行）构成的融合模型的方法。第一阶段，是正常的训练，冻结BEATs，训练RCNN，同时计算强标签（来自于训练数据）的损失与伪标签（来自于上一轮模型的预测）的损失，然后对模型进行更新，这个时候得到临时的模型参数（看作学生模型），然后拿出上一轮模型的参数和本轮的临时模型参数进行EMA，得到本轮最终的模型（看作教师模型，用于给出下一轮要用的伪标签）。在第二阶段，进行微调，仍然采用上一阶段的教师学生模型的思路，不同的是解冻所有参数，且此时减小强标签损失的权重，极大增加（2=>70）伪标签权重，还引入一致性训练损失（对频谱图拉伸压缩，插值）。

简单总结两个收获

（1）使用EMA更新参数，在之前读ATST论文里，也用到了EMA，可以防止在伪标签数据下，模型学不到有意义的表示，而是找到了一种简单恒等的方式来最小化损失函数。

（2）通过伪标签与无监督损失来利用未标注数据。作者还给了一个发现，就是帧级的ATST微调后带来的提升相比于补丁级的BEATs提升更大，这可能是由于它更好与SED这种帧级任务对齐。

如果觉得文章对你有用，请随意赞赏

声音事件检测

[论文简记]FINE-TUNE THE PRETRAINED ATST MODEL FOR SOUND EVENT DETECTION

http://www.yelfen.com/archives/lun-wen-jian-ji-fine-tune-the-pretrained-atst-model-for-sound-event-detection

作者

Yelfen

发布于

2024-12-25

更新于

2024-12-25

许可协议

CC BY 4.0