На сегодняшний день все большую популярность набирает Self-Supervised Learning – обучение на неразмеченных данных, позволяющее получить скрытые представления каких-либо объектов. Авторы статьи, о которой пойдет речь, применили данный подход при обучении модели на основе трансформера для задачи распознавания речи. Обучение предобученной на неразмеченных данных модели лишь на 10 минутах размеченных аудио позволило достичь 4.8/8.2 WER на тесте clean/other датасета LibriSpeech!
На семинаре поговорим про архитектуру и обучение модели. Также, затронем возможные улучшения текущего подхода и обсудим, насколько широко могут быть применены выученные представления аудио.
Докладчик: Александра Филимохина.
Слайды: [ Ссылка ]
Ещё видео!