Исследователи из MIT уменьшили размеры модели без потери точности

С ростом нейронных сетей они становятся более мощными, но в то же самое время требуют больше энергии, времени, памяти, вычислительных ресурсов. Особенно это бьет по мобильным устройствам. Исследователи из MIT нашли несколько способов облегчить модели машинного обучения (Machine Learning).

Один из таких способов называется отсечение (prunning) — удаление самых слабых связей. Новые исследования предлагают усовершенствованные методы отсечения моделей распознавания речи. Они обеспечивают более эффективное отсечения, при этом сжатая модель такая же точная.

Чтобы обучить модель распознавания речи, нужно иметь образцы аудио и соответствующего текста. Но не все языки обладают такими корпусами данных. Поэтому популярным методом является самообучение ( self-supervised learning), благодаря которому модель обучается без всяких меток вроде “собак” для распознавания собак на изображении. Нейронная сеть может найти из немаркированных данных общий шаблон, а затем обучиться на определенной задаче под контролем учителя (supervised learning), данный процесс носит название дообучение (fine-tunning).

В приложениях с распознаванием речи модель может вобрать в себя часы немаркированных аудиозаписей, небольшие беззвучные секции и обучиться вставлять пропуски. Затем при дообучении она может обучиться транскрибировать язык при помощи только минутных транскрибированных аудиозаписей. Для каждого фрагмента аудио она предполагает слова или слова и обновляет свои соединения, основываясь на том правильно ли отгадала или нет.

Модели OMP и PARP

Авторы новой работы нашли несколько способов отсечения дообученных моделей распознавания речи. Первый метод называется OMP (One-shot Magnitude Pruning), которую другие авторы разработали для моделей обработки изображений. Они взяли предобученную модель распознавания речи (т.е. прошедшую стадию самообучения) и дообучили её на небольшом количестве транскрибированных аудио. Затем они отсекли её. Затем снова дообучили.

Исследователи применили OMP для нескольких языков и выяснили, что отсеченные модели разных языков структурно похожи между собой. Эти результаты их очень удивили. И предположили, на основании схожести структуры отсеченных моделей, что предобученные модели не особо нуждаются в дообучении. Это очень полезное наблюдение, поскольку дообучение достаточно дорогой процесс.

Затем те же авторы разработали новый метод под названием PARP (Prune, Adjust and Re-Prune), который требует только один раунд дообучения. PARP начинается с предобученной модели распознавания речи, затем над ней проводят отсечение слабейших связей, но вместо удаления их веса временно понижаются до нуля. Затем происходит дообучение на маркированных данных, а те нулевые связи, которые важны для сети, растут. Затем происходит отсечение ещё раз.

Таким образом, модель:

  1. При OMP дообучается, отсекается, дообучается;
  2. При PARP отсекается, дообучается, отсекается.

При реалистичных уровнях отсечений PARP достигает тех же результатов, что и OMP, при этом имеет в два раза меньше процессов дообучения. При некоторых настройках PARP отсечения между 10% и 60% всей сети модель улучшила точность по сравнению с исходной. Возможно это произошло за счет уменьшения шума сети. OMP же не смогла добиться таких результатов.

Машинное обучение на Python

Код курса
PYML
Ближайшая дата курса
15 июля, 2024
Продолжительность
24 ак.часов
Стоимость обучения
54 000 руб.

А о том, как создавать свои модели машинного обучения и управлять ими на реальных примерах Data Science вы узнаете на специализированном курсе «Разработка и внедрение ML-решений» в лицензированном учебном центре обучения и повышения квалификации разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве.

Добавить комментарий

Поиск по сайту