MLOps — это развивающаяся дисциплина, которая интегрирует практики Data Science и DevOps. Для этой области уже существует множество различных инструментов разработки. В этой статье приведен обзор 9 популярных библиотек с открытым исходным кодом и написанных на Python.
1. Data Version Control
DVC — это библиотека для управления версиями данных. Ваши модели или датасеты с помощью неё можно версионировать так же, как это делается через Git. DVC предоставляет командный интерфейс (CLI) и позволяет создавать версии данных, которыми можно делиться с другими людьми. Рекомендуем ознакомиться с их Quick Start.
Количество звезд | Количество контрибьютеров |
---|---|
870+ | 220+ |
2. ZenML
ZenML — это MLOps-фреймворк, предназначенный для создания готовых к работе конвейеров машинного обучения (Machine Learning). Он применяет абстракции высокого уровня, которые позволяют специалистам по обработке данных полностью владеть конвейером вплоть до отправки в прод. Data Scientist’у не нужно разбираться в деталях инфраструктуры или инструментов развертывания, он сможет использовать их через ZenML. Ему нужно лишь задать, как должен быть устроен конвейер, а дальше он сам разберется. В отличие от Airflow, который ориентирован на инженера данных (Data Engineer), ZenML позволяет работать с объектами Pandas и PyTorch без всяких сложностей.
Количество звезд | Количество контрибьютеров |
---|---|
1.5k | 8+ |
3. MLRun
MLRun — ещё один фреймворк для управления конвейерами машинного обучения. Он помогает стандартизировать конфигурационные файлы, среды, параметры, источники данных так, что вам не нужно будет беспокоиться о том, где вы запускаете свой конвейер.
Количество звезд | Количество контрибьютеров |
---|---|
520+ | 33+ |
4. Metaflow
Metaflow — это библиотека для управления Data Science проектами, написанными на Python или R. Metaflow изначально был разработан в Netflix для повышения продуктивности Data Scientist’ов, которые работают над широким спектром проектов: от классической статистики до современного глубокого обучения.
Количество звезд | Количество контрибьютеров |
---|---|
5.1k+ | 45+ |
5. Kedro
Kedro предназначен для создания воспроизводимого, поддерживаемого и многомодульного MLOps-кода. Он заимствует концепции из программной инженерии и применяет их к коду машинного обучения; прикладные концепции включают модульность, разделение задач и управление версиями. Также в нем имеется возможность визуализировать конвейеры через Web-интерфейс.
Количество звезд | Количество контрибьютеров |
---|---|
4.8k+ | 120+ |
Код курса
MLOps
Ближайшая дата курса
по запросу
Продолжительность
ак.часов
Стоимость обучения
0 руб.
6. ClearML
ClearML отслеживает и контролирует процесс создания моделей с использованием системы контроля версий. Сам фреймворк состоит из трёх модулей:
- Experiment Manager, предназначенный для управления окружениями и результатами
- ML-Ops для автоматизации и оркестирования
- Data-Management для управления данными и версиями
Количество звезд | Количество контрибьютеров |
---|---|
2.9k+ | 39 |
7. Seldon Core
Seldon Core — это MLOps-платформа, предназначенная для оптимизации рабочих процессов машинного обучения с помощью журналирования, расширенных метрик, тестирования (например A/B), масштабирования и преобразования моделей в микросервисы (REST или GRPC).
Количество звезд | Количество контрибьютеров |
---|---|
2.8k | 120+ |
8. Flyte
Flyte — ещё одна MLOps-платформа для отслеживания, обслуживания и автоматизации рабочих процессов (в т.ч. процессов по типу Kubernates) машинного обучения. Она обеспечивает воспроизводимость выполнения моделей машинного обучения за счет отслеживания изменений модели, управления версиями и контейнеризации модели вместе с ее зависимостями. Имеет как CLI-, так и Web-интерфейс.
Количество звезд | Количество контрибьютеров |
---|---|
1.8k | 60+ |
Ещё больше подробностей об инструментах разработки MLOps-разработчиков и их применении вы узнаете на специализированном курсе «Разработка и внедрение ML-решений» в лицензированном учебном центре обучения и повышения квалификации разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве.