Kaggle – это онлайн-сообщество Data Scientist’ов и специалистов по машинному обучению (machine learning). Kaggle позволяет пользователям находить или публиковать датасеты, строить модели в специальной среде Kernel, работать с другими ML-специалистами и участвовать в соревнованиях в области Data Science.
История
Kaggle начал свою деятельность в 2010 году с проведения соревнований по машинному обучению. На данный момент Kaggle предоставляет платформу для публикации датасетов, для образования в области искусственного интеллекта (AI), а также облачную рабочую среду разработки. C 2011 года капитал компании был увеличен до 12.5 миллионов долларов. 8 марта 2017 года Google объявил о приобретении копманнии [1].
Сообщество
В июле 2020 года, компания объявила о 5 миллионах зарегистрированных пользователях [2]. Это самое большое сообщество по Data Science. Здесь можно найти как начинающих Data Scientis’ов, так и опытных профессионалов. Соревнования привлекают тысячи команд со всего мира.
В Kaggle содержит 50.000 датасетов и 400.000 блокнотов с исходным кодом. Многие исследователи после соревнований пишут научные статьи о своих результатах. Так, например, Джеффри Хинтон, пионер Deep Learning, со своими коллегами выиграли соревнование в сфере медицины и после этого опубликовали статью. Это было одна из первых побед глубокого обучения.
Услуги и возможности Kaggle
- Площадка для соревнований по Machine Learning. Со дня основания и по сей день основная цель Kaggle — дать возможность организациям устроить конкурс на лучшие модели и алгоритмы.
- Kaggle Kernels — облачная среда разработки по типу Jupyter Notebook и является аналогом Google Colab. Также каждому пользователю дается использовать GPU на 30 часов в неделю бесплатно [3]. Своими разработками в Kernels можно делиться со всеми.
- Публикация, хранение и использование датасетов. Сообщество и организации, которые проводят соревнования, делятся наборами данных. Здесь можно найти текстовые данные, изображения, аудио и видео всевозможных сфер деятельности.
- Kaggle Learn — мини-курсы с использование Kernels для ознакомления с Data Science.
- Job’s Board, в которой работодатели выкладывают списки вакансий.
- User ranking, который включает список лучших конкурсантов, датасетов, блокнотов, а также лучших пользователей форума. Система делит пользователей на следующие категории:
- Grandmaster
- Master
- Expert
- Contributors
- Novices
Как происходят соревнования
Kaggle предоставляет закрытые и открытые соревнования по машинному обучению. В закрытых могут принимать участие только команды по приглашению. Соревнование выглядит следующим образом:
- Организатор соревнований готовит данные и детальное описание к проблеме, которую нужно решить. Kaggle также предоставляет консультационные услуги по организации.
- Участники предоставляют свои решения, которые оцениваются через тесты организаторов.
- Рейтинги работ публикуются в реальном времени.
- По истечении установленного срока формируются списки победителей и выплачивается призовой фонд. Организаторы соревнований имеют интеллектуальные права на разработанный победителями алгоритм, модель или ПО.
Модели могут разрабатываться с использованием любых вычислительных ресурсов, поэтому команды с хорошим оборудованием и располагающие облачными ресурсами с GPU будут иметь преимущество.
Участие в соревнованиях может дать конкурсанту практический опыт в разработке моделей Machine Learning. Призовые места обеспечат не только денежным призом, но и всемирной известностью в сообществе Data Science.