Kaggle

Kaggle – это онлайн-сообщество Data Scientist’ов и специалистов по машинному обучению (machine learning). Kaggle позволяет пользователям находить или публиковать датасеты, строить модели в специальной среде  Kernel, работать с другими ML-специалистами и участвовать в соревнованиях в области Data Science.

История

Kaggle начал свою деятельность в 2010 году с проведения соревнований по машинному обучению. На данный момент Kaggle предоставляет платформу для публикации датасетов, для образования в области искусственного интеллекта (AI), а также облачную рабочую среду разработки. C 2011 года капитал компании был увеличен до 12.5 миллионов долларов. 8 марта 2017 года Google объявил о приобретении копманнии [1].

Сообщество

В июле 2020 года, компания объявила о 5 миллионах зарегистрированных пользователях [2]. Это самое большое сообщество по Data Science. Здесь можно найти как начинающих Data Scientis’ов, так и опытных профессионалов. Соревнования привлекают тысячи команд со всего мира.

В Kaggle содержит 50.000 датасетов и 400.000 блокнотов с исходным кодом. Многие исследователи после соревнований пишут научные статьи о своих результатах. Так, например, Джеффри Хинтон, пионер Deep Learning, со своими коллегами выиграли соревнование в сфере медицины и после этого опубликовали статью. Это было одна из первых побед глубокого обучения.

График странам с участниками Kaggle-соревнований
Количество участников по ТОП-8 странам в 2019 году

Услуги и возможности Kaggle

  • Площадка для соревнований по Machine Learning. Со дня основания и по сей день основная цель Kaggle – дать возможность организациям устроить конкурс на лучшие модели и алгоритмы.
  • Kaggle Kernels – облачная среда разработки по типу Jupyter Notebook и является аналогом Google Colab. Также каждому пользователю дается использовать GPU на 30 часов в неделю бесплатно [3]. Своими разработками в Kernels можно делиться со всеми.
  • Публикация, хранение и использование датасетов. Сообщество и организации, которые проводят соревнования, делятся наборами данных. Здесь можно найти текстовые данные, изображения, аудио и видео всевозможных сфер деятельности.
  • Kaggle Learn – мини-курсы с использование Kernels для ознакомления с Data Science.
  • Job’s Board, в которой работодатели выкладывают списки вакансий.
  • User ranking, который включает список лучших конкурсантов, датасетов, блокнотов, а также лучших пользователей форума. Система делит пользователей на следующие категории:
    1. Grandmaster
    2. Master
    3. Expert
    4. Contributors
    5. Novices

Как происходят соревнования

Kaggle предоставляет закрытые и открытые соревнования по машинному обучению. В закрытых могут принимать участие только команды по приглашению. Соревнование выглядит следующим образом:

  1. Организатор соревнований готовит данные и детальное описание к проблеме, которую нужно решить. Kaggle также предоставляет консультационные услуги по организации.
  2. Участники предоставляют свои решения, которые оцениваются через тесты организаторов.
  3. Рейтинги работ публикуются в реальном времени.
  4. По истечении установленного срока формируются списки победителей и выплачивается призовой фонд. Организаторы соревнований имеют интеллектуальные права на разработанный победителями алгоритм, модель или ПО.

Модели могут разрабатываться с использованием любых вычислительных ресурсов, поэтому команды с хорошим оборудованием и располагающие облачными ресурсами с GPU будут иметь преимущество.

Участие в соревнованиях может дать конкурсанту практический опыт в разработке моделей Machine Learning. Призовые места обеспечат не только денежным призом, но и всемирной известностью в сообществе Data Science.

Источники

  1. https://www.cnet.com/news/googlebuyskaggleanditsgaggleofaigeeks/
  2. https://www.kaggle.com/general/164795
  3. https://www.kaggle.com/page/GPUtipsandtricks