Все курсы
Практический курс Подготовка данных для Data Mining на языке Python
Ближайшая дата курса | 24 октября 2023 |
|
Стоимость обучения | 66 000 руб. | Регистрация |
Длительность обучения | 32 ак.часов | |
Код курса | DPREP |
Практический курс для статистиков, начинающих Data Scientist’ов, архитекторов Data Lake, аналитиков и инженеров данных по подготовке Big Data к машинному обучению, моделированию и интеллектуальному анализу на примере использования Apache Spark и Python.
Что такое подготовка данных в процессе Data Mining и зачем она нужна
Подготовка данных выполняется при загрузке информации в корпоративное озеро (Data Lake), интеллектуальном анализе данных (Data Mining) и моделировании в рамках машинного обучения (Machine Learning). Вообще процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе информации, который занимает до 80% времени. Сама подготовка данных состоит из следующих этапов:
- выборка;
- очистка;
- генерация признаков;
- интеграция;
- форматирование.
Статистические методики и специальное программное обеспечение позволяют значительно сократить временные и финансовые затраты всех этих процессов, а также повысить качество конечных результатов.
Кому нужны курсы по подготовке данных
Наши практические курсы по подготовке данных к Data Mining ориентированы на статистиков, исследователей, начинающих Data Scientist’ов, специалистов по машинному обучению, архитекторов Data Lake, аналитиков и инженеров данных, которые отвечают за сбор, подготовку и очистку Big Data. Курс позволит вам получить «продвинутые» знания и прикладные навыки подготовки»сырых» датасетов для получения качественных результатов ML-моделирования и интеллектуального анализа данных.
Также курс «Подготовка данных для Data Mining на Python» будет полезен специалистам по работе с большими данными, разработчикам и руководителям, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью Machine Learning и получить практические навыки в этой области.
Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить инструменты Apache Spark и Python для статистической обработки больших данных, вам необходим этот курс подготовка данных для Data Mining.
Предварительный уровень подготовки:
- опыт программирования на языке Python;
- знание основ математического анализа и математической статистики;
- прохождение онлайн-курса FUNP «Основы языка Python для анализа данных и решения задач машинного обучения»
Как устроены курсы по подготовке данных
Продолжительность: 8 дней, 32 академических часа
Документ об окончании курса: сертификат учебного центра.
Данный курс является введением в подготовку данных для машинного обучения (Machine Learning) и интеллектуального анализа (Data Mining). В курсе описаны основные особенности в данных, с которыми приходится сталкиваться при их подготовке для решения бизнес-задач с помощью алгоритмов машинного обучения. Также курс включает изучение углубленных возможностей работы с «сырыми» данными, чтобы обеспечить высокое качество результатов ML-моделирования и интеллектуального анализа данных.
Вы познакомитесь с расширенными библиотеками языка Python и PySpark: их возможностями и ограничениями для решения таких задач по подготовке данных к Machine Learning и Data Mining, как как первичный анализ, корректировка особенностей, получение описательных статистик и визуализация, формирование дополнительного признакового пространства и выявление наиболее значимых признаков.
Самостоятельно выполненный итоговый проект по полному циклу подготовки данных поможет вам закрепить приобретенные знания и навыки, а также глубже погрузиться в практику науки о данных (Data Science).
Программа курса «Подготовка данных для Data Mining на Python»
1. Продвинутые возможности библиотек языка Python для обработки и визуализации данных (День 1-2)
Цель: познакомить участников с продвинутыми возможностями основных библиотек языка Python для обработки и визуализации данных и сформировать необходимые навыки по работе с данными в рассматриваемых библиотеках
Теоретическая часть:
- изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
- обзор основных приемов по работе с данными:
- первичный анализ данных
- получение описательных статистик
- изменение типа данных
- построение сводных таблиц
- визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, «ящики с усами» и «виолончели»)
Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных.
2. Библиотеки Python в корректировании типичных особенностей в данных (День 3-4)
Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).
Теоретическая часть:
- обзор типичных особенностей в данных и подходов к их корректировке:
- отсутствующие значения
- выбросы
- дубликаты
- подготовка данных для использования в алгоритмах машинного обучения:
- нормализация числовых данных
- преобразование категориальных значений
- работа с текстовыми данными
Практическая часть: подготовка «сырых» данных для использования в алгоритме машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма
3. Подходы к построению дополнительного признакового пространства на основе исходных данных (День 5-6)
Цель: познакомить участников с основными подходами получения дополнительных и наиболее значимых характеристик из исходных данных. Продемонстрировать влияние дополнительных признаков на улучшение метрик качества работы алгоритмов машинного обучения с использованием библиотеки Sklearn
Теоретическая часть:
- обзор подходов формирования дополнительного признакового пространства и выбора наиболее значимых характеристик
- увеличение размерности исходного признакового пространства
- постановка задачи в случае обучения с учителем — с использованием целевой переменной
- постановка задачи в случае обучения без учителя
- уменьшение размерности исходного признакового пространства
- увеличение размерности исходного признакового пространства
- подробный анализ задачи увеличения размерности исходного признакового пространства в случае обучения с учителем:
- статистические методы фильтрации признаков в задачах классификации и регрессии
- методы машинного обучения как инструменты для получения наиболее значимых признаков в данных
Практическая часть: решение прикладной задачи построения дополнительного признакового пространства и получения наиболее значимых признаков с подробным анализом влияния рассмотренных теоретических подходов на конечный результат работы алгоритмов машинного обучения
4. Проектная работа (День 7-8)
Цель: закрепить полученные слушателями курса знания по подготовке данных.
Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.
Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.
Программа курса «DREP: Подготовка данных для Data Mining на Python»
Отправить на: