Все курсы
Практический курс Подготовка данных для Data Mining на языке Python
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
DPREP | по запросу |
72 000 руб. | 32 ак.часов | Дистанционный |
Регистрация |
Практический курс для статистиков, начинающих Data Scientist’ов, архитекторов Data Lake, аналитиков и инженеров данных по подготовке Big Data к машинному обучению, моделированию и интеллектуальному анализу на примере использования Apache Spark и Python.
Что такое подготовка данных в процессе Data Mining и зачем она нужна
Подготовка данных выполняется при загрузке информации в корпоративное озеро (Data Lake), интеллектуальном анализе данных (Data Mining) и моделировании в рамках машинного обучения (Machine Learning). Вообще процесс сбора и подготовки данных — один из самых трудоемких и сложных этапов в анализе информации, который занимает до 80% времени. Сама подготовка данных состоит из следующих этапов:
- выборка;
- очистка;
- генерация признаков;
- интеграция;
- форматирование.
Статистические методики и специальное программное обеспечение позволяют значительно сократить временные и финансовые затраты всех этих процессов, а также повысить качество конечных результатов.
Кому нужны курсы по подготовке данных
Наши практические курсы по подготовке данных к Data Mining ориентированы на статистиков, исследователей, начинающих Data Scientist’ов, специалистов по машинному обучению, архитекторов Data Lake, аналитиков и инженеров данных, которые отвечают за сбор, подготовку и очистку Big Data. Курс позволит вам получить «продвинутые» знания и прикладные навыки подготовки»сырых» датасетов для получения качественных результатов ML-моделирования и интеллектуального анализа данных.
Также курс «Подготовка данных для Data Mining на Python» будет полезен специалистам по работе с большими данными, разработчикам и руководителям, которые хотят понять подходы к подготовке данных для решения бизнес-задач с помощью Machine Learning и получить практические навыки в этой области.
Если вы хотите разобраться с основами Data Mining и научиться самостоятельно формировать датасеты для машинного обучения, а также освоить инструменты Apache Spark и Python для статистической обработки больших данных, вам необходим этот курс подготовка данных для Data Mining.
Предварительный уровень подготовки:
- опыт программирования на языке Python;
- знание основ математического анализа и математической статистики;
- прохождение онлайн-курса FUNP «Основы языка Python для анализа данных и решения задач машинного обучения»
Как устроены курсы по подготовке данных
Продолжительность: 8 дней, 32 академических часа
Документ об окончании курса: сертификат учебного центра.
Данный курс является введением в подготовку данных для машинного обучения (Machine Learning) и интеллектуального анализа (Data Mining). В курсе описаны основные особенности в данных, с которыми приходится сталкиваться при их подготовке для решения бизнес-задач с помощью алгоритмов машинного обучения. Также курс включает изучение углубленных возможностей работы с «сырыми» данными, чтобы обеспечить высокое качество результатов ML-моделирования и интеллектуального анализа данных.
Вы познакомитесь с расширенными библиотеками языка Python и PySpark: их возможностями и ограничениями для решения таких задач по подготовке данных к Machine Learning и Data Mining, как как первичный анализ, корректировка особенностей, получение описательных статистик и визуализация, формирование дополнительного признакового пространства и выявление наиболее значимых признаков.
Самостоятельно выполненный итоговый проект по полному циклу подготовки данных поможет вам закрепить приобретенные знания и навыки, а также глубже погрузиться в практику науки о данных (Data Science).
Программа курса «Графовые алгоритмы. Бизнес-приложения»
1. Продвинутые возможности библиотек языка Python для обработки и визуализации данных (День 1-2)
Цель: познакомить участников с продвинутыми возможностями основных библиотек языка Python для обработки и визуализации данных и сформировать необходимые навыки по работе с данными в рассматриваемых библиотеках
Теоретическая часть:
- изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
- обзор основных приемов по работе с данными:
- первичный анализ данных
- получение описательных статистик
- изменение типа данных
- построение сводных таблиц
- визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, «ящики с усами» и «виолончели»)
Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных.
2. Библиотеки Python в корректировании типичных особенностей в данных (День 3-4)
Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).
Теоретическая часть:
- обзор типичных особенностей в данных и подходов к их корректировке:
- отсутствующие значения
- выбросы
- дубликаты
- подготовка данных для использования в алгоритмах машинного обучения:
- нормализация числовых данных
- преобразование категориальных значений
- работа с текстовыми данными
Практическая часть: подготовка «сырых» данных для использования в алгоритме машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма
3. Подходы к построению дополнительного признакового пространства на основе исходных данных (День 5-6)
Цель: познакомить участников с основными подходами получения дополнительных и наиболее значимых характеристик из исходных данных. Продемонстрировать влияние дополнительных признаков на улучшение метрик качества работы алгоритмов машинного обучения с использованием библиотеки Sklearn
Теоретическая часть:
- обзор подходов формирования дополнительного признакового пространства и выбора наиболее значимых характеристик
- увеличение размерности исходного признакового пространства
- постановка задачи в случае обучения с учителем — с использованием целевой переменной
- постановка задачи в случае обучения без учителя
- уменьшение размерности исходного признакового пространства
- увеличение размерности исходного признакового пространства
- подробный анализ задачи увеличения размерности исходного признакового пространства в случае обучения с учителем:
- статистические методы фильтрации признаков в задачах классификации и регрессии
- методы машинного обучения как инструменты для получения наиболее значимых признаков в данных
Практическая часть: решение прикладной задачи построения дополнительного признакового пространства и получения наиболее значимых признаков с подробным анализом влияния рассмотренных теоретических подходов на конечный результат работы алгоритмов машинного обучения
4. Проектная работа (День 7-8)
Цель: закрепить полученные слушателями курса знания по подготовке данных.
Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.
Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.
Кто проводит курс
Климов Артем
Нижегородский Государственный Университет им. Н.И. Лобачевского (Нижний Новгород, 2006)
Профессиональные компетенции:
- Ведущий менеджер по исследованию больших данных в TELE2
- Разработка алгоритмов мэтчинга и классификации товарных категорий на базе ОФД данных
- Реализация моделей по обнаружению AML-схем и мошеннических транзакций
- Графовый и текстовый анализ данных в проекте сегментации телефонных номеров
- Разработка вероятностных моделей (уход сотрудников, отток клиентов,прогнозированиепродаж и геолокации, кредитный скоринг)
- Программирование на Python, R, Scala, SQL; Опыт работы с Hadoop, Spark, СУБД Oracle и Teradata,Impala,Hive
- Владение аналитическими пакетами MATLAB, Weka, SPSS, FANN, Gephi, Deductor
- Современные алгоритмов и инструментыMachine Learning, в т.ч. библиотеки H2O, Xgboost, Feature Hashing, Word2Vec для решения бизнес-задач