Не знаете куда двигаться дальше в области Data Science? Или начинаете осваивать профессию Data Scienсе? В этой статье мы поделимся свами 12 советами, которые пригодятся начинающим Data Scientsit’ам.
1. Бритва Оккама: часто простое решение лучше сложного
Вы можете знать огромное количество алгоритмов машинного обучения (Machine Learning) и архитектур нейронных сетей, но это не значит, что любую проблему нужно решать именно ими. Может быть достаточно обычной линейной регрессии, а не использование многослойной сверточной сети (CNN). Простые решения всегда легче реализовать и поддерживать.
Попробуйте начать с простого, проанализировать результаты, а затем, если требуется, усложняйте.
2. Изучайте новые библиотеки
Возможно вы уже привыкли к таким Python библиотекам, как Pandas, Scikit-learn, TensorFlow и т.д. Но новые инструменты анализа и обработки данных появляются не просто так. Они предназначены, чтобы заполнить пробелы в существующих библиотеках. Например, в одной статье мы говорили о том, что Vaex и Dask лучше обрабатывают большие данные по сравнению с Pandas, при этом они обладают схожим с API. Библиотека Pandas имеет отличную документацию, стабильно работает, но плохо справляется с Big Data. Или, например, для деплоя моделей вместо традиционного Flask начинают применять FastAPI, потому что он ещё проще.
Чтобы не закостенеть и не застрять в мире прошлых технологий, смотрите в сторону новинок (иногда достаточно ознакомиться с документацией, чтобы понять в чем их преимущества).
3. Быть эффективным — не значит торопиться
В любом деле не стоит торопиться. В частности, следует уделить время глубокому пониманию бизнес-проблемы, которую вы пытаетесь решить, и пониманию данных, с которыми работаете.
Есть ряд вопросов, на которые вы должны уметь ответить, прежде чем погрузиться в разработку модели. К ним может относиться: откуда берутся данные, какие отношения между атрибутами и таблицами, подготовка данных, какие библиотеки использовать и т.д.
4. Метрики, возможно, более важны, чем сама модель
Этот совет каким-то образом связан с предыдущим в том смысле, что нужно хорошее понимание решаемой проблемы. Так, следует выяснить, какую метрику вы пытаетесь минимизировать, потому что в основе машинного обучения лежит статистика и оптимизация.
Причем одна метрика может выдавать высокую точность, но это не значит, что её выбор объективно оправдан.
5. Изучите основы, особенно статистику
Как уже было сказано, в основе машинного обучения лежит статистика, но это относится и к Data Science в принципе. Вы не можете обойтись без статистических метрик в рамках анализа данных. Поэтому если вы сначала изучите статистику, вам будет намного проще изучать концепции и алгоритмы Machine Learning.
6. Изучите язык запросов SQL
Умение работать с SQL — это один из самых важный навык, которому нужно овладеть в любой профессии, связанной с данными, будь то специалист по данным (data scientist), инженер данных (data engineer), аналитик данных (data analyst), бизнес-аналитик и т.д.
SQL важен не только для построения конвейеров, извлечения и обработки данных, но теперь вы можете фактически создавать модели машинного обучения, используя запросы SQL, как это, например, реализовано в BigQuery ML (помним про совет №2).
7. Не тратьте время на то, чтобы все запомнить
В Data Science слишком много всего, чтобы всё это запомнить. К тому же это пустая трата времени. Что-то лучше попытаться найти в Интернете или документации.
Можете создать таблицу, где будете хранить полезные ссылки, к которым вы часто возвращаетесь. Можете добавлять туда страницы с документацией, обучающие уроки в YouTube или курсы, в том числе наши.
8. Быстрое развертывание, быстрое итерирование и постоянная обратная связь.
Важно постоянно общаться со всеми заинтересованными сторонами, держать их в курсе ваших наработок и идей. В этом и цель обратной связи. В противном случае вы можете получить модель, которая не решает поставленную задачу.
Можете использовать такой Python инструмент, как Gardio, для создания веб-интерфейсов итерации вашей модели. Его также можно демонстрировать заказчикам.
9. Изучите рынок возле себя
Как data scientist, вам нужно уметь продавать свои идеи и построенные модели. Вы должны преподносить их как то, что спасет бизнеса клиента и поможет получить новую прибыль. Не каждая компания думает, что им нужны какие-то модели, поэтому убедите их в обратном.
10. Составьте график, чтобы учиться постоянно
Если вы собираетесь учиться, делайте это правильно. У нас имеется тенденция что-то забывать. Проще говоря, вам нужно быть последовательным в изучении Data Science и практиковать то, что вы изучаете, чтобы быть востребованным на рынке труда.
Будьте честны с собой и составьте график, которого вы будете придерживаться. Дисциплины изучения приблизительно одинаковые для начинающих Data Scientist’ов, к ним относятся: изучение Python, SQL, статистика и теория вероятности, Pandas, визуализация данных, алгоритмы.
11. Узнайте, как использовать Git и GitHub
Система контроля версий применяется практически везде. Она позволяет фиксировать результаты вашей работы, возвращаться к предыдущим идеям, улучшать их. Самой популярной системой контроля версий является Git. А GitHub — это ресурс, в котором программисты делятся своими наработками, участвуют в разработке. Вы можете также использовать его для портфолио.
12. Найдите ментора, который направит в нужное русло
Чтение книг может стать утомляющим, а поток информации дезориентирует во всем этом хаосе. Это нагнетает, поскольку мир Data Science безграничен. Ментор же может всё изменить. Он/Она поможет дать толчок, который вам при имеющихся знаниях, навыках и интересах так необходим. Именно для этого предназначены наши курсы по Data Science на языке Python, где структура программы задана в соответствии с сегодняшними стандартами, где вы можете получить обратную связь по интересующимся вопросам, в лицензированном учебном центре обучения и повышения квалификации Data Scientist’ов, специалистов Big Data в Москве.