Как ускорить обработку данных в Pandas в 600 раз
автор рубрика

Как ускорить обработку данных в Pandas в 600 раз

Pandas — полезный инструмент Data Science, но некоторые его методы для обработки данных требуют слишком много времени. Поэтому сегодня мы расскажем, как ускорить Pandas в сотни раз с помощью всего…

Обучение NLP-модели Word2veс на русских текстах с Python
автор рубрика

Обучение NLP-модели Word2veс на русских текстах с Python

Продолжаем решать NLP-задачи на примере корпуса с русскоязычными twitter-постами, на основе которого мы получили датасет [вот здесь]. Сегодня мы расскажем, как построить и обучить свою word2vec-модель Machine Learning, используя Python-библиотеку…

Как работает Word2Vec: нейросети для NLP
автор рубрика

Как работает Word2Vec: нейросети для NLP

Как уже было сказано в прошлый раз, существует несколько видов преобразования слов в числа. Одним из таких NLP-методов является Word Embeddings. В этой статье рассмотрим наиболее популярную разновидность Word Embeddings – нейросеть Word2Vec.…

4 метода векторизации текстов
автор рубрика

4 метода векторизации текстов

Обработка естественного языка или NLP (Natural Language Processing) занимается применением алгоритмов Machine Learning для текстовых данных. Как правило, модели машинного обучения работают с числами. В этой статье поговорим о 4-х наиболее применяемых методах для перевода…