5 библиотек Python, которые сделают жизнь Data Sciеntist'a проще
автор рубрика ,

5 библиотек Python, которые сделают жизнь Data Sciеntist'a проще

Data Science развивается очень быстро, поэтому появляются все больше и больше библиотек Python. Одну задачу можно выполнить с помощью более чем одной библиотеки и более чем одним способом. Среди всего…

Обучение NLP-модели Word2veс на русских текстах с Python
автор рубрика

Обучение NLP-модели Word2veс на русских текстах с Python

Продолжаем решать NLP-задачи на примере корпуса с русскоязычными twitter-постами, на основе которого мы получили датасет [вот здесь]. Сегодня мы расскажем, как построить и обучить свою word2vec-модель Machine Learning, используя Python-библиотеку…

Готовим русские тексты для Machine Learning с Python
автор рубрика

Готовим русские тексты для Machine Learning с Python

В прошлый раз мы разобрали, как обработать текстовые данные с помощью разных Python-библиотек. Сегодня мы расскажем, как с помощью Python подготовить настоящий датасет с разнообразными twitter-постами на русском языке перед созданием модели…

Как работает Word2Vec: нейросети для NLP
автор рубрика

Как работает Word2Vec: нейросети для NLP

Как уже было сказано в прошлый раз, существует несколько видов преобразования слов в числа. Одним из таких NLP-методов является Word Embeddings. В этой статье рассмотрим наиболее популярную разновидность Word Embeddings – нейросеть Word2Vec.…

Задача классификации текстовых данных с word embeddings в TensorFlow
автор рубрика

Задача классификации текстовых данных с word embeddings в TensorFlow

В прошлый раз мы говорили о предварительной обработке и векторизации текстов в NLP. Сегодня рассмотрим, как обучить алгоритмы машинного обучения (Machine Learning) на обработанных и векторизованных данных. Читайте в нашей…

Предобработка текста в NLP
автор рубрика

Предобработка текста в NLP

В предыдущий раз мы говорили о векторизации текстовых данных в NLP. Однако прежде чем преобразовать слова в числа, их следует обработать. Читайте в нашей статье о методах предобработки текста: токенизации,…