TF-IDF — статистическая мера, используемая для оценки важности слова в контексте документы, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален частоте употребления этого слова...
Transfer Learning
Transfer Learning (трансферное обучение) - это подраздел машинного обучения, целью которого является применение знаний, полученные из одной задачи, к другой целевой задаче. Существует множество решений,...
Кросс валидация
Кросс валидация (Cross-validation) — процедура эмпирического оценивания обобщающей способности алгоритмов. С помощью кросс-валидации эмулируется наличие тестовой выборки, которая не участвует в обучении, но для которой...
Лемматизация
Лемматизация – процесс приведения словоформы к лемме — её нормальной (словарной) форме. Алгоритмы лемматизации на языке python реализованы, например, в библиотеке NLTK.
Стемминг
Стемминг - это процесс нахождения основы слова для заданного исходного слова. Алгоритмы стемминга на языке python реализованы, например, в библиотеке NLTK.