TF-IDF opisów filmów

Wykorzystajmy opisy losowo wybranych filmów do grupowania dokumentów. Przed przystąpieniem do klasteryzacji należy oczyścić dokumenty z niepożądanych elementów (takich jak znaki specjalne i stop words) oraz przekształcić je w macierz rzadką za pomocą TF-IDF.

Użyj klasy TfidfVectorizer, aby wykonać TF-IDF na opisach filmów zapisanych na liście plots. Funkcja remove_noise() jest dostępna jako tokenizer w klasie TfidfVectorizer. Metoda .fit_transform() dopasowuje dane do obiektu TfidfVectorizer, a następnie generuje rzadką macierz TF-IDF.

Uwaga: uruchomienie metody .fit_transform() zajmuje kilka sekund.

Zaimportuj klasę TfidfVectorizer z biblioteki sklearn.
Zainicjalizuj klasę TfidfVectorizer z minimalną i maksymalną częstotliwością odpowiednio 0.1 i 0.75 oraz maksymalnie 50 cechami.
Użyj metody fit_transform() na zainicjalizowanym obiekcie klasy TfidfVectorizer, przekazując listę plots.

ćwiczenie

TF-IDF opisów filmów

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie