1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza skupień w Pythonie

Connected

ćwiczenie

TF-IDF opisów filmów

Wykorzystajmy opisy losowo wybranych filmów do grupowania dokumentów. Przed przystąpieniem do klasteryzacji należy oczyścić dokumenty z niepożądanych elementów (takich jak znaki specjalne i stop words) oraz przekształcić je w macierz rzadką za pomocą TF-IDF.

Użyj klasy TfidfVectorizer, aby wykonać TF-IDF na opisach filmów zapisanych na liście plots. Funkcja remove_noise() jest dostępna jako tokenizer w klasie TfidfVectorizer. Metoda .fit_transform() dopasowuje dane do obiektu TfidfVectorizer, a następnie generuje rzadką macierz TF-IDF.

Uwaga: uruchomienie metody .fit_transform() zajmuje kilka sekund.

Instrukcje

100 XP
  • Zaimportuj klasę TfidfVectorizer z biblioteki sklearn.
  • Zainicjalizuj klasę TfidfVectorizer z minimalną i maksymalną częstotliwością odpowiednio 0.1 i 0.75 oraz maksymalnie 50 cechami.
  • Użyj metody fit_transform() na zainicjalizowanym obiekcie klasy TfidfVectorizer, przekazując listę plots.