Aan de slagGa gratis aan de slag

TF-IDF van filmplots

Laten we de plots van willekeurig geselecteerde films gebruiken om documentclustering op uit te voeren. Voordat je documenten clustert, moeten ze worden opgeschoond van ongewenste ruis (zoals speciale tekens en stopwoorden) en omgezet in een sparse matrix via TF-IDF van de documenten.

Gebruik de klasse TfidfVectorizer om de TF-IDF van filmplots in de lijst plots uit te voeren. De functie remove_noise() is beschikbaar om te gebruiken als tokenizer in de klasse TfidfVectorizer. De methode .fit_transform() past de data op de TfidfVectorizer-objecten en genereert vervolgens de TF-IDF sparse matrix.

Let op: het uitvoeren van de methode .fit_transform() duurt een paar seconden.

Deze oefening maakt deel uit van de cursus

Clusteranalyse in Python

Cursus bekijken

Oefeninstructies

  • Importeer de klasse TfidfVectorizer uit sklearn.
  • Initialiseer de klasse TfidfVectorizer met minimale en maximale frequenties van 0.1 en 0.75, en 50 maximale features.
  • Gebruik de methode fit_transform() op de geïnitialiseerde klasse TfidfVectorizer met de lijst plots.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____
Code bewerken en uitvoeren