TF-IDF van filmplots
Laten we de plots van willekeurig geselecteerde films gebruiken om documentclustering op uit te voeren. Voordat je documenten clustert, moeten ze worden opgeschoond van ongewenste ruis (zoals speciale tekens en stopwoorden) en omgezet in een sparse matrix via TF-IDF van de documenten.
Gebruik de klasse TfidfVectorizer om de TF-IDF van filmplots in de lijst plots uit te voeren. De functie remove_noise() is beschikbaar om te gebruiken als tokenizer in de klasse TfidfVectorizer. De methode .fit_transform() past de data op de TfidfVectorizer-objecten en genereert vervolgens de TF-IDF sparse matrix.
Let op: het uitvoeren van de methode .fit_transform() duurt een paar seconden.
Deze oefening maakt deel uit van de cursus
Clusteranalyse in Python
Oefeninstructies
- Importeer de klasse
TfidfVectorizeruitsklearn. - Initialiseer de klasse
TfidfVectorizermet minimale en maximale frequenties van 0.1 en 0.75, en 50 maximale features. - Gebruik de methode
fit_transform()op de geïnitialiseerde klasseTfidfVectorizermet de lijst plots.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)
# Use the .fit_transform() method on the list plots
tfidf_matrix = ____