TF-IDF delle trame dei film
Usiamo le trame di film selezionati casualmente per effettuare il clustering dei documenti. Prima di eseguire il clustering sui documenti, occorre ripulirli da rumore indesiderato (come caratteri speciali e stop word) e convertirli in una matrice sparsa tramite il TF-IDF dei documenti.
Usa la classe TfidfVectorizer per calcolare il TF-IDF delle trame dei film salvate nella lista plots. La funzione remove_noise() è disponibile da usare come tokenizer nella classe TfidfVectorizer. Il metodo .fit_transform() adatta i dati agli oggetti TfidfVectorizer e poi genera la matrice sparsa TF-IDF.
Nota: l'esecuzione del metodo .fit_transform() richiede alcuni secondi.
Questo esercizio fa parte del corso
Analisi di cluster in Python
Istruzioni dell'esercizio
- Importa la classe
TfidfVectorizerdasklearn. - Inizializza la classe
TfidfVectorizercon frequenze minima e massima pari a 0.1 e 0.75, e 50 feature massime. - Usa il metodo
fit_transform()sull'istanza diTfidfVectorizerinizializzata con la lista plots.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)
# Use the .fit_transform() method on the list plots
tfidf_matrix = ____