IniziaInizia gratis

TF-IDF delle trame dei film

Usiamo le trame di film selezionati casualmente per effettuare il clustering dei documenti. Prima di eseguire il clustering sui documenti, occorre ripulirli da rumore indesiderato (come caratteri speciali e stop word) e convertirli in una matrice sparsa tramite il TF-IDF dei documenti.

Usa la classe TfidfVectorizer per calcolare il TF-IDF delle trame dei film salvate nella lista plots. La funzione remove_noise() è disponibile da usare come tokenizer nella classe TfidfVectorizer. Il metodo .fit_transform() adatta i dati agli oggetti TfidfVectorizer e poi genera la matrice sparsa TF-IDF.

Nota: l'esecuzione del metodo .fit_transform() richiede alcuni secondi.

Questo esercizio fa parte del corso

Analisi di cluster in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la classe TfidfVectorizer da sklearn.
  • Inizializza la classe TfidfVectorizer con frequenze minima e massima pari a 0.1 e 0.75, e 50 feature massime.
  • Usa il metodo fit_transform() sull'istanza di TfidfVectorizer inizializzata con la lista plots.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____
Modifica ed esegui il codice