Istanzia il modello TF-IDF
Per impostazione predefinita, TF-IDF genera una colonna per ogni parola presente in tutti i tuoi documenti (nel nostro caso, i riassunti dei film). Questo crea un insieme di dati enorme e poco intuitivo, perché contiene sia parole molto comuni che compaiono in ogni documento, sia parole così rare da non aggiungere valore nel trovare somiglianze tra gli elementi.
In questo esercizio, lavorerai con il DataFrame df_plots. Contiene i titoli dei film nella colonna Title e le trame nella colonna Plot.
Usando questo DataFrame, genererai i punteggi TF-IDF di default e verificherai se sono presenti colonne non utili.
Poi rilancerai i calcoli TF-IDF, questa volta limitando il numero di colonne usando gli argomenti min_df e max_df, e vedrai (si spera) il miglioramento.
Questo esercizio fa parte del corso
Creare motori di raccomandazione in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from sklearn.feature_extraction.text import TfidfVectorizer
# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()
# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])
# Look at the features generated
print(____.____())