Creare il DataFrame TF-IDF
Ora che hai generato le feature TF-IDF, devi portarle in un formato che puoi usare per fare raccomandazioni.
Userai di nuovo pandas per questo, incapsulando l'array in un DataFrame.
Dal momento che userai i titoli dei film per filtrare i dati, puoi assegnare i titoli all'indice del DataFrame.
Il DataFrame df_plots è stato nuovamente caricato per te. Contiene i nomi dei film nella colonna Title e le trame nella colonna Plot.
Questo esercizio fa parte del corso
Creare motori di raccomandazione in Python
Istruzioni dell'esercizio
- Crea un
TfidfVectorizered esegui fit e transform come nel precedente esercizio. - Incapsula il
vectorized_datagenerato in un DataFrame. Usa come nomi di colonna le feature generate durante la fase di fit e transform e assegna il nuovo DataFrame atfidf_df. - Assegna i titoli originali dei film all'indice del nuovo DataFrame
tfidf_df.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from sklearn.feature_extraction.text import TfidfVectorizer
# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot'])
# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())
# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())