De TF-IDF-DataFrame maken

Nu je TF-IDF-features hebt gegenereerd, moet je ze in een formaat zetten dat je kunt gebruiken om aanbevelingen te doen. Je gebruikt hiervoor opnieuw pandas en verpakt de array in een DataFrame. Omdat je de filmtitels gaat gebruiken om je data te filteren, kun je de titels toewijzen aan de index van de DataFrame.

De DataFrame df_plots is weer voor je ingeladen. Deze bevat de namen van films in de kolom Title en hun verhaallijnen in de kolom Plot.

Deze oefening maakt deel uit van de cursus

Aanbevelingssystemen bouwen in Python

Bekijk cursus

Oefeninstructies

Maak een TfidfVectorizer en voer fit en transform uit zoals in de vorige oefening.
Verpak de gegenereerde vectorized_data in een DataFrame. Gebruik de namen van de features die tijdens de fit- en transform-fase zijn gegenereerd als kolomnamen en ken je nieuwe DataFrame toe aan tfidf_df.
Wijs de oorspronkelijke filmtitels toe aan de index van de nieuw aangemaakte DataFrame tfidf_df.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot']) 

# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())

# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())

Code bewerken en uitvoeren