De TF-IDF-DataFrame maken
Nu je TF-IDF-features hebt gegenereerd, moet je ze in een formaat zetten dat je kunt gebruiken om aanbevelingen te doen.
Je gebruikt hiervoor opnieuw pandas en verpakt de array in een DataFrame.
Omdat je de filmtitels gaat gebruiken om je data te filteren, kun je de titels toewijzen aan de index van de DataFrame.
De DataFrame df_plots is weer voor je ingeladen. Deze bevat de namen van films in de kolom Title en hun verhaallijnen in de kolom Plot.
Deze oefening maakt deel uit van de cursus
Aanbevelingssystemen bouwen in Python
Oefeninstructies
- Maak een
TfidfVectorizeren voer fit en transform uit zoals in de vorige oefening. - Verpak de gegenereerde
vectorized_datain een DataFrame. Gebruik de namen van de features die tijdens de fit- en transform-fase zijn gegenereerd als kolomnamen en ken je nieuwe DataFrame toe aantfidf_df. - Wijs de oorspronkelijke filmtitels toe aan de index van de nieuw aangemaakte DataFrame
tfidf_df.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from sklearn.feature_extraction.text import TfidfVectorizer
# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot'])
# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())
# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())