Initialiseer het TF-IDF-model

TF-IDF genereert standaard een kolom voor elk woord in al je documenten (in ons geval filmsamenvattingen). Dit levert een enorme en onoverzichtelijke gegevensset op, omdat die zowel heel algemene woorden bevat die in elk document voorkomen, als woorden die zo zeldzaam zijn dat ze geen waarde bieden bij het vinden van overeenkomsten tussen items.

In deze oefening werk je met de DataFrame df_plots. Die bevat de filmtitels in de kolom Title en hun samenvattingen in de kolom Plot.

Met deze DataFrame genereer je de standaard TF-IDF-scores en kijk je of er niet-waardevolle kolommen aanwezig zijn.

Daarna voer je de TF-IDF-berekeningen opnieuw uit, dit keer met een beperking op het aantal kolommen via de argumenten min_df en max_df, zodat je hopelijk verbetering ziet.

Deze oefening maakt deel uit van de cursus

Aanbevelingssystemen bouwen in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()

# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])

# Look at the features generated
print(____.____())

Code bewerken en uitvoeren