Je eerste TfIdf
In deze oefening pas je de TfIdf-methode toe op de kleine annak-gegevensset, die de eerste zin van Anna Karenina van Lev Tolstoj bevat.
Je gaat met deze gegevensset werken en de functie TfidfVectorizer() toepassen. Bedenk dat het numeriek transformeren van tekst je eerste stap is om het sentiment van de tekst te kunnen begrijpen. De Tfidf-vectorizer is een andere manier om een vocabulaire op te bouwen uit onze sentimentkolom.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer de functie om een TfIdf-vectorizer te bouwen uit
sklearn.feature_extraction.text. - Roep de functie
TfidfVectorizer()aan en fit deze op deannak-gegevensset. - Transformeer de vectorizer.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the required function
____
annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']
# Call the vectorizer and fit it
anna_vect = ____.___(annak)
# Create the tfidf representation
anna_tfidf = anna_vect.____(annak)
# Print the result
print(anna_tfidf.toarray())