Dein erstes TfIdf
In dieser Übung wendest du die TfIdf-Methode auf den kleinen annak-Datensatz an, der den ersten Satz aus Anna Karenina von Leo Tolstoi enthält.
Deine Aufgabe ist es, mit diesem Datensatz zu arbeiten und die Funktion TfidfVectorizer() anzuwenden. Denk daran: Eine numerische Transformation von Text ist der erste Schritt, um die Stimmung (Sentiment) des Textes zu verstehen. Der TfIdf-Vektorisierer ist eine weitere Möglichkeit, aus unserer Sentiment-Spalte ein Vokabular zu erstellen.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Importiere die Funktion zum Erstellen eines TfIdf-Vektorisierers aus
sklearn.feature_extraction.text. - Rufe die Funktion
TfidfVectorizer()auf und fitte sie auf dem Datensatzannak. - Transformiere den Vektorisierer.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the required function
____
annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']
# Call the vectorizer and fit it
anna_vect = ____.___(annak)
# Create the tfidf representation
anna_tfidf = anna_vect.____(annak)
# Print the result
print(anna_tfidf.toarray())