TfidfVectorizer für Textklassifikation
Ähnlich wie beim einfachen CountVectorizer aus der vorherigen Übung erstellst du nun tf-idf-Vektoren für deine Dokumente. Du richtest einen TfidfVectorizer ein und untersuchst einige seiner Eigenschaften.
In dieser Übung verwendest du pandas und sklearn zusammen mit denselben DataFrames und Series X_train, y_train sowie X_test, y_test, die du in der letzten Übung erstellt hast.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit Python
Anleitung zur Übung
- Importiere
TfidfVectorizeraussklearn.feature_extraction.text. - Erstelle ein
TfidfVectorizer-Objekt mit dem Namentfidf_vectorizer. Gib dabei die Schlüsselwortargumentestop_words="english"undmax_df=0.7an. - Fitte und transformiere die Trainingsdaten.
- Transformiere die Testdaten.
- Gib die ersten zehn Merkmale von
tfidf_vectorizeraus. - Gib die ersten fünf Vektoren der tfidf-Trainingsdaten aus, indem du Slicing auf dem Attribut
.A(oder Array) vontfidf_trainanwendest.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])