LoslegenKostenlos loslegen

TfidfVectorizer für Textklassifikation

Ähnlich wie beim einfachen CountVectorizer aus der vorherigen Übung erstellst du nun tf-idf-Vektoren für deine Dokumente. Du richtest einen TfidfVectorizer ein und untersuchst einige seiner Eigenschaften.

In dieser Übung verwendest du pandas und sklearn zusammen mit denselben DataFrames und Series X_train, y_train sowie X_test, y_test, die du in der letzten Übung erstellt hast.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere TfidfVectorizer aus sklearn.feature_extraction.text.
  • Erstelle ein TfidfVectorizer-Objekt mit dem Namen tfidf_vectorizer. Gib dabei die Schlüsselwortargumente stop_words="english" und max_df=0.7 an.
  • Fitte und transformiere die Trainingsdaten.
  • Transformiere die Testdaten.
  • Gib die ersten zehn Merkmale von tfidf_vectorizer aus.
  • Gib die ersten fünf Vektoren der tfidf-Trainingsdaten aus, indem du Slicing auf dem Attribut .A (oder Array) von tfidf_train anwendest.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])
Code bearbeiten und ausführen