TfidfVectorizer für die Textklassifizierung

Ähnlich wie bei den spärlichen CountVectorizer, die du in der vorherigen Übung erstellt hast, wirst du daran arbeiten, tf-idf-Vektoren für deine Dokumente zu erstellen. Du wirst eine TfidfVectorizer einrichten und einige ihrer Funktionen untersuchen.

In dieser Übung verwendest du pandas und sklearn zusammen mit denselben X_train, y_train und X_test, y_test DataFrames und Serien, die du in der letzten Übung erstellt hast.

Diese Übung ist Teil des Kurses

Einführung in die natürliche Sprachverarbeitung in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere TfidfVectorizer von sklearn.feature_extraction.text.
  • Erstelle ein TfidfVectorizer Objekt mit dem Namen tfidf_vectorizer. Dabei gibst du die Schlüsselwortargumente stop_words="english" und max_df=0.7 an.
  • Passe die Trainingsdaten an und transformiere sie.
  • Transformiere die Testdaten.
  • Drucke die ersten 10 Merkmale von tfidf_vectorizer.
  • Drucke die ersten 5 Vektoren der tfidf-Trainingsdaten mit Slicing auf .A (oder Array) Attribut von tfidf_train.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Import TfidfVectorizer
____

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____

# Transform the training data: tfidf_train 
tfidf_train = ____

# Transform the test data: tfidf_test 
tfidf_test = ____

# Print the first 10 features
print(____[:10])

# Print the first 5 vectors of the tfidf training data
print(____[:5])