TfidfVectorizer für die Textklassifizierung
Ähnlich wie bei den spärlichen CountVectorizer, die du in der vorherigen Übung erstellt hast, wirst du daran arbeiten, tf-idf-Vektoren für deine Dokumente zu erstellen. Du wirst eine TfidfVectorizer einrichten und einige ihrer Funktionen untersuchen.
In dieser Übung verwendest du pandas und sklearn zusammen mit denselben X_train, y_train und X_test, y_test DataFrames und Serien, die du in der letzten Übung erstellt hast.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Anleitung zur Übung
- Importiere
TfidfVectorizervonsklearn.feature_extraction.text. - Erstelle ein
TfidfVectorizerObjekt mit dem Namentfidf_vectorizer. Dabei gibst du die Schlüsselwortargumentestop_words="english"undmax_df=0.7an. - Passe die Trainingsdaten an und transformiere sie.
- Transformiere die Testdaten.
- Drucke die ersten 10 Merkmale von
tfidf_vectorizer. - Drucke die ersten 5 Vektoren der tfidf-Trainingsdaten mit Slicing auf
.A(oder Array) Attribut vontfidf_train.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])