TfidfVectorizer für die Textklassifizierung
Ähnlich wie bei den spärlichen CountVectorizer
, die du in der vorherigen Übung erstellt hast, wirst du daran arbeiten, tf-idf-Vektoren für deine Dokumente zu erstellen. Du wirst eine TfidfVectorizer
einrichten und einige ihrer Funktionen untersuchen.
In dieser Übung verwendest du pandas
und sklearn
zusammen mit denselben X_train
, y_train
und X_test
, y_test
DataFrames und Serien, die du in der letzten Übung erstellt hast.
Diese Übung ist Teil des Kurses
Einführung in die natürliche Sprachverarbeitung in Python
Anleitung zur Übung
- Importiere
TfidfVectorizer
vonsklearn.feature_extraction.text
. - Erstelle ein
TfidfVectorizer
Objekt mit dem Namentfidf_vectorizer
. Dabei gibst du die Schlüsselwortargumentestop_words="english"
undmax_df=0.7
an. - Passe die Trainingsdaten an und transformiere sie.
- Transformiere die Testdaten.
- Drucke die ersten 10 Merkmale von
tfidf_vectorizer
. - Drucke die ersten 5 Vektoren der tfidf-Trainingsdaten mit Slicing auf
.A
(oder Array) Attribut vontfidf_train
.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import TfidfVectorizer
____
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = ____
# Transform the training data: tfidf_train
tfidf_train = ____
# Transform the test data: tfidf_test
tfidf_test = ____
# Print the first 10 features
print(____[:10])
# Print the first 5 vectors of the tfidf training data
print(____[:5])