LoslegenKostenlos loslegen

CountVectorizer für Textklassifizierung

Es ist nun an der Zeit, deinen eigenen Textklassifizierer zu bauen! Die Daten wurden in einen DataFrame namens df geladen. Erkunde den DataFrame in der IPython-Konsole, um zu sehen, welche Spalten du verwenden kannst. Die Methode .head() ist dabei besonders hilfreich.

In dieser Übung verwendest du pandas zusammen mit scikit-learn, um einen einfachen Text-Vektorisierer zu erstellen, mit dem du ein einfaches überwachtes Modell trainieren und testen kannst. Zunächst richtest du einen CountVectorizer ein und untersuchst einige seiner Funktionen.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere CountVectorizer aus sklearn.feature_extraction.text und train_test_split aus sklearn.model_selection.
  • Erstelle eine Series y für die Labels, indem du das Attribut .label von df y zuweist.
  • Erstelle mit df["text"] (Features) und y (Labels) Trainings- und Testdatensätze mittels train_test_split(). Setze test_size auf 0.33 und random_state auf 53.
  • Erstelle ein CountVectorizer-Objekt namens count_vectorizer. Gib unbedingt das Schlüsselwortargument stop_words="english" an, damit Stoppwörter entfernt werden.
  • Fitte und transformiere die Trainingsdaten X_train mit der Methode .fit_transform() deines CountVectorizer-Objekts. Mache dasselbe mit den Testdaten X_test, jedoch mit der Methode .transform().
  • Gib die ersten zehn Merkmale von count_vectorizer mit der Methode .get_feature_names() aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the necessary modules
____
____

# Print the head of df
print(df.head())

# Create a series to store the labels: y
y = ____

# Create training and test sets
X_train, X_test, y_train, y_test = ____

# Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = ____

# Transform the training data using only the 'text' column values: count_train 
count_train = ____

# Transform the test data using only the 'text' column values: count_test 
count_test = ____

# Print the first 10 features of the count_vectorizer
print(____[:10])
Code bearbeiten und ausführen