LoslegenKostenlos loslegen

Ungesehene Daten transformieren

Wenn du Vektoren aus Text erstellst, musst du alle Transformationen, die du vor dem Training eines Machine-Learning-Modells durchführst, auch auf die neuen, ungesehenen (Test‑)Daten anwenden. Gehe dafür genau wie im letzten Kapitel vor: Passe den Vektorisierer nur auf die Trainingsdaten an und wende ihn auf die Testdaten an.

Für diese Übung wurde das DataFrame speech_df in zwei Teile aufgeteilt:

  • train_speech_df: Der Trainingssatz mit den ersten 45 Reden.
  • test_speech_df: Der Testsatz mit den übrigen Reden.

Diese Übung ist Teil des Kurses

Feature Engineering für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Instanziiere TfidfVectorizer.
  • Fitte den Vektorisierer und wende ihn auf die Spalte text_clean an.
  • Wende denselben Vektorisierer auf die Spalte text_clean der Testdaten an.
  • Erstelle ein DataFrame dieser neuen Merkmale aus dem Testsatz.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')

# Fit the vectroizer and transform the data
tv_transformed = ____

# Transform test data
test_tv_transformed = ____

# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____, 
                          columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())
Code bearbeiten und ausführen