Ungesehene Daten transformieren
Wenn du Vektoren aus Text erstellst, musst du alle Transformationen, die du vor dem Training eines Machine-Learning-Modells durchführst, auch auf die neuen, ungesehenen (Test‑)Daten anwenden. Gehe dafür genau wie im letzten Kapitel vor: Passe den Vektorisierer nur auf die Trainingsdaten an und wende ihn auf die Testdaten an.
Für diese Übung wurde das DataFrame speech_df in zwei Teile aufgeteilt:
train_speech_df: Der Trainingssatz mit den ersten 45 Reden.test_speech_df: Der Testsatz mit den übrigen Reden.
Diese Übung ist Teil des Kurses
Feature Engineering für Machine Learning in Python
Anleitung zur Übung
- Instanziiere
TfidfVectorizer. - Fitte den Vektorisierer und wende ihn auf die Spalte
text_cleanan. - Wende denselben Vektorisierer auf die Spalte
text_cleander Testdaten an. - Erstelle ein DataFrame dieser neuen Merkmale aus dem Testsatz.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Instantiate TfidfVectorizer
tv = ____(max_features=100, stop_words='english')
# Fit the vectroizer and transform the data
tv_transformed = ____
# Transform test data
test_tv_transformed = ____
# Create new features for the test set
test_tv_df = pd.DataFrame(test_tv_transformed.____,
columns=tv.____).add_prefix('TFIDF_')
print(test_tv_df.head())