One-Hot-Encoding und Dummy-Variablen
Um kategoriale Variablen in einem Machine-Learning-Modell zu verwenden, musst du sie zunächst quantitativ darstellen. Die zwei gängigsten Ansätze sind One-Hot-Encoding der Variablen oder die Verwendung von Dummy-Variablen. In dieser Übung erstellst du beide Arten der Kodierung und vergleichst die erzeugten Spaltensätze. Wir verwenden weiterhin dasselbe DataFrame aus der vorherigen Lektion, geladen als so_survey_df, und konzentrieren uns auf die Spalte Country.
Diese Übung ist Teil des Kurses
Feature Engineering für Machine Learning in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Convert the Country column to a one hot encoded Data Frame
one_hot_encoded = ____(____, ____=['Country'], prefix='OH')
# Print the columns names
print(one_hot_encoded.columns)