Kodierung kategorialer Variablen
Es gibt ein paar Spalten im UFO-Datensatz, die kodiert werden müssen, bevor sie mit scikit-learn modelliert werden können. Du nimmst diese Transformation hier vor und nutzt dabei sowohl binäre Kodierung als auch One-Hot-Encoding.
Diese Übung ist Teil des Kurses
Vorverarbeitung für Machine Learning in Python
Anleitung zur Übung
- Schreibe mit
apply()eine bedingtelambda-Funktion, die1zurückgibt, wenn der Wert"us"ist, sonst 0. - Gib die Anzahl der
.unique()-Werte in der Spaltetypeaus. - Erzeuge mit
pd.get_dummies()ein One-Hot-encodetes Set der Spaltetype. - Verwende abschließend
pd.concat(), um die kodierten Variablentype_setan den Datensatzufoanzuhängen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Use pandas to encode us values as 1 and others as 0
ufo["country_enc"] = ufo["country"].____
# Print the number of unique type values
print(len(____.unique()))
# Create a one-hot encoded set of the type values
type_set = ____
# Concatenate this set back to the ufo DataFrame
ufo = pd.concat([____, ____], axis=1)