Alle Variablen diskretisieren
Anstatt kontinuierliche Variablen einzeln zu diskretisieren, ist es einfacher, sie automatisch zu diskretisieren. Um in Python eine Liste aller Spalten zu erhalten, kannst du
variables = basetable.columns
verwenden.
Nur kontinuierliche Variablen sollten diskretisiert werden. Du kannst prüfen, ob Variablen diskretisiert werden sollten, indem du kontrollierst, ob sie mehr als eine vordefinierte Anzahl unterschiedlicher Werte haben.
Diese Übung ist Teil des Kurses
Einführung in Predictive Analytics mit Python
Anleitung zur Übung
- Erstelle eine Liste
variables, die alle Spaltennamen der basetable enthält. - Erzeuge eine Schleife, die alle Variablen in der Liste
variablesprüft. - Vervollständige die
if-Anweisung so, dass nur Variablen mit mehr als 5 unterschiedlichen Werten diskretisiert werden. - Teile die kontinuierlichen Variablen mithilfe der Methode
qcutin 10 Klassen ein.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Print the columns in the original basetable
print(basetable.columns)
# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")
# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
if len(basetable.groupby(____))>____:
new_variable = "disc_" + variable
basetable[new_variable] = pd.qcut(basetable[____], ____)
# Print the columns in the new basetable
print(basetable.columns)