Alle Variablen diskretisieren
Anstatt kontinuierliche Variablen einzeln zu diskretisieren, ist es einfacher, sie automatisch zu diskretisieren. Um in Python eine Liste aller Spalten zu erhalten, kannst du
variables = basetable.columns
verwenden.
Nur kontinuierliche Variablen sollten diskretisiert werden. Du kannst prüfen, ob Variablen diskretisiert werden sollten, indem du kontrollierst, ob sie mehr als eine vordefinierte Anzahl unterschiedlicher Werte haben.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Predictive Analytics mit Python</Kurs>Übungsanweisungen
- Erstelle eine Liste
variables, die alle Spaltennamen der basetable enthält. - Erzeuge eine Schleife, die alle Variablen in der Liste
variablesprüft. - Vervollständige die
if-Anweisung so, dass nur Variablen mit mehr als 5 unterschiedlichen Werten diskretisiert werden. - Teile die kontinuierlichen Variablen mithilfe der Methode
qcutin 10 Klassen ein.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Print the columns in the original basetable
print(basetable.columns)
# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")
# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
if len(basetable.groupby(____))>____:
new_variable = "disc_" + variable
basetable[new_variable] = pd.qcut(basetable[____], ____)
# Print the columns in the new basetable
print(basetable.columns)