Fehlende Werte mit Perzentilen imputieren
In dieser Übung übst du weiter, fehlende Werte zu imputieren. Anders als in der vorherigen Aufgabe verwendest du dafür Perzentile statt Mittelwerte. Perzentile sind eine gute Wahl für konservative Imputationen. Das Imputieren fehlender Werte in einer Spalte mithilfe von Perzentilen umfasst die folgenden Schritte:
- Entferne die fehlenden Werte aus der betreffenden Spalte.
- Berechne dann zum Beispiel das 70. Perzentil der Zahlen aus dieser Spalte, nachdem du die fehlenden Werte entfernt hast.
- Der 70%-schlechteste Wert hängt von der Spalte ab, aus der du das Perzentil berechnest:
- Eine große Menge an Vermögenswerten gilt als positiv, daher ist eine niedrige Menge schlechter. Der 70%-schlechteste Wert bei den Vermögenswerten entspricht daher dem 30. Perzentil der Vermögenswerte.
- Analog dazu gelten hohe Verbindlichkeiten als negativ. Der 70%-schlechteste Wert der Verbindlichkeiten ist also einfach ihr 70. Perzentil.
pandas wurde mit dem Alias pd geladen und NumPy mit dem Alias np. Ein pandas DataFrame namens dataset wurde für dich geladen. Es enthält die Spalte "Total Current Liabilities", die einige fehlende Werte hat.
Diese Übung ist Teil des Kurses
Finanzberichte mit Python analysieren
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Impute missing value with 70th percentile non-missing values of company
impute_by_company = ___
# Impute missing value with 70th percentile non-missing values of industry
impute_by_comp_type = ____
print(impute_by_company)
print(impute_by_comp_type)