Folge dem Geld
In dieser Übung arbeitest du mit einer anderen Version des DataFrame banking
, die sowohl für die Spalte cust_id
als auch für die Spalte acct_amount
fehlende Werte enthält.
Du möchtest Analysen darüber erstellen, wie viele einzelne Kunden die Bank hat, wie hoch die durchschnittliche Geldsumme der Kunden ist und mehr. Du weißt, dass Zeilen, in denen cust_id
fehlt, dir nicht weiterhelfen und dass acct_amount
im Durchschnitt 5-mal so groß ist wie inv_amount
.
In dieser Übung verzichtest du auf Zeilen von banking
mit fehlenden Werten von cust_id
und ersetzt fehlende Werte von acct_amount
mithilfe von Fachwissen.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Anleitung zur Übung
- Verwende
.dropna()
, um fehlende Werte der Spaltecust_id
inbanking
zu löschen, und speichere die Ergebnisse inbanking_fullid
. - Verwende
inv_amount
, um die geschätzten Kontobeträge fürbanking_fullid
zu berechnen, indem du die Beträge mitinv_amount * 5
gleichsetzt, und ordne die Ergebnisseacct_imp
zu. - Ergänze die fehlenden Werte von
acct_amount
inbanking_fullid
mit den neu erstellten Werten vonacct_imp
unter Verwendung von.fillna()
.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])
# Compute estimated acct_amount
acct_imp = ____
# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})
# Print number of missing values
print(banking_imputed.isna().sum())