Folge dem Geld
In dieser Übung arbeitest du mit einer anderen Version des DataFrame banking, die sowohl für die Spalte cust_id als auch für die Spalte acct_amount fehlende Werte enthält.
Du möchtest Analysen darüber erstellen, wie viele einzelne Kunden die Bank hat, wie hoch die durchschnittliche Geldsumme der Kunden ist und mehr. Du weißt, dass Zeilen, in denen cust_id fehlt, dir nicht weiterhelfen und dass acct_amount im Durchschnitt 5-mal so groß ist wie inv_amount.
In dieser Übung verzichtest du auf Zeilen von banking mit fehlenden Werten von cust_id und ersetzt fehlende Werte von acct_amount mithilfe von Fachwissen.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Anleitung zur Übung
- Verwende
.dropna(), um fehlende Werte der Spaltecust_idinbankingzu löschen, und speichere die Ergebnisse inbanking_fullid. - Verwende
inv_amount, um die geschätzten Kontobeträge fürbanking_fullidzu berechnen, indem du die Beträge mitinv_amount * 5gleichsetzt, und ordne die Ergebnisseacct_impzu. - Ergänze die fehlenden Werte von
acct_amountinbanking_fullidmit den neu erstellten Werten vonacct_impunter Verwendung von.fillna().
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])
# Compute estimated acct_amount
acct_imp = ____
# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})
# Print number of missing values
print(banking_imputed.isna().sum())