Sigue el dinero
En este ejercicio, trabajarás con otra versión del DataFrame banking
que contiene valores que faltan tanto para la columna cust_id
como para la columna acct_amount
.
Quieres elaborar análisis sobre cuántos clientes únicos tiene el banco, el importe medio que poseen los clientes y mucho más. Sabes que las filas en las que falta cust_id
no te ayudan mucho, y que, en general, acct_amount
suele ser 5 veces la cantidad de inv_amount
.
En este ejercicio, eliminarás las filas de banking
en las que falte cust_id
s, e imputarás los valores que falten de acct_amount
con algún conocimiento del dominio.
Este ejercicio forma parte del curso
Limpieza de datos en Python
Instrucciones de ejercicio
- Utiliza
.dropna()
para eliminar los valores que faltan de la columnacust_id
enbanking
y almacenar los resultados enbanking_fullid
. - Utiliza
inv_amount
para calcular los importes estimados de las cuentas debanking_fullid
fijando los importes iguales ainv_amount * 5
, y asigna los resultados aacct_imp
. - Imputa los valores que faltan de
acct_amount
enbanking_fullid
con el recién creadoacct_imp
utilizando.fillna()
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])
# Compute estimated acct_amount
acct_imp = ____
# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})
# Print number of missing values
print(banking_imputed.isna().sum())