ComenzarEmpieza gratis

Sigue el dinero

En este ejercicio, trabajarás con otra versión del DataFrame banking que contiene valores que faltan tanto para la columna cust_id como para la columna acct_amount.

Quieres elaborar análisis sobre cuántos clientes únicos tiene el banco, el importe medio que poseen los clientes y mucho más. Sabes que las filas en las que falta cust_id no te ayudan mucho, y que, en general, acct_amount suele ser 5 veces la cantidad de inv_amount.

En este ejercicio, eliminarás las filas de banking en las que falte cust_ids, e imputarás los valores que falten de acct_amount con algún conocimiento del dominio.

Este ejercicio forma parte del curso

Limpieza de datos en Python

Ver curso

Instrucciones de ejercicio

  • Utiliza .dropna() para eliminar los valores que faltan de la columna cust_id en banking y almacenar los resultados en banking_fullid.
  • Utiliza inv_amount para calcular los importes estimados de las cuentas de banking_fullid fijando los importes iguales a inv_amount * 5, y asigna los resultados a acct_imp.
  • Imputa los valores que faltan de acct_amount en banking_fullid con el recién creado acct_imp utilizando .fillna().

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])

# Compute estimated acct_amount
acct_imp = ____

# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})

# Print number of missing values
print(banking_imputed.isna().sum())
Editar y ejecutar código