Siga o dinheiro
Neste exercício, você está trabalhando com outra versão do DataFrame banking
que contém valores ausentes tanto para a coluna cust_id
quanto para a coluna acct_amount
.
Você deseja produzir análises sobre quantos clientes únicos o banco tem, o valor médio mantido pelos clientes e muito mais. Você sabe que as linhas com cust_id
ausente não o ajudam muito e que, em média, acct_amount
costuma ser 5 vezes maior do que inv_amount
.
Neste exercício, você eliminará as linhas de banking
com cust_id
s ausentes e imputará os valores ausentes de acct_amount
com algum conhecimento de domínio.
Este exercício faz parte do curso
Limpeza de dados em Python
Instruções de exercício
- Use
.dropna()
para eliminar os valores ausentes da colunacust_id
embanking
e armazenar os resultados embanking_fullid
. - Use
inv_amount
para calcular os valores estimados da conta parabanking_fullid
, definindo os valores iguais ainv_amount * 5
, e atribua os resultados aacct_imp
. - Impute os valores ausentes de
acct_amount
embanking_fullid
com o recém-criadoacct_imp
usando.fillna()
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])
# Compute estimated acct_amount
acct_imp = ____
# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})
# Print number of missing values
print(banking_imputed.isna().sum())