Siga o dinheiro
Neste exercício, você está trabalhando com outra versão do DataFrame banking que contém valores ausentes tanto para a coluna cust_id quanto para a coluna acct_amount.
Você deseja produzir análises sobre quantos clientes únicos o banco tem, o valor médio mantido pelos clientes e muito mais. Você sabe que as linhas com cust_id ausente não o ajudam muito e que, em média, acct_amount costuma ser 5 vezes maior do que inv_amount.
Neste exercício, você eliminará as linhas de banking com cust_ids ausentes e imputará os valores ausentes de acct_amount com algum conhecimento de domínio.
Este exercício faz parte do curso
Limpeza de dados em Python
Instruções do exercício
- Use
.dropna()para eliminar os valores ausentes da colunacust_idembankinge armazenar os resultados embanking_fullid. - Use
inv_amountpara calcular os valores estimados da conta parabanking_fullid, definindo os valores iguais ainv_amount * 5, e atribua os resultados aacct_imp. - Impute os valores ausentes de
acct_amountembanking_fullidcom o recém-criadoacct_impusando.fillna().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])
# Compute estimated acct_amount
acct_imp = ____
# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})
# Print number of missing values
print(banking_imputed.isna().sum())