Siga o dinheiro

Neste exercício, você está trabalhando com outra versão do DataFrame banking que contém valores ausentes tanto para a coluna cust_id quanto para a coluna acct_amount.

Você deseja produzir análises sobre quantos clientes únicos o banco tem, o valor médio mantido pelos clientes e muito mais. Você sabe que as linhas com cust_id ausente não o ajudam muito e que, em média, acct_amount costuma ser 5 vezes maior do que inv_amount.

Neste exercício, você eliminará as linhas de banking com cust_ids ausentes e imputará os valores ausentes de acct_amount com algum conhecimento de domínio.

Este exercício faz parte do curso

Limpeza de dados em Python

Ver Curso

Instruções de exercício

  • Use .dropna() para eliminar os valores ausentes da coluna cust_id em banking e armazenar os resultados em banking_fullid.
  • Use inv_amount para calcular os valores estimados da conta para banking_fullid, definindo os valores iguais a inv_amount * 5, e atribua os resultados a acct_imp.
  • Impute os valores ausentes de acct_amount em banking_fullid com o recém-criado acct_imp usando .fillna().

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Drop missing values of cust_id
banking_fullid = banking.____(subset = ['____'])

# Compute estimated acct_amount
acct_imp = ____

# Impute missing acct_amount with corresponding acct_imp
banking_imputed = banking_fullid.____({'____':____})

# Print number of missing values
print(banking_imputed.isna().sum())