Encontrando outliers com tabelas cruzadas
Agora você precisa encontrar e remover outliers que suspeita existir nos dados. Para este exercício, você pode usar tabelas cruzadas e funções de agregação.
Dê uma olhada na coluna person_emp_length. Você já usou o argumento aggfunc = 'mean' para ver a média de uma coluna numérica, mas para detectar outliers você pode usar outras funções como min e max.
Pode não ser possível que uma pessoa tenha um tempo de emprego menor que 0 ou maior que 60. Você pode usar tabelas cruzadas para verificar os dados e ver se há ocorrências disso!
O conjunto de dados cr_loan foi carregado no workspace.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create the cross table for loan status, home ownership, and the max employment length
print(pd.____(cr_loan[____],cr_loan[____],
values=cr_loan[____], aggfunc=____))