Encontrar valores discrepantes com tabelas cruzadas
Agora você precisa encontrar e remover os valores discrepantes que suspeita que possam estar nos dados. Para este exercício, você pode usar tabelas cruzadas e funções agregadas.
Dê uma olhada na coluna person_emp_length
. Você já usou o argumento aggfunc = 'mean'
para ver a média de uma coluna numérica antes, mas para detectar valores discrepantes você pode usar outras funções como min
e max
.
Talvez não seja possível que uma pessoa tenha uma duração de emprego menor que 0 ou maior que 60. Você pode usar tabelas cruzadas para verificar os dados e ver se há alguma ocorrência disso!
O conjunto de dados cr_loan
foi carregado no espaço de trabalho.
Este exercício faz parte do curso
Modelagem de risco de crédito em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create the cross table for loan status, home ownership, and the max employment length
print(pd.____(cr_loan[____],cr_loan[____],
values=cr_loan[____], aggfunc=____))