Individuare outlier con tabelle incrociate
Ora devi trovare e rimuovere gli outlier che sospetti possano essere nei dati. Per questo esercizio, puoi usare tabelle incrociate e funzioni di aggregazione.
Dai un’occhiata alla colonna person_emp_length. Hai già usato l’argomento aggfunc = 'mean' per vedere la media di una colonna numerica, ma per individuare outlier puoi usare altre funzioni come min e max.
È improbabile che una persona abbia un’anzianità lavorativa inferiore a 0 o superiore a 60. Puoi usare le tabelle incrociate per controllare i dati e vedere se ci sono casi di questo tipo!
L’insieme di dati cr_loan è già caricato nell’ambiente di lavoro.
Questo esercizio fa parte del corso
Credit Risk Modeling in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create the cross table for loan status, home ownership, and the max employment length
print(pd.____(cr_loan[____],cr_loan[____],
values=cr_loan[____], aggfunc=____))