Aan de slagGa gratis aan de slag

Uitschieters vinden met kruistabellen

Nu ga je de uitschieters vinden en verwijderen waarvan je vermoedt dat ze in de data zitten. Voor deze oefening kun je kruistabellen en aggregatiefuncties gebruiken.

Kijk naar de kolom person_emp_length. Je hebt eerder het argument aggfunc = 'mean' gebruikt om het gemiddelde van een numerieke kolom te zien, maar om uitschieters te detecteren kun je ook andere functies zoals min en max gebruiken.

Het is waarschijnlijk niet mogelijk dat iemand een diensttijd heeft van minder dan 0 of meer dan 60. Met kruistabellen kun je de data controleren en kijken of dit voorkomt!

De gegevensset cr_loan is in de werkruimte geladen.

Deze oefening maakt deel uit van de cursus

Kredietrisicomodellering in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create the cross table for loan status, home ownership, and the max employment length
print(pd.____(cr_loan[____],cr_loan[____],
        values=cr_loan[____], aggfunc=____))
Code bewerken en uitvoeren