Ontbrekende gegevens verwijderen
Je hebt ontbrekende gegevens in person_emp_length vervangen, maar in de vorige oefening zag je dat loan_int_rate ook ontbrekende waarden heeft.
Net zoals ontbrekende gegevens in loan_status voorspellingen lastig maken, geldt dat ook voor ontbrekende waarden in loan_int_rate.
Omdat rentepercentages door je bedrijf worden vastgesteld, is het heel vreemd dat deze kolom ontbrekende waarden bevat. Het is mogelijk dat er door problemen bij het inlezen van data fouten zijn ontstaan, maar dat weet je niet zeker. Voor nu kun je deze records het beste .drop()pen voordat je verdergaat.
De gegevensset cr_loan is in de werkruimte geladen.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in Python
Oefeninstructies
- Print het aantal records met ontbrekende gegevens voor de rente.
- Maak een array met indexen voor rijen met een ontbrekend rentepercentage en noem die indices.
- Drop de records met ontbrekende rentegegevens en sla het resultaat op in
cr_loan_clean.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the number of nulls
print(____[____].____().____())
# Store the array on indices
____ = ____[____[____].____].____
# Save the new data without missing data
____ = ____.____(____)