Ontbrekende kredietgegevens vervangen
Nu ga je controleren op ontbrekende waarden. Als je ontbrekende gegevens vindt in loan_status, kun je de gegevens niet gebruiken om de kans op wanbetaling te voorspellen, omdat je dan niet weet of de lening in gebreke is gebleven of niet. Ontbrekende gegevens in person_emp_length zijn minder schadelijk, maar veroorzaken nog steeds fouten tijdens het trainen.
Controleer daarom op ontbrekende waarden in de kolom person_emp_length en vervang eventuele ontbrekende waarden door de mediaan.
De gegevensset cr_loan is al in de werkruimte geladen.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in Python
Oefeninstructies
- Print een array met kolomnamen die ontbrekende waarden bevatten met
.isnull(). - Print de eerste vijf rijen van de gegevensset die een ontbrekende waarde hebben voor
person_emp_length. - Vervang de ontbrekende waarden door de mediaan van alle dienstjaren met
.fillna(). - Maak een histogram van de kolom
person_emp_lengthom de verdeling te bekijken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print a null value column array
print(____.columns[____.____().any()])
# Print the top five rows with nulls for employment length
print(____[____[____].____()].head())
# Impute the null values with the median value for all employment lengths
____[____].____((cr_loan['person_emp_length'].____()), inplace=True)
# Create a histogram of employment length
n, bins, patches = plt.____(____[____], bins='auto', color='blue')
plt.xlabel("Person Employment Length")
plt.____()