Fehlende Kreditdaten ersetzen

Jetzt solltest du nach fehlenden Daten suchen. Wenn du fehlende Daten in loan_status findest, kannst du die Daten nicht zur Vorhersage der Ausfallwahrscheinlichkeit verwenden, weil du nicht weißt, ob der Kredit ausgefallen ist oder nicht. Fehlende Daten in person_emp_length sind weniger kritisch, verursachen aber trotzdem Trainingsfehler.

Prüfe also die Spalte person_emp_length auf fehlende Werte und ersetze fehlende Einträge durch den Median.

Der Datensatz cr_loan wurde im Workspace geladen.

Diese Übung ist Teil des Kurses

Kreditrisikomodellierung in Python

Kurs anzeigen

Anleitung zur Übung

Gib ein Array der Spaltennamen aus, die fehlende Daten enthalten, mithilfe von .isnull().
Gib die ersten fünf Zeilen des Datensatzes aus, in denen person_emp_length fehlt.
Ersetze die fehlenden Werte durch den Median der gesamten Beschäftigungsdauer mit .fillna().
Erstelle ein Histogramm der Spalte person_emp_length, um die Verteilung zu prüfen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print a null value column array
print(____.columns[____.____().any()])

# Print the top five rows with nulls for employment length
print(____[____[____].____()].head())

# Impute the null values with the median value for all employment lengths
____[____].____((cr_loan['person_emp_length'].____()), inplace=True)

# Create a histogram of employment length
n, bins, patches = plt.____(____[____], bins='auto', color='blue')
plt.xlabel("Person Employment Length")
plt.____()

Code bearbeiten und ausführen