LoslegenKostenlos loslegen

Fehlende Kreditdaten ersetzen

Jetzt solltest du nach fehlenden Daten suchen. Wenn du fehlende Daten in loan_status findest, kannst du die Daten nicht zur Vorhersage der Ausfallwahrscheinlichkeit verwenden, weil du nicht weißt, ob der Kredit ausgefallen ist oder nicht. Fehlende Daten in person_emp_length sind weniger kritisch, verursachen aber trotzdem Trainingsfehler.

Prüfe also die Spalte person_emp_length auf fehlende Werte und ersetze fehlende Einträge durch den Median.

Der Datensatz cr_loan wurde im Workspace geladen.

Diese Übung ist Teil des Kurses

Kreditrisikomodellierung in Python

Kurs anzeigen

Anleitung zur Übung

  • Gib ein Array der Spaltennamen aus, die fehlende Daten enthalten, mithilfe von .isnull().
  • Gib die ersten fünf Zeilen des Datensatzes aus, in denen person_emp_length fehlt.
  • Ersetze die fehlenden Werte durch den Median der gesamten Beschäftigungsdauer mit .fillna().
  • Erstelle ein Histogramm der Spalte person_emp_length, um die Verteilung zu prüfen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print a null value column array
print(____.columns[____.____().any()])

# Print the top five rows with nulls for employment length
print(____[____[____].____()].head())

# Impute the null values with the median value for all employment lengths
____[____].____((cr_loan['person_emp_length'].____()), inplace=True)

# Create a histogram of employment length
n, bins, patches = plt.____(____[____], bins='auto', color='blue')
plt.xlabel("Person Employment Length")
plt.____()
Code bearbeiten und ausführen