IniziaInizia gratis

Sostituire i dati mancanti sul credito

Ora dovresti controllare la presenza di dati mancanti. Se trovi valori mancanti in loan_status, non potresti usare i dati per prevedere la probabilità di default perché non sapresti se il prestito è andato in default oppure no. I dati mancanti in person_emp_length sarebbero meno critici, ma causerebbero comunque errori in fase di training.

Quindi, verifica se ci sono valori mancanti nella colonna person_emp_length e sostituisci eventuali valori mancanti con la mediana.

L'insieme di dati cr_loan è stato caricato nell'area di lavoro.

Questo esercizio fa parte del corso

Credit Risk Modeling in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Stampa un array con i nomi delle colonne che contengono dati mancanti usando .isnull().
  • Stampa le prime cinque righe del data set che hanno dati mancanti per person_emp_length.
  • Sostituisci i dati mancanti con la mediana di tutte le durate di impiego usando .fillna().
  • Crea un istogramma della colonna person_emp_length per verificare la distribuzione.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Print a null value column array
print(____.columns[____.____().any()])

# Print the top five rows with nulls for employment length
print(____[____[____].____()].head())

# Impute the null values with the median value for all employment lengths
____[____].____((cr_loan['person_emp_length'].____()), inplace=True)

# Create a histogram of employment length
n, bins, patches = plt.____(____[____], bins='auto', color='blue')
plt.xlabel("Person Employment Length")
plt.____()
Modifica ed esegui il codice