Sustitución de los datos crediticios que faltan
Ahora, debes comprobar si faltan datos. Si encuentras datos que faltan en loan_status
, no podrías utilizar los datos para predecir la probabilidad de impago porque no sabrías si el préstamo era un impago o no. La falta de datos en person_emp_length
no sería tan perjudicial, pero seguiría causando errores de entrenamiento.
Por tanto, comprueba si faltan datos en la columna person_emp_length
y sustituye los valores que falten por la mediana.
El conjunto de datos cr_loan
se ha cargado en el espacio de trabajo.
Este ejercicio forma parte del curso
Modelado del riesgo crediticio en Python
Instrucciones de ejercicio
- Imprime una matriz de nombres de columnas que contienen datos que faltan utilizando
.isnull()
. - Imprime las cinco primeras filas del conjunto de datos que tiene datos perdidos para
person_emp_length
. - Sustituye los datos que faltan por la mediana de toda la longitud del empleo utilizando
.fillna()
. - Crea un histograma de la columna
person_emp_length
para comprobar la distribución.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Print a null value column array
print(____.columns[____.____().any()])
# Print the top five rows with nulls for employment length
print(____[____[____].____()].head())
# Impute the null values with the median value for all employment lengths
____[____].____((cr_loan['person_emp_length'].____()), inplace=True)
# Create a histogram of employment length
n, bins, patches = plt.____(____[____], bins='auto', color='blue')
plt.xlabel("Person Employment Length")
plt.____()