ComenzarEmpieza gratis

Sustitución de los datos crediticios que faltan

Ahora, debes comprobar si faltan datos. Si encuentras datos que faltan en loan_status, no podrías utilizar los datos para predecir la probabilidad de impago porque no sabrías si el préstamo era un impago o no. La falta de datos en person_emp_length no sería tan perjudicial, pero seguiría causando errores de entrenamiento.

Por tanto, comprueba si faltan datos en la columna person_emp_length y sustituye los valores que falten por la mediana.

El conjunto de datos cr_loan se ha cargado en el espacio de trabajo.

Este ejercicio forma parte del curso

Modelado del riesgo crediticio en Python

Ver curso

Instrucciones de ejercicio

  • Imprime una matriz de nombres de columnas que contienen datos que faltan utilizando .isnull().
  • Imprime las cinco primeras filas del conjunto de datos que tiene datos perdidos para person_emp_length.
  • Sustituye los datos que faltan por la mediana de toda la longitud del empleo utilizando .fillna().
  • Crea un histograma de la columna person_emp_length para comprobar la distribución.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Print a null value column array
print(____.columns[____.____().any()])

# Print the top five rows with nulls for employment length
print(____[____[____].____()].head())

# Impute the null values with the median value for all employment lengths
____[____].____((cr_loan['person_emp_length'].____()), inplace=True)

# Create a histogram of employment length
n, bins, patches = plt.____(____[____], bins='auto', color='blue')
plt.xlabel("Person Employment Length")
plt.____()
Editar y ejecutar código