Eliminación de los datos que faltan
Has sustituido los datos que faltaban en person_emp_length
, pero en el ejercicio anterior has visto que en loan_int_rate
también faltan datos.
Al igual que ocurre con los datos que faltan en loan_status
, los datos que faltan en loan_int_rate
dificultarán las predicciones.
Como los tipos de interés los fija tu empresa, que falten datos en esta columna es muy extraño. Es posible que los problemas de ingestión de datos hayan creado errores, pero no puedes saberlo con seguridad. Por ahora, es mejor .drop()
estos registros antes de seguir adelante.
El conjunto de datos cr_loan
se ha cargado en el espacio de trabajo.
Este ejercicio forma parte del curso
Modelado del riesgo crediticio en Python
Instrucciones de ejercicio
- Imprime el número de registros que contienen datos que faltan para el tipo de interés.
- Crea una matriz de índices para las filas que contienen el tipo de interés que falta, llamada índices.
- Elimina los registros en los que falten datos sobre el tipo de interés y guarda los resultados en
cr_loan_clean
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Print the number of nulls
print(____[____].____().____())
# Store the array on indices
____ = ____[____[____].____].____
# Save the new data without missing data
____ = ____.____(____)