Substituição de dados de crédito ausentes
Agora, você deve verificar se há dados ausentes. Se você encontrar dados ausentes em loan_status
, não poderá usar os dados para prever a probabilidade de inadimplência, pois não saberá se o empréstimo é inadimplente ou não. A falta de dados em person_emp_length
não seria tão prejudicial, mas ainda causaria erros de treinamento.
Portanto, verifique se há dados ausentes na coluna person_emp_length
e substitua os valores ausentes pela mediana.
O conjunto de dados cr_loan
foi carregado no espaço de trabalho.
Este exercício faz parte do curso
Modelagem de risco de crédito em Python
Instruções de exercício
- Imprima uma matriz de nomes de colunas que contenham dados ausentes usando
.isnull()
. - Imprima as cinco primeiras linhas do conjunto de dados que têm dados ausentes para
person_emp_length
. - Substitua os dados ausentes pela mediana de todos os comprimentos de emprego usando
.fillna()
. - Crie um histograma da coluna
person_emp_length
para verificar a distribuição.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Print a null value column array
print(____.columns[____.____().any()])
# Print the top five rows with nulls for employment length
print(____[____[____].____()].head())
# Impute the null values with the median value for all employment lengths
____[____].____((cr_loan['person_emp_length'].____()), inplace=True)
# Create a histogram of employment length
n, bins, patches = plt.____(____[____], bins='auto', color='blue')
plt.xlabel("Person Employment Length")
plt.____()