ComeçarComece de graça

Substituindo dados de crédito ausentes

Agora, você deve verificar se há dados ausentes. Se encontrar dados ausentes em loan_status, não será possível usar esses dados para prever a probabilidade de inadimplência, porque você não saberia se o empréstimo foi inadimplente ou não. Dados ausentes em person_emp_length não seriam tão prejudiciais, mas ainda causariam erros no treinamento.

Então, verifique se há dados ausentes na coluna person_emp_length e substitua quaisquer valores ausentes pela mediana.

O conjunto de dados cr_loan já foi carregado no workspace.

Este exercício faz parte do curso

Modelagem de Risco de Crédito em Python

Ver curso

Instruções do exercício

  • Imprima um array com os nomes das colunas que contêm dados ausentes usando .isnull().
  • Imprima as cinco primeiras linhas do conjunto de dados que têm dados ausentes para person_emp_length.
  • Substitua os dados ausentes pela mediana de todo o tempo de emprego usando .fillna().
  • Crie um histograma da coluna person_emp_length para verificar a distribuição.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Print a null value column array
print(____.columns[____.____().any()])

# Print the top five rows with nulls for employment length
print(____[____[____].____()].head())

# Impute the null values with the median value for all employment lengths
____[____].____((cr_loan['person_emp_length'].____()), inplace=True)

# Create a histogram of employment length
n, bins, patches = plt.____(____[____], bins='auto', color='blue')
plt.xlabel("Person Employment Length")
plt.____()
Editar e executar o código