ComeçarComece de graça

Visualizar imputações

Analisar imputações e escolher a melhor exige muita experimentação. É importante garantir que seus dados não fiquem enviesados durante a imputação. Nestes dois últimos exercícios, você criou 4 imputações diferentes usando média, mediana, moda e preenchimento constante.

Neste exercício, você vai criar um gráfico de dispersão dos DataFrames que imputou anteriormente. Para isso, você vai criar um dicionário dos DataFrames, usando como chaves os seus títulos.

Os DataFrames diabetes_mean, diabetes_median, diabetes_mode e diabetes_constant já foram carregados para você.

Este exercício faz parte do curso

Lidando com Dados Ausentes em Python

Ver curso

Instruções do exercício

  • Crie 4 subplots fazendo um gráfico com 2 linhas e 2 colunas.
  • Crie o dicionário imputations mapeando cada chave para o seu DataFrame correspondente.
  • Faça um loop sobre axes e imputations e plote cada DataFrame em imputations.
  • Defina a cor como nullity e o título de cada subplot como o nome da imputação.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Set nrows and ncols to 2
fig, axes = plt.subplots(nrows=___, ncols=___, figsize=(10, 10))
nullity = diabetes.Serum_Insulin.isnull()+diabetes.Glucose.isnull()

# Create a dictionary of imputations
imputations = {'Mean Imputation': ___, 'Median Imputation': ___, 
               'Most Frequent Imputation': ___, 'Constant Imputation': ___}

# Loop over flattened axes and imputations
for ax, df_key in zip(___.___(), ___):
    # Select and also set the title for a DataFrame
    imputations[___].plot(x='Serum_Insulin', y='Glucose', kind='scatter', 
                          alpha=0.5, c=___, cmap='rainbow', ax=ax, 
                          colorbar=False, title=___)
plt.show()
Editar e executar o código