Visualizar imputações
Analisar imputações e escolher a melhor exige muita experimentação. É importante garantir que seus dados não fiquem enviesados durante a imputação. Nestes dois últimos exercícios, você criou 4 imputações diferentes usando média, mediana, moda e preenchimento constante.
Neste exercício, você vai criar um gráfico de dispersão dos DataFrames que imputou anteriormente. Para isso, você vai criar um dicionário dos DataFrames, usando como chaves os seus títulos.
Os DataFrames diabetes_mean, diabetes_median, diabetes_mode e diabetes_constant já foram carregados para você.
Este exercício faz parte do curso
Lidando com Dados Ausentes em Python
Instruções do exercício
- Crie 4 subplots fazendo um gráfico com 2 linhas e 2 colunas.
- Crie o dicionário
imputationsmapeando cada chave para o seu DataFrame correspondente. - Faça um loop sobre
axeseimputationse plote cada DataFrame emimputations. - Defina a cor como
nullitye o título de cada subplot como o nome da imputação.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Set nrows and ncols to 2
fig, axes = plt.subplots(nrows=___, ncols=___, figsize=(10, 10))
nullity = diabetes.Serum_Insulin.isnull()+diabetes.Glucose.isnull()
# Create a dictionary of imputations
imputations = {'Mean Imputation': ___, 'Median Imputation': ___,
'Most Frequent Imputation': ___, 'Constant Imputation': ___}
# Loop over flattened axes and imputations
for ax, df_key in zip(___.___(), ___):
# Select and also set the title for a DataFrame
imputations[___].plot(x='Serum_Insulin', y='Glucose', kind='scatter',
alpha=0.5, c=___, cmap='rainbow', ax=ax,
colorbar=False, title=___)
plt.show()