Omissão de valores discrepantes
Agora vamos usar o conjunto de dados student_data
para comparar a distribuição das notas finais ("G3"
) entre os alunos que têm acesso à internet em casa e os que não têm. Para isso, usaremos a variável "internet"
, que é um indicador binário (sim/não) que indica se o aluno tem acesso à internet em casa.
Como a internet pode ser menos acessível em áreas rurais, adicionaremos subgrupos com base no local onde o aluno mora. Para isso, podemos usar a variável "location"
, que é um indicador do fato de um aluno morar em um local urbano ("Urban") ou rural ("Rural").
O Seaborn já foi importado como sns
, e matplotlib.pyplot
foi importado como plt
. Como lembrete, você pode omitir os valores discrepantes de diagramas em caixa definindo o parâmetro sym
igual a uma string vazia (""
).
Este exercício faz parte do curso
Introdução à Visualização de Dados com o Seaborn
Instruções de exercício
- Use
sns.catplot()
para criar um diagrama em caixa com o DataFramestudent_data
, colocando"internet"
no eixo x e"G3"
no eixo y. - Adicione subgrupos para que cada diagrama em caixa seja colorido com base em
"location"
. - Não exiba os valores discrepantes.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create a box plot with subgroups and omit the outliers
# Show plot
plt.show()