Omitir valores atípicos
Ahora vamos a utilizar el conjunto de datos student_data
para comparar la distribución de las calificaciones finales ("G3"
) entre los estudiantes que tienen acceso a Internet en casa y los que no. Para ello, utilizaremos la variable "internet"
, que es un indicador binario (sí/no) de si el alumno tiene acceso a Internet en casa.
Dado que Internet puede ser menos accesible en las zonas rurales, añadiremos subgrupos en función de dónde viva el alumno. Para ello, podemos utilizar la variable "location"
, que es un indicador de si un estudiante vive en una localidad urbana ("Urban") o rural ("Rural").
Seaborn ya se ha importado como sns
y matplotlib.pyplot
se ha importado como plt
. Como recordatorio, puedes omitir los valores atípicos en los gráficos de caja estableciendo el parámetro sym
igual a una cadena vacía (""
).
Este ejercicio forma parte del curso
Introducción a la visualización de datos con Seaborn
Instrucciones del ejercicio
- Utiliza
sns.catplot()
para crear un gráfico de caja con el DataFramestudent_data
, poniendo"internet"
en el eje x y"G3"
en el eje y. - Añade subgrupos para que cada diagrama de caja se coloree en función de
"location"
. - No muestres los valores atípicos.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Create a box plot with subgroups and omit the outliers
# Show plot
plt.show()