ComenzarEmpieza gratis

Omitir valores atípicos

Ahora vamos a utilizar el conjunto de datos student_data para comparar la distribución de las calificaciones finales ("G3") entre los estudiantes que tienen acceso a Internet en casa y los que no. Para ello, utilizaremos la variable "internet", que es un indicador binario (sí/no) de si el alumno tiene acceso a Internet en casa.

Dado que Internet puede ser menos accesible en las zonas rurales, añadiremos subgrupos en función de dónde viva el alumno. Para ello, podemos utilizar la variable "location", que es un indicador de si un estudiante vive en una localidad urbana ("Urban") o rural ("Rural").

Seaborn ya se ha importado como sns y matplotlib.pyplot se ha importado como plt. Como recordatorio, puedes omitir los valores atípicos en los gráficos de caja estableciendo el parámetro sym igual a una cadena vacía ("").

Este ejercicio forma parte del curso

Introducción a la visualización de datos con Seaborn

Ver curso

Instrucciones del ejercicio

  • Utiliza sns.catplot() para crear un gráfico de caja con el DataFrame student_data, poniendo "internet" en el eje x y "G3" en el eje y.
  • Añade subgrupos para que cada diagrama de caja se coloree en función de "location".
  • No muestres los valores atípicos.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Create a box plot with subgroups and omit the outliers






# Show plot
plt.show()
Editar y ejecutar código