Visualización de muchas categorías
Hasta ahora, en este capítulo, solo hemos tenido en cuenta el caso de diferencias en una variable numérica entre dos categorías. Por supuesto, muchos conjuntos de datos contienen más categorías. Antes de realizar pruebas en muchas categorías, suele ser útil ejecutar un análisis exploratorio de datos (EDA) calculando la síntesis estadística de cada grupo y visualizando las distribuciones de la variable numérica para cada categoría mediante diagramas de caja.
Aquí, volveremos a los datos de los envíos retrasados y a cómo varía el precio de cada paquete (pack_price
) entre los tres modos de envío (shipment_mode
): "Air"
, "Air Charter"
y "Ocean"
.
late_shipments
está disponible; pandas
y matplotlib.pyplot
se cargan con sus alias estándar, y seaborn
se carga como sns
.
Este ejercicio forma parte del curso
Pruebas de hipótesis en Python
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____
# Print the grouped means
print(xbar_pack_by_mode)