Visualização de várias categorias
Até agora, neste capítulo, consideramos apenas o caso de diferenças em uma variável numérica entre duas categorias. É claro que muitos conjuntos de dados contêm mais categorias. Antes de realizar testes com muitas categorias, geralmente é útil fazer uma análise exploratória dos dados (EDA, Exploratory Data Analysis), calculando estatísticas de resumo para cada grupo e visualizando as distribuições da variável numérica para cada categoria usando diagramas em caixa.
Aqui, voltaremos aos dados de remessas atrasadas e como o preço de cada encomenda (pack_price) varia entre os três modos de remessa (shipment_mode): "Air", "Air Charter" e "Ocean".
late_shipments já está disponível; pandas e matplotlib.pyplot foram carregados com os nomes alternativos padrão, e seaborn foi carregado como sns.
Este exercício faz parte do curso
Teste de hipóteses em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____
# Print the grouped means
print(xbar_pack_by_mode)