Visualização de várias categorias
Até agora, neste capítulo, consideramos apenas o caso de diferenças em uma variável numérica entre duas categorias. É claro que muitos conjuntos de dados contêm mais categorias. Antes de realizar testes com muitas categorias, geralmente é útil fazer uma análise exploratória dos dados (EDA, Exploratory Data Analysis), calculando estatísticas de resumo para cada grupo e visualizando as distribuições da variável numérica para cada categoria usando diagramas em caixa.
Aqui, voltaremos aos dados de remessas atrasadas e como o preço de cada encomenda (pack_price
) varia entre os três modos de remessa (shipment_mode
): "Air"
, "Air Charter"
e "Ocean"
.
late_shipments
já está disponível; pandas
e matplotlib.pyplot
foram carregados com os nomes alternativos padrão, e seaborn
foi carregado como sns
.
Este exercício faz parte do curso
Teste de hipóteses em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Calculate the mean pack_price for each shipment_mode
xbar_pack_by_mode = ____
# Print the grouped means
print(xbar_pack_by_mode)