1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Testování hypotéz v Pythonu

Connected

cvičení

Vizualizace více kategorií

V této kapitole jsme zatím pracovali pouze s rozdíly numerické proměnné mezi dvěma kategoriemi. Mnoho datových sad ale obsahuje kategorií víc. Než přistoupíš k testování více kategorií, je užitečné provést průzkumnou analýzu dat (EDA) – vypočítat souhrnné statistiky pro každou skupinu a vizualizovat rozložení numerické proměnné pomocí krabicových grafů.

Vrátíme se k datům o zpožděných zásilkách a podíváme se, jak se cena balíku (pack_price) liší mezi třemi způsoby dopravy (shipment_mode): "Air", "Air Charter" a "Ocean".

DataFrame late_shipments je k dispozici; pandas a matplotlib.pyplot jsou načteny pod standardními aliasy a seaborn je načten jako sns.

Pokyny 1/3

undefined XP
    1
    2
    3
  • Seskup late_shipments podle shipment_mode a vypočítej průměrnou hodnotu pack_price pro každou skupinu. Výsledek ulož do xbar_pack_by_mode.