1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Testování hypotéz v R

Connected

cvičení

Vizualizace mnoha kategorií

Dosud jsme v této kapitole uvažovali pouze o rozdílech v numerické proměnné mezi dvěma kategoriemi. Mnoho datových sad ale obsahuje více kategorií. Než přistoupíš k testování na více kategoriích, je užitečné nejprve provést průzkumnou analýzu dat – tedy vypočítat souhrnné statistiky pro každou skupinu a vizualizovat rozložení numerické proměnné pro každou kategorii pomocí krabicových grafů.

Vrátíme se k datům o opožděných zásilkách a podíváme se, jak se cena balíku (pack_price) liší mezi třemi způsoby dopravy (shipment_mode): "Air", "Air Charter" a "Ocean".

Dataset late_shipments je k dispozici; balíčky dplyr a ggplot2 jsou načteny.

Pokyny 1/2

undefined XP
    1
    2
  • Použij dataset late_shipments, seskup data podle shipment_mode.
  • Pomocí summarize() vypočítej průměr pack_price jako xbar_pack_price a směrodatnou odchylku pack_price jako s_pack_price.