1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Kategorická data v Tidyverse

Connected

Cvičení

Sumarizace dat

Teď vytvoříme fazetový graf, který porovná užitečnost různých výukových platforem.

V tomto cvičení si představíme novou funkci z dplyr — add_count(). Funkce add_count() přidá do datasetu sloupec n a zachová přitom stejný počet řádků jako původní dataset. Stejně jako count() defaultně vrací počet řádků pro každou skupinu, ale to lze změnit pomocí argumentu wt (váha). Nastavením wt na jiný sloupec způsobíš, že n bude rovno součtu hodnot tohoto sloupce pro každou skupinu.

Řekněme, že chceš do datasetu iris přidat sloupec obsahující součet Petal.Length pro všechny květiny stejného druhu Species. Napsal/a bys:

iris %>%
   add_count(Species, wt = Petal.Length) %>%
   select(Species, Petal.Length, n)

Výsledek by vypadal takto:

# A tibble: 150 x 3
   Species Petal.Length     n
   <fct>          <dbl> <dbl>
 1 setosa           1.4  73.1
 2 setosa           1.4  73.1
 3 virginica        6.4  278.

Pokyny 1/4

undefined XP
    1
    2
    3
    4
  • Pomocí count() uprav dataset tak, aby obsahoval jeden řádek pro každou kombinaci learning_platform a usefulness, a sloupec s počtem záznamů pro danou kombinaci.