1. Обучение
  2. /
  3. Курса
  4. /
  5. Exploratory Data Analysis in R

Connected

упражнение

Odpovídáme na otázky pomocí řetězení

Když máš ke konkrétnímu datasetu konkrétní otázku, odpověď na ni najdeš pečlivým sestavením správného řetězce R kódu. Vezmi si třeba tuto otázku: „Jsou e-maily odesílané více lidem obvykle kratší, pokud jde o e-maily, které nejsou spam?"

Odpověď poskytne tento řetězec:

email %>%
   filter(spam == "not-spam") %>%
   group_by(to_multiple) %>%
   summarize(median(num_char))

Z kódu je hned vidět, že délku e-mailu měříš pomocí num_char a jako míru typické hodnoty používáš median(). Po spuštění zjistíš, že odpověď je „ano": typická délka spamů neodeslaných více lidem je o něco nižší než u těch zaslaných více příjemcům.

Tento řetězec skončil souhrnnou statistikou, jiné ale mohou vyústit v graf – záleží vždy na tom, na co hledáš odpověď.

Инструкции

100 XP

Sestav řetězec, který odpoví na každou z následujících otázek – obě se týkají proměnné dollar.

  • Obsahují spamové e-maily se slovem „dollar" toto slovo typicky častěji než nespamové e-maily, které ho také obsahují? Vytvoř souhrnnou statistiku, která na tuto otázku odpoví.
  • Pokud narazíš na e-mail s více než 10 výskyty slova dollar, je pravděpodobnější, že jde o spam, nebo ne? Vytvoř sloupcový graf, který na tuto otázku odpoví.