1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Joining Data with dplyr

Connected

Cvičení

Left join otázek a tagů

Tři z datových sad průzkumu Stack Overflow jsou questions, question_tags a tags:

  • questions: ID a skóre otázky, tedy počet hlasů „upvote"; datová sada obsahuje pouze otázky týkající se R
  • question_tags: ID tagu pro každou otázku a ID otázky samotné
  • tags: ID tagu a jeho název, který umožňuje identifikovat téma každé otázky, například ggplot2 nebo dplyr

V tomto cvičení tyto datové sady spojíme dohromady a nahradíme hodnoty NA v důležitých sloupcích.

Poznámka: Budeme používat left_join, abychom zachovali všechny otázky, včetně těch bez odpovídajícího tagu. Protože víme, že datová sada questions obsahuje výhradně data o R, označíme tyto otázky ručně jako R otázky pomocí replace_na.

Pokyny 1/3

undefined XP
    1
    2
    3
  • Spoj tabulky questions a question_tags pomocí sloupců id a question_id.