Aan de slagBegin gratis

Groeperen en herstructureren van vergelijkbare kolommen

In deze les zagen we dat sommige kolommen in de Kaggle-enquête over data science met elkaar samenhangen, zoals kolommen die elk de frequentie van verschillende werkuitdagingen behandelen. We willen die variabelen meestal samen bekijken, maar eerst moeten we ze vinden en omzetten naar een formaat dat makkelijker te gebruiken is. Laten we dat proces uitproberen met de vragen over hoe nuttig respondenten verschillende platforms vonden om te leren.

De gegevensset multiple_choice_responses is alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

Categorische gegevens in de Tidyverse

Bekijk cursus

Oefeninstructies

  • Selecteer alleen de kolommen met "LearningPlatformUsefulness" in de naam.
  • Zet de data van breed naar lang formaat met twee kolommen: learning_platform en usefulness.
  • Verwijder rijen waar usefulness NA is.
  • Verwijder "LearningPlatformUsefulness" uit elke string in learning_platform.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

learning_platform_usefulness <- multiple_choice_responses %>%
  # Select columns with LearningPlatformUsefulness in title
  ___(___("LearningPlatformUsefulness")) %>%
  # Change data from wide to long
  ___(everything(), names_to = "learning_platform", values_to = "usefulness") %>%
  # Remove rows where usefulness is NA
  ___(___()) %>%
  # Remove "LearningPlatformUsefulness" from each string in learning_platform 
  mutate(learning_platform = ___())
Code bewerken en uitvoeren