Aan de slagGa gratis aan de slag

Groeperen en herstructureren van vergelijkbare kolommen

In deze les zagen we dat sommige kolommen in de Kaggle-enquête over data science met elkaar samenhangen, zoals kolommen die elk de frequentie van verschillende werkuitdagingen behandelen. We willen die variabelen meestal samen bekijken, maar eerst moeten we ze vinden en omzetten naar een formaat dat makkelijker te gebruiken is. Laten we dat proces uitproberen met de vragen over hoe nuttig respondenten verschillende platforms vonden om te leren.

De gegevensset multiple_choice_responses is alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

Categorische gegevens in de Tidyverse

Cursus bekijken

Oefeninstructies

  • Selecteer alleen de kolommen met "LearningPlatformUsefulness" in de naam.
  • Zet de data van breed naar lang formaat met twee kolommen: learning_platform en usefulness.
  • Verwijder rijen waar usefulness NA is.
  • Verwijder "LearningPlatformUsefulness" uit elke string in learning_platform.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

learning_platform_usefulness <- multiple_choice_responses %>%
  # Select columns with LearningPlatformUsefulness in title
  ___(___("LearningPlatformUsefulness")) %>%
  # Change data from wide to long
  ___(everything(), names_to = "learning_platform", values_to = "usefulness") %>%
  # Remove rows where usefulness is NA
  ___(___()) %>%
  # Remove "LearningPlatformUsefulness" from each string in learning_platform 
  mutate(learning_platform = ___())
Code bewerken en uitvoeren