Groeperen en herstructureren van vergelijkbare kolommen
In deze les zagen we dat sommige kolommen in de Kaggle-enquête over data science met elkaar samenhangen, zoals kolommen die elk de frequentie van verschillende werkuitdagingen behandelen. We willen die variabelen meestal samen bekijken, maar eerst moeten we ze vinden en omzetten naar een formaat dat makkelijker te gebruiken is. Laten we dat proces uitproberen met de vragen over hoe nuttig respondenten verschillende platforms vonden om te leren.
De gegevensset multiple_choice_responses is alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
Categorische gegevens in de Tidyverse
Oefeninstructies
- Selecteer alleen de kolommen met
"LearningPlatformUsefulness"in de naam. - Zet de data van breed naar lang formaat met twee kolommen:
learning_platformenusefulness. - Verwijder rijen waar
usefulnessNA is. - Verwijder
"LearningPlatformUsefulness"uit elke string inlearning_platform.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
learning_platform_usefulness <- multiple_choice_responses %>%
# Select columns with LearningPlatformUsefulness in title
___(___("LearningPlatformUsefulness")) %>%
# Change data from wide to long
___(everything(), names_to = "learning_platform", values_to = "usefulness") %>%
# Remove rows where usefulness is NA
___(___()) %>%
# Remove "LearningPlatformUsefulness" from each string in learning_platform
mutate(learning_platform = ___())