Meerdere variabelen per kolom
Omdat je het druk hebt, wil je niet te veel tijd aan Netflix besteden. Daarom besluit je eerst wat cijfers te kraken over de duur van series en films voordat je iets kiest om te kijken.
Je hebt een gegevensset bemachtigd met de naam netflix_df, maar de kolom duration heeft een probleem. Deze bevat strings met zowel een waarde als een eenheid van duur ("min" of "Season").
Je gaat deze gegevensset opschonen zodat elke variabele zijn eigen kolom krijgt.
Zoals in deze hele cursus is het pakket tidyr alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
Data herstructureren met tidyr
Oefeninstructies
- Inspecteer
netflix_dfdoor de naam direct in de R-console te typen en op Enter te drukken om te zien welk teken de waarde van de eenheid scheidt in de kolomduration. - Splits de kolom
durationop in twee variabelen met de namenvalueenunit. Geef de string die het getal van de eenheid scheidt door aan het argumentsep.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
netflix_df %>%
# Split the duration column into value and unit columns
separate(___, into = ___, sep = ___, convert = TRUE)