Aan de slagGa gratis aan de slag

Meerdere variabelen per kolom

Omdat je het druk hebt, wil je niet te veel tijd aan Netflix besteden. Daarom besluit je eerst wat cijfers te kraken over de duur van series en films voordat je iets kiest om te kijken. Je hebt een gegevensset bemachtigd met de naam netflix_df, maar de kolom duration heeft een probleem. Deze bevat strings met zowel een waarde als een eenheid van duur ("min" of "Season").

Je gaat deze gegevensset opschonen zodat elke variabele zijn eigen kolom krijgt.

Zoals in deze hele cursus is het pakket tidyr alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

Data herstructureren met tidyr

Cursus bekijken

Oefeninstructies

  • Inspecteer netflix_df door de naam direct in de R-console te typen en op Enter te drukken om te zien welk teken de waarde van de eenheid scheidt in de kolom duration.
  • Splits de kolom duration op in twee variabelen met de namen value en unit. Geef de string die het getal van de eenheid scheidt door aan het argument sep.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

netflix_df %>% 
  # Split the duration column into value and unit columns
  separate(___, into = ___, sep = ___, convert = TRUE)
Code bewerken en uitvoeren