Plusieurs variables par colonne
Comme vous êtes très occupé, vous ne voulez pas passer trop de temps sur Netflix ; vous décidez donc d’analyser rapidement la durée des séries et des films avant de choisir quoi regarder.
Vous avez récupéré un jeu de données appelé netflix_df, mais sa colonne duration pose problème. Elle contient des chaînes qui combinent à la fois une valeur et l’unité de durée ("min" ou "Season").
Vous allez mettre ce jeu de données en forme afin que chaque variable ait sa propre colonne.
Comme toujours dans ce cours, le package tidyr a déjà été chargé pour vous.
Cet exercice fait partie du cours
Reshaper des données avec tidyr
Instructions
- Inspectez
netflix_dfen tapant simplement son nom dans la console R et en appuyant sur Entrée pour voir quelle chaîne sépare la valeur de l’unité dans la colonneduration. - Séparez la colonne
durationen deux variables nomméesvalueetunit. Passez la chaîne qui sépare le nombre de l’unité à l’argumentsep.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
netflix_df %>%
# Split the duration column into value and unit columns
separate(___, into = ___, sep = ___, convert = TRUE)