CommencerCommencer gratuitement

Plusieurs variables par colonne

Comme vous êtes très occupé, vous ne voulez pas passer trop de temps sur Netflix ; vous décidez donc d’analyser rapidement la durée des séries et des films avant de choisir quoi regarder. Vous avez récupéré un jeu de données appelé netflix_df, mais sa colonne duration pose problème. Elle contient des chaînes qui combinent à la fois une valeur et l’unité de durée ("min" ou "Season").

Vous allez mettre ce jeu de données en forme afin que chaque variable ait sa propre colonne.

Comme toujours dans ce cours, le package tidyr a déjà été chargé pour vous.

Cet exercice fait partie du cours

Reshaper des données avec tidyr

Afficher le cours

Instructions

  • Inspectez netflix_df en tapant simplement son nom dans la console R et en appuyant sur Entrée pour voir quelle chaîne sépare la valeur de l’unité dans la colonne duration.
  • Séparez la colonne duration en deux variables nommées value et unit. Passez la chaîne qui sépare le nombre de l’unité à l’argument sep.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

netflix_df %>% 
  # Split the duration column into value and unit columns
  separate(___, into = ___, sep = ___, convert = TRUE)
Modifier et exécuter le code