Come together
Les variables explicatives des modèles que vous allez exécuter se trouvent dans le jeu de données timbre, tandis que la variable cible — l’année — se trouve dans le jeu de données track_metadata. Avant d’exécuter le modèle, vous devez donc joindre ces deux jeux de données. Ici, il existe une correspondance un à un entre les lignes des deux jeux de données ; vous devez donc effectuer une jointure interne (inner join).
Il reste une étape de nettoyage. La colonne year contient des entiers, mais les fonctions de modélisation de Spark exigent des nombres réels. Vous devez convertir la colonne year en numeric.
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Une connexion Spark a été créée pour vous sous le nom spark_conn. Des tibbles liés aux métadonnées des pistes et aux données de timbre stockées dans Spark ont été pré-définis sous les noms track_metadata_tbl et timbre_tbl respectivement.
- Effectuez une jointure interne des métadonnées des pistes avec les données de timbre sur la colonne
track_id. - Convertissez la colonne
yearennumeric.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# track_metadata_tbl, timbre_tbl pre-defined
track_metadata_tbl
timbre_tbl
track_metadata_tbl %>%
# Inner join to timbre_tbl
___ %>%
# Convert year to numeric
___