CommencerCommencer gratuitement

Come together

Les variables explicatives des modèles que vous allez exécuter se trouvent dans le jeu de données timbre, tandis que la variable cible — l’année — se trouve dans le jeu de données track_metadata. Avant d’exécuter le modèle, vous devez donc joindre ces deux jeux de données. Ici, il existe une correspondance un à un entre les lignes des deux jeux de données ; vous devez donc effectuer une jointure interne (inner join).

Il reste une étape de nettoyage. La colonne year contient des entiers, mais les fonctions de modélisation de Spark exigent des nombres réels. Vous devez convertir la colonne year en numeric.

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Une connexion Spark a été créée pour vous sous le nom spark_conn. Des tibbles liés aux métadonnées des pistes et aux données de timbre stockées dans Spark ont été pré-définis sous les noms track_metadata_tbl et timbre_tbl respectivement.

  • Effectuez une jointure interne des métadonnées des pistes avec les données de timbre sur la colonne track_id.
  • Convertissez la colonne year en numeric.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# track_metadata_tbl, timbre_tbl pre-defined
track_metadata_tbl
timbre_tbl

track_metadata_tbl %>%
  # Inner join to timbre_tbl
  ___ %>%
  # Convert year to numeric
  ___
Modifier et exécuter le code