CommencerCommencer gratuitement

Le schéma connecter-travailler-se déconnecter

Travailler avec sparklyr ressemble beaucoup à travailler avec dplyr lorsque vos données sont dans une base de données. En effet, sparklyr convertit votre code R en code SQL avant de l’envoyer à Spark.

Le flux de travail typique comporte trois étapes :

  1. Se connecter à Spark avec spark_connect().
  2. Faire le travail nécessaire.
  3. Fermer la connexion à Spark avec spark_disconnect().

Dans cet exercice, vous allez effectuer l’opération la plus simple : renvoyer la version de Spark en cours d’exécution, à l’aide de spark_version().

spark_connect() prend une URL qui indique l’emplacement de Spark. Pour un cluster local (comme celui que vous utilisez), l’URL doit être "local". Pour un cluster distant (sur une autre machine, généralement un serveur haute performance), la chaîne de connexion sera une URL et un port sur lesquels se connecter.

spark_version() et spark_disconnect() prennent toutes deux la connexion Spark comme unique argument.

Une mise en garde : la connexion à un cluster prend plusieurs secondes, il n’est donc pas pratique de se connecter et de se déconnecter en permanence. Même si vous devez vous reconnecter pour chaque exercice DataCamp, lorsque vous intégrez sparklyr dans votre propre flux de travail, il est généralement préférable de garder la connexion ouverte pendant toute la durée de votre travail avec Spark.

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

  • Chargez le package sparklyr avec library().
  • Connectez-vous à Spark en appelant spark_connect() avec l’argument master = "local". Affectez le résultat à spark_conn.
  • Récupérez la version de Spark avec spark_version(), avec l’argument sc = spark_conn.
  • Déconnectez-vous de Spark avec spark_disconnect(), avec l’argument sc = spark_conn.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load sparklyr
___

# Connect to your Spark cluster
spark_conn <- ___

# Print the version of Spark
___

# Disconnect from Spark
___
Modifier et exécuter le code