Le schéma connecter-travailler-se déconnecter
Travailler avec sparklyr ressemble beaucoup à travailler avec dplyr lorsque vos données sont dans une base de données. En effet, sparklyr convertit votre code R en code SQL avant de l’envoyer à Spark.
Le flux de travail typique comporte trois étapes :
- Se connecter à Spark avec
spark_connect(). - Faire le travail nécessaire.
- Fermer la connexion à Spark avec
spark_disconnect().
Dans cet exercice, vous allez effectuer l’opération la plus simple : renvoyer la version de Spark en cours d’exécution, à l’aide de spark_version().
spark_connect() prend une URL qui indique l’emplacement de Spark. Pour un cluster local (comme celui que vous utilisez), l’URL doit être "local". Pour un cluster distant (sur une autre machine, généralement un serveur haute performance), la chaîne de connexion sera une URL et un port sur lesquels se connecter.
spark_version() et spark_disconnect() prennent toutes deux la connexion Spark comme unique argument.
Une mise en garde : la connexion à un cluster prend plusieurs secondes, il n’est donc pas pratique de se connecter et de se déconnecter en permanence. Même si vous devez vous reconnecter pour chaque exercice DataCamp, lorsque vous intégrez sparklyr dans votre propre flux de travail, il est généralement préférable de garder la connexion ouverte pendant toute la durée de votre travail avec Spark.
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
- Chargez le package
sparklyraveclibrary(). - Connectez-vous à Spark en appelant
spark_connect()avec l’argumentmaster = "local". Affectez le résultat àspark_conn. - Récupérez la version de Spark avec
spark_version(), avec l’argumentsc = spark_conn. - Déconnectez-vous de Spark avec
spark_disconnect(), avec l’argumentsc = spark_conn.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load sparklyr
___
# Connect to your Spark cluster
spark_conn <- ___
# Print the version of Spark
___
# Disconnect from Spark
___