Faits l’un pour l’autre
R vous permet d’écrire rapidement du code d’analyse de données. Avec un peu d’attention, vous pouvez aussi rendre votre code facile à lire, ce qui facilite sa maintenance. Dans de nombreux cas, R est également suffisamment rapide à l’exécution.
Malheureusement, R impose que toutes les données à analyser tiennent en mémoire (RAM) sur une seule machine. Cela limite la quantité de données que vous pouvez analyser avec R. Il existe quelques solutions à ce problème, dont Spark.
Spark est une plateforme open source de calcul distribué. Cela signifie que vous pouvez répartir vos données et vos calculs sur plusieurs machines, ce qui vous permet d’analyser, en pratique, une quantité de données illimitée. Les deux technologies se complètent très bien. En utilisant R et Spark ensemble, vous pouvez écrire du code rapidement et l’exécuter tout aussi vite !
sparklyr est un package R qui vous permet d’écrire du code R pour travailler avec des données dans un cluster Spark. Il propose une interface dplyr, ce qui signifie que vous pouvez écrire (à peu près) le même code R de style dplyr, que vous travailliez avec des données sur votre machine ou sur un cluster Spark.
Criez si vous voulez aller plus vite !
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice