Map et Collect
La principale méthode avec laquelle vous pouvez manipuler des données dans PySpark est map()
. La transformation map()
prend une fonction et l'applique à chaque élément du RDD. Elle peut s’utiliser pour effectuer un certain nombre de tâches, de la recherche du site web associé à chaque URL de notre collection à la mise au carré des nombres. Dans cet exercice simple, vous utiliserez la transformation map()
pour mettre chaque nombre du RDD numbRDD
que vous avez créé précédemment au cube. Ensuite, vous stockerez tous les éléments dans une variable et, enfin, vous afficherez le résultat.
Rappelez-vous qu’un SparkContext sc
, ainsi que numbRDD
, se trouvent déjà dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Créez la transformation
map()
qui mettra tous les nombres denumbRDD
au cube. - Rassemblez les résultats dans une variable
numbers_all
. - Affichez le résultat de la variable
numbers_all
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)
# Collect the results
numbers_all = cubedRDD.____()
# Print the numbers from numbers_all
for numb in ____:
print(____)