Map et Collect

La principale méthode avec laquelle vous pouvez manipuler des données dans PySpark est map(). La transformation map() prend une fonction et l'applique à chaque élément du RDD. Elle peut s’utiliser pour effectuer un certain nombre de tâches, de la recherche du site web associé à chaque URL de notre collection à la mise au carré des nombres. Dans cet exercice simple, vous utiliserez la transformation map() pour mettre chaque nombre du RDD numbRDD que vous avez créé précédemment au cube. Ensuite, vous stockerez tous les éléments dans une variable et, enfin, vous afficherez le résultat.

Rappelez-vous qu’un SparkContext sc, ainsi que numbRDD, se trouvent déjà dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

Créez la transformation map() qui mettra tous les nombres de numbRDD au cube.
Rassemblez les résultats dans une variable numbers_all.
Affichez le résultat de la variable numbers_all.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)

# Collect the results
numbers_all = cubedRDD.____()

# Print the numbers from numbers_all
for numb in ____:
	print(____)

Modifier et exécuter le code