Map y Collect
El principal método con el que puedes manipular datos en PySpark es el uso de map()
. La transformación map()
toma una función y la aplica a cada elemento del RDD. Puedes utilizar esto para hacer todo lo que quieras, desde obtener el sitio web asociado a cada URL de nuestra colección hasta simplemente elevar los números al cuadrado. En este sencillo ejercicio utilizarás la transformación map()
para elevar al cubo cada número del RDD numbRDD
que has creado anteriormente. A continuación, almacenarás todos los elementos en una variable y, por último, imprimirás la salida.
Recuerda que ya tienes sc
y numbRDD
de SparkContext disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones del ejercicio
- Crea la transformación
map()
que eleva al cubo todos los números ennumbRDD
. - Obtén los resultados en una variable
numbers_all
. - Imprime la salida de la variable
numbers_all
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)
# Collect the results
numbers_all = cubedRDD.____()
# Print the numbers from numbers_all
for numb in ____:
print(____)