ComenzarEmpieza gratis

Map y Collect

El principal método con el que puedes manipular datos en PySpark es el uso de map(). La transformación map() toma una función y la aplica a cada elemento del RDD. Puedes utilizar esto para hacer todo lo que quieras, desde obtener el sitio web asociado a cada URL de nuestra colección hasta simplemente elevar los números al cuadrado. En este sencillo ejercicio utilizarás la transformación map() para elevar al cubo cada número del RDD numbRDD que has creado anteriormente. A continuación, almacenarás todos los elementos en una variable y, por último, imprimirás la salida.

Recuerda que ya tienes sc y numbRDD de SparkContext disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

  • Crea la transformación map() que eleva al cubo todos los números en numbRDD.
  • Obtén los resultados en una variable numbers_all.
  • Imprime la salida de la variable numbers_all.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)

# Collect the results
numbers_all = cubedRDD.____()

# Print the numbers from numbers_all
for numb in ____:
	print(____)
Editar y ejecutar código