ComenzarEmpieza gratis

Uso interactivo de PySpark

Spark incluye un terminal Python interactivo en el que ya está instalado PySpark. El terminal PySpark es útil para pruebas y depuración básicas, y es bastante potente. La forma más sencilla de demostrar la potencia del terminal PySpark es hacer un ejercicio. En este ejercicio, cargarás una sencilla lista con números del 1 al 100 en el terminal PySpark.

Lo más importante que hay que comprender aquí es que no estamos creando ningún objeto SparkContext, porque PySpark crea automáticamente el objeto SparkContext llamado sc en la terminal PySpark.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • Crea una lista Python llamada numb que contenga los números del 1 al 100.
  • Carga la lista en Spark utilizando el método parallelize de SparkContext y asígnala a una variable spark_data.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create a Python list of numbers from 1 to 100 
numb = range(____, ____)

# Load the list into PySpark  
spark_data = sc.____(numb)
Editar y ejecutar código