Uso interactivo de PySpark
Spark incluye un terminal Python interactivo en el que ya está instalado PySpark. El terminal PySpark es útil para pruebas y depuración básicas, y es bastante potente. La forma más sencilla de demostrar la potencia del terminal PySpark es hacer un ejercicio. En este ejercicio, cargarás una sencilla lista con números del 1 al 100 en el terminal PySpark.
Lo más importante que hay que comprender aquí es que no estamos creando ningún objeto SparkContext, porque PySpark crea automáticamente el objeto SparkContext llamado sc
en la terminal PySpark.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Crea una lista Python llamada
numb
que contenga los números del 1 al 100. - Carga la lista en Spark utilizando el método
parallelize
de SparkContext y asígnala a una variablespark_data
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create a Python list of numbers from 1 to 100
numb = range(____, ____)
# Load the list into PySpark
spark_data = sc.____(numb)