Ejecución de archivos PySpark
En este ejercicio, vas a ejecutar un archivo PySpark utilizando spark-submit
. Esta herramienta puede ayudarte a enviar tu solicitud a un clúster spark.
Por el bien de este ejercicio, vas a trabajar con una instancia local de Spark ejecutándose en 4 hilos. El archivo que tienes que enviar está en /home/repl/spark-script.py
. No dudes en leer el archivo:
cat /home/repl/spark-script.py
Puedes utilizar spark-submit
del siguiente modo:
spark-submit \
--master local[4] \
/home/repl/spark-script.py
¿Qué significa esto? Ten en cuenta que puedes tardar unos segundos en obtener los resultados.
Este ejercicio forma parte del curso
Introducción a la ingeniería de datos
Ejercicio interactivo práctico
Convierte la teoría en acción con uno de nuestros ejercicios interactivos
