ComenzarEmpieza gratis

Ejecución de archivos PySpark

En este ejercicio, vas a ejecutar un archivo PySpark utilizando spark-submit. Esta herramienta puede ayudarte a enviar tu solicitud a un clúster spark.

Por el bien de este ejercicio, vas a trabajar con una instancia local de Spark ejecutándose en 4 hilos. El archivo que tienes que enviar está en /home/repl/spark-script.py. No dudes en leer el archivo:

cat /home/repl/spark-script.py

Puedes utilizar spark-submit del siguiente modo:

spark-submit \

  --master local[4] \

  /home/repl/spark-script.py

¿Qué significa esto? Ten en cuenta que puedes tardar unos segundos en obtener los resultados.

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

Ver curso

Ejercicio interactivo práctico

Convierte la teoría en acción con uno de nuestros ejercicios interactivos

Empieza a hacer ejercicio