Escribir configuraciones Spark

Ahora que has revisado algunas de las configuraciones de Spark en tu clúster, querrás modificar algunos de los ajustes para ajustar Spark a tus necesidades. Importarás algunos datos para comprobar que tus cambios han afectado al clúster.

La configuración de la chispa se establece inicialmente en el valor por defecto de 200 particiones.

El objeto spark está disponible para su uso. Puedes importar un archivo llamado departures.txt.gz. Un DataFrame inicial que contiene las filas distintas de departures.txt.gz está disponible como departures_df.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

Almacena el número de particiones en departures_df en la variable before.
Cambia la configuración de spark.sql.shuffle.partitions a 500 particiones.
Recrea el DataFrame departures_df leyendo las distintas filas del fichero de salidas.
Imprime el número de particiones de antes y después del cambio de configuración.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Store the number of partitions in variable
before = departures_df.____

# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)

# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____

# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)

Editar y ejecutar código