Escribir configuraciones Spark
Ahora que has revisado algunas de las configuraciones de Spark en tu clúster, querrás modificar algunos de los ajustes para ajustar Spark a tus necesidades. Importarás algunos datos para comprobar que tus cambios han afectado al clúster.
La configuración de la chispa se establece inicialmente en el valor por defecto de 200 particiones.
El objeto spark
está disponible para su uso. Puedes importar un archivo llamado departures.txt.gz
. Un DataFrame inicial que contiene las filas distintas de departures.txt.gz
está disponible como departures_df
.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones de ejercicio
- Almacena el número de particiones en
departures_df
en la variablebefore
. - Cambia la configuración de
spark.sql.shuffle.partitions
a 500 particiones. - Recrea el DataFrame
departures_df
leyendo las distintas filas del fichero de salidas. - Imprime el número de particiones de antes y después del cambio de configuración.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Store the number of partitions in variable
before = departures_df.____
# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)
# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____
# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)