IDs con diferentes particiones
Acabas de añadir un campo ID a un Marco de datos. Ahora, echa un vistazo a lo que ocurre cuando haces lo mismo en DataFrames que contienen un número diferente de particiones.
Para comprobar el número de particiones, utiliza el método .rdd.getNumPartitions()
en un DataFrame.
La sesión spark
y dos DataFrames, voter_df
y voter_df_single
, están disponibles en tu espacio de trabajo. Las instrucciones te ayudarán a descubrir la diferencia entre los DataFrames. La biblioteca pyspark.sql.functions
está disponible con el alias F
.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones del ejercicio
- Imprime el número de particiones de cada DataFrame.
- Añade un campo
ROW_ID
a cada DataFrame. - Muestra los 10 primeros IDs de cada DataFrame.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Print the number of partitions in each DataFrame
print("\nThere are %d partitions in the voter_df DataFrame.\n" % ____)
print("\nThere are %d partitions in the voter_df_single DataFrame.\n" % ____)
# Add a ROW_ID field to each DataFrame
voter_df = voter_df.____('ROW_ID', ____)
voter_df_single = ____
# Show the top 10 IDs in each DataFrame
voter_df.____(voter_df.____.desc()).show(____)
____.orderBy(____).show(10)