Comparar las uniones de difusión con las normales
Has creado dos tipos de uniones, normales y difundidas. Ahora a tu jefe le gustaría saber cuál es la mejora de rendimiento al utilizar las optimizaciones de Spark. Si los resultados son prometedores, tendrás más oportunidades de ajustar la configuración de Spark según sea necesario.
Tus DataFrames normal_df
y broadcast_df
están disponibles para que los utilices.
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Instrucciones de ejercicio
- Ejecuta
.count()
en el DataFrame normal. - Ejecuta
.count()
en el DataFrame emitido. - Imprime el recuento y la duración de los DataFrames observando y las diferencias.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
start_time = time.time()
# Count the number of rows in the normal DataFrame
normal_count = ____
normal_duration = time.time() - start_time
start_time = time.time()
# Count the number of rows in the broadcast DataFrame
broadcast_count = ____
broadcast_duration = time.time() - start_time
# Print the counts and the duration of the tests
print("Normal count:\t\t%d\tduration: %f" % (normal_count, normal_duration))
print("Broadcast count:\t%d\tduration: %f" % (broadcast_count, broadcast_duration))