Rendimiento de la importación de archivos

Te han dado un gran conjunto de datos para importar a un DataFrame Spark. Te gustaría probar la diferencia en la velocidad de importación dividiendo el archivo.

Tienes dos tipos de archivos disponibles: departures_full.txt.gz y departures_xxx.txt.gz donde xxx es 000 - 013. Se reparte el mismo número de filas entre cada archivo.

Este ejercicio forma parte del curso

Limpiar datos con PySpark

Ver curso

Instrucciones del ejercicio

Importa el archivo departures_full.txt.gz y los archivos departures_xxx.txt.gz en DataFrames separados.
Ejecuta un recuento en cada DataFrame y compara los tiempos de ejecución.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)

# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))

start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))

Editar y ejecutar código