Desempenho da importação de arquivos

Você recebeu um grande conjunto de dados para importar para um DataFrame do Spark. Você gostaria de testar a diferença na velocidade de importação dividindo o arquivo.

Você tem dois tipos de arquivos disponíveis: departures_full.txt.gz e departures_xxx.txt.gz, onde xxx é 000 - 013. O mesmo número de linhas é dividido entre cada arquivo.

Este exercicio faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercicio

Importe o arquivo departures_full.txt.gz e os arquivos departures_xxx.txt.gz em DataFrames separados.
Execute uma contagem em cada DataFrame e compare os tempos de execução.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)

# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))

start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))

Editar e Executar Código