Desempenho da importação de arquivos
Você recebeu um grande conjunto de dados para importar para um DataFrame do Spark. Você gostaria de testar a diferença na velocidade de importação dividindo o arquivo.
Você tem dois tipos de arquivos disponíveis: departures_full.txt.gz
e departures_xxx.txt.gz
, onde xxx é 000 - 013. O mesmo número de linhas é dividido entre cada arquivo.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercício
- Importe o arquivo
departures_full.txt.gz
e os arquivosdepartures_xxx.txt.gz
em DataFrames separados. - Execute uma contagem em cada DataFrame e compare os tempos de execução.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)
# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))
start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))