Prestaties van bestandsimport
Je hebt een grote dataset gekregen die je in een Spark DataFrame moet importeren. Je wilt het verschil in importsnelheid testen door het bestand op te splitsen.
Je hebt twee typen bestanden beschikbaar: departures_full.txt.gz en departures_xxx.txt.gz waarbij xxx 000 - 013 is. Hetzelfde aantal rijen is over elk bestand verdeeld.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Importeer het bestand
departures_full.txt.gzen de bestandendepartures_xxx.txt.gzin aparte DataFrames. - Voer een count uit op elk DataFrame en vergelijk de looptijden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)
# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))
start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))