Aan de slagGa gratis aan de slag

Prestaties van bestandsimport

Je hebt een grote dataset gekregen die je in een Spark DataFrame moet importeren. Je wilt het verschil in importsnelheid testen door het bestand op te splitsen.

Je hebt twee typen bestanden beschikbaar: departures_full.txt.gz en departures_xxx.txt.gz waarbij xxx 000 - 013 is. Hetzelfde aantal rijen is over elk bestand verdeeld.

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Cursus bekijken

Oefeninstructies

  • Importeer het bestand departures_full.txt.gz en de bestanden departures_xxx.txt.gz in aparte DataFrames.
  • Voer een count uit op elk DataFrame en vergelijk de looptijden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)

# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))

start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))
Code bewerken en uitvoeren