Aan de slagBegin gratis

Prestaties van bestandsimport

Je hebt een grote dataset gekregen die je in een Spark DataFrame moet importeren. Je wilt het verschil in importsnelheid testen door het bestand op te splitsen.

Je hebt twee typen bestanden beschikbaar: departures_full.txt.gz en departures_xxx.txt.gz waarbij xxx 000 - 013 is. Hetzelfde aantal rijen is over elk bestand verdeeld.

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Bekijk cursus

Oefeninstructies

  • Importeer het bestand departures_full.txt.gz en de bestanden departures_xxx.txt.gz in aparte DataFrames.
  • Voer een count uit op elk DataFrame en vergelijk de looptijden.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)

# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))

start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))
Code bewerken en uitvoeren