Leistung beim Datei-Import
Du hast eine große Menge an Daten erhalten, die du in einen Spark DataFrame importieren sollst. Du möchtest den Unterschied in der Importgeschwindigkeit testen, indem du die Datei aufteilst.
Du hast zwei Arten von Dateien zur Verfügung: departures_full.txt.gz
und departures_xxx.txt.gz
, wobei xxx für 000 - 013 steht. Die gleiche Anzahl von Zeilen wird auf jede Datei aufgeteilt.
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Anleitung zur Übung
- Importiere die Datei
departures_full.txt.gz
und die Dateiendepartures_xxx.txt.gz
in separate DataFrames. - Führe eine Zählung für jeden DataFrame durch und vergleiche die Laufzeiten.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)
# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))
start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))