Leistung beim Datei-Import

Du hast eine große Menge an Daten erhalten, die du in einen Spark DataFrame importieren sollst. Du möchtest den Unterschied in der Importgeschwindigkeit testen, indem du die Datei aufteilst.

Du hast zwei Arten von Dateien zur Verfügung: departures_full.txt.gz und departures_xxx.txt.gz, wobei xxx für 000 - 013 steht. Die gleiche Anzahl von Zeilen wird auf jede Datei aufgeteilt.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Importiere die Datei departures_full.txt.gz und die Dateien departures_xxx.txt.gz in separate DataFrames.
Führe eine Zählung für jeden DataFrame durch und vergleiche die Laufzeiten.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)

# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))

start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))

Code bearbeiten und ausführen