LoslegenKostenlos loslegen

Leistung beim Dateiimport

Du sollst einen großen Datensatz in ein Spark-DataFrame importieren. Du möchtest den Unterschied in der Importgeschwindigkeit testen, indem du die Datei aufteilst.

Es gibt zwei Dateitypen: departures_full.txt.gz und departures_xxx.txt.gz, wobei xxx 000013 ist. Die gleiche Anzahl von Zeilen ist gleichmäßig auf die Dateien verteilt.

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Datei departures_full.txt.gz und die Dateien departures_xxx.txt.gz in separate DataFrames.
  • Führe auf jedem DataFrame eine Count-Abfrage aus und vergleiche die Laufzeiten.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the full and split files into DataFrames
full_df = spark.read.csv('____')
split_df = ____(____)

# Print the count and run time for each DataFrame
start_time_a = time.time()
print("Total rows in full DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_a))

start_time_b = time.time()
print("Total rows in split DataFrame:\t%d" % ____)
print("Time to run: %f" % (time.time() - start_time_b))
Code bearbeiten und ausführen