Faule Verarbeitung verwenden

Faule Verarbeitungsvorgänge werden in der Regel in etwa der gleichen Zeit zurückgegeben, unabhängig von der tatsächlichen Datenmenge. Bedenke, dass dies daran liegt, dass Spark keine Transformationen durchführt, bis eine Aktion angefordert wird.

In dieser Übung definieren wir einen Datenrahmen (aa_dfw_df) und fügen ein paar Transformationen hinzu. Beachte, wie lange es dauert, bis die Umwandlungen abgeschlossen sind, wenn sie definiert sind und wenn die Daten tatsächlich abgefragt werden. Diese Unterschiede mögen kurz sein, aber sie werden spürbar sein. Wenn du mit einem vollständigen Spark-Cluster mit größeren Datenmengen arbeitest, wird der Unterschied deutlicher.

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Anleitung zur Übung

Lade den Datenrahmen.
Füge die Transformation für F.lower() zur Spalte Destination Airport hinzu.
Zeige den Datenrahmen an und notiere die Zeitspanne, bis diese Aktion abgeschlossen ist.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')

# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))

# Show the DataFrame
____

Code bearbeiten und ausführen