Lazy Processing verwenden
Lazy-Processing-Operationen benötigen in der Regel ungefähr gleich viel Zeit, unabhängig von der tatsächlichen Datenmenge. Denk daran: Spark führt keine Transformationen aus, bis eine Aktion angefordert wird.
In dieser Übung definieren wir ein DataFrame (aa_dfw_df) und fügen ein paar Transformationen hinzu. Achte auf die Zeit, die für die Transformationen beim Definieren im Vergleich zur tatsächlichen Abfrage der Daten benötigt wird. Diese Unterschiede sind vielleicht klein, aber spürbar. In einem vollständigen Spark-Cluster mit größeren Datenmengen wird der Unterschied deutlicher ausfallen.
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Anleitung zur Übung
- Lade das DataFrame.
- Füge die Transformation
F.lower()für die SpalteDestination Airporthinzu. - Zeige das DataFrame an und achte auf den Zeitunterschied, bis diese Aktion abgeschlossen ist.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')
# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))
# Show the DataFrame
____