LoslegenKostenlos loslegen

Lazy Processing verwenden

Lazy-Processing-Operationen benötigen in der Regel ungefähr gleich viel Zeit, unabhängig von der tatsächlichen Datenmenge. Denk daran: Spark führt keine Transformationen aus, bis eine Aktion angefordert wird.

In dieser Übung definieren wir ein DataFrame (aa_dfw_df) und fügen ein paar Transformationen hinzu. Achte auf die Zeit, die für die Transformationen beim Definieren im Vergleich zur tatsächlichen Abfrage der Daten benötigt wird. Diese Unterschiede sind vielleicht klein, aber spürbar. In einem vollständigen Spark-Cluster mit größeren Datenmengen wird der Unterschied deutlicher ausfallen.

Diese Übung ist Teil des Kurses

Datenbereinigung mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Lade das DataFrame.
  • Füge die Transformation F.lower() für die Spalte Destination Airport hinzu.
  • Zeige das DataFrame an und achte auf den Zeitunterschied, bis diese Aktion abgeschlossen ist.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')

# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))

# Show the DataFrame
____
Code bearbeiten und ausführen