Lui verwerken gebruiken
Bij lui verwerken duurt een bewerking meestal ongeveer even lang, ongeacht de hoeveelheid data. Dat komt doordat Spark geen transformaties uitvoert totdat er om een actie wordt gevraagd.
In deze oefening definieer je een DataFrame (aa_dfw_df) en voeg je een paar transformaties toe. Let op de tijd die nodig is om de transformaties te voltooien wanneer ze worden gedefinieerd versus wanneer de data daadwerkelijk wordt opgevraagd. Deze verschillen zijn misschien klein, maar wel merkbaar. Op een volledige Spark-cluster met grotere hoeveelheden data wordt het verschil duidelijker.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Laad de DataFrame.
- Voeg de transformatie
F.lower()toe aan de kolomDestination Airport. - Toon de DataFrame en let op het tijdsverschil totdat deze actie is voltooid.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')
# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))
# Show the DataFrame
____