Utiliser le traitement paresseux
Les opérations de traitement paresseux reviennent généralement dans le même laps de temps, quelle que soit la quantité réelle de données. Rappelez-vous que cela est dû au fait que Spark n'effectue aucune transformation tant qu'une action n'est pas demandée.
Pour cet exercice, nous allons définir un cadre de données (aa_dfw_df
) et ajouter quelques transformations. Notez le temps nécessaire à l'achèvement des transformations lorsqu'elles sont définies par rapport au temps nécessaire à l'interrogation des données. Ces différences peuvent être brèves, mais elles sont perceptibles. Lorsque vous travaillez avec un cluster Spark complet avec de plus grandes quantités de données, la différence sera plus évidente.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Chargez le cadre de données.
- Ajoutez la transformation pour
F.lower()
à la colonneDestination Airport
. - Affichez le cadre de données, en notant la différence de temps nécessaire à la réalisation de cette action.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')
# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))
# Show the DataFrame
____