Utiliser le traitement paresseux

Les opérations de traitement paresseux reviennent généralement dans le même laps de temps, quelle que soit la quantité réelle de données. Rappelez-vous que cela est dû au fait que Spark n'effectue aucune transformation tant qu'une action n'est pas demandée.

Pour cet exercice, nous allons définir un cadre de données (aa_dfw_df) et ajouter quelques transformations. Notez le temps nécessaire à l'achèvement des transformations lorsqu'elles sont définies par rapport au temps nécessaire à l'interrogation des données. Ces différences peuvent être brèves, mais elles sont perceptibles. Lorsque vous travaillez avec un cluster Spark complet avec de plus grandes quantités de données, la différence sera plus évidente.

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Instructions

Chargez le cadre de données.
Ajoutez la transformation pour F.lower() à la colonne Destination Airport.
Affichez le cadre de données, en notant la différence de temps nécessaire à la réalisation de cette action.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')

# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))

# Show the DataFrame
____

Modifier et exécuter le code