Deuxième partie : Requêtes SQL sur le DataFrame

Le DataFrame fifa_df que nous avons créé est associé à des informations supplémentaires sur les types de données et les noms des colonnes. Ces informations supplémentaires permettent à PySpark SQL d'exécuter des requêtes SQL sur la DataFrame. Les requêtes SQL sont concises et faciles à exécuter par rapport aux opérations des DataFrames. Mais pour appliquer des requêtes SQL au DataFrame, vous devez d'abord créer une vue temporaire du DataFrame en tant que table, puis appliquer les requêtes SQL à la table créée (en exécutant des requêtes SQL par la programmation).

Dans la deuxième partie, vous créerez une table temporaire du DataFrame fifa_df et exécuterez des requêtes SQL pour extraire la colonne « Age » des joueurs allemands.

Vous disposez déjà d'un SparkContext spark et de fifa_df dans votre espace de travail.

Cet exercice fait partie du cours

<cours>Principes fondamentaux des mégadonnées avec PySpark</cours>

Voir le cours

Instructions de l’exercice

Créez la table temporaire fifa_df_table à partir du DataFrame fifa_df.
Construisez une « requête » pour extraire la colonne « Age » des joueurs allemands de fifa_df_table.
Appliquez la « requête » SQL et créez un nouveau DataFrame fifa_df_germany_age.
Calculez les statistiques de base du DataFrame créé.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')

# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''

# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)

# Generate basic statistics
fifa_df_germany_age.____().show()

Modifier et exécuter le code