Deuxième partie : Requêtes SQL sur le DataFrame
Le DataFrame fifa_df
que nous avons créé est associé à des informations supplémentaires sur les types de données et les noms des colonnes. Ces informations supplémentaires permettent à PySpark SQL d'exécuter des requêtes SQL sur la DataFrame. Les requêtes SQL sont concises et faciles à exécuter par rapport aux opérations des DataFrames. Mais pour appliquer des requêtes SQL au DataFrame, vous devez d'abord créer une vue temporaire du DataFrame en tant que table, puis appliquer les requêtes SQL à la table créée (en exécutant des requêtes SQL par la programmation).
Dans la deuxième partie, vous créerez une table temporaire du DataFrame fifa_df
et exécuterez des requêtes SQL pour extraire la colonne « Age » des joueurs allemands.
Vous disposez déjà d'un SparkContext spark
et de fifa_df
dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Créez la table temporaire
fifa_df_table
à partir du DataFramefifa_df
. - Construisez une « requête » pour extraire la colonne « Age » des joueurs allemands de
fifa_df_table
. - Appliquez la « requête » SQL et créez un nouveau DataFrame
fifa_df_germany_age
. - Calculez les statistiques de base du DataFrame créé.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')
# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''
# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)
# Generate basic statistics
fifa_df_germany_age.____().show()