Parte 2: query SQL su DataFrame
Il DataFrame fifa_df che abbiamo creato include informazioni aggiuntive sui tipi di dato e sui nomi delle colonne. Queste informazioni permettono a PySpark SQL di eseguire query SQL sui DataFrame. Le query SQL sono concise e più semplici da eseguire rispetto alle operazioni sui DataFrame. Però, per poter applicare query SQL su un DataFrame, devi prima creare una vista temporanea del DataFrame come tabella e poi eseguire le query SQL sulla tabella creata (Esecuzione programmativa di query SQL).
In questa seconda parte, creerai una tabella temporanea dal DataFrame fifa_df ed eseguirai query SQL per estrarre la colonna 'Age' dei giocatori della Germania.
Nel tuo workspace hai già a disposizione uno SparkContext spark e fifa_df.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Crea la tabella temporanea
fifa_df_tablea partire dal DataFramefifa_df. - Costruisci una "query" per estrarre la colonna "Age" dei giocatori tedeschi da
fifa_df_table. - Applica la "query" SQL e crea un nuovo DataFrame
fifa_df_germany_age. - Calcola le statistiche di base del DataFrame creato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')
# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''
# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)
# Generate basic statistics
fifa_df_germany_age.____().show()