IniziaInizia gratis

Parte 2: query SQL su DataFrame

Il DataFrame fifa_df che abbiamo creato include informazioni aggiuntive sui tipi di dato e sui nomi delle colonne. Queste informazioni permettono a PySpark SQL di eseguire query SQL sui DataFrame. Le query SQL sono concise e più semplici da eseguire rispetto alle operazioni sui DataFrame. Però, per poter applicare query SQL su un DataFrame, devi prima creare una vista temporanea del DataFrame come tabella e poi eseguire le query SQL sulla tabella creata (Esecuzione programmativa di query SQL).

In questa seconda parte, creerai una tabella temporanea dal DataFrame fifa_df ed eseguirai query SQL per estrarre la colonna 'Age' dei giocatori della Germania.

Nel tuo workspace hai già a disposizione uno SparkContext spark e fifa_df.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea la tabella temporanea fifa_df_table a partire dal DataFrame fifa_df.
  • Costruisci una "query" per estrarre la colonna "Age" dei giocatori tedeschi da fifa_df_table.
  • Applica la "query" SQL e crea un nuovo DataFrame fifa_df_germany_age.
  • Calcola le statistiche di base del DataFrame creato.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a temporary view of fifa_df
fifa_df.____('fifa_df_table')

# Construct the "query"
query = '''SELECT ____ FROM ____ WHERE Nationality == "Germany"'''

# Apply the SQL "query"
fifa_df_germany_age = spark.____(____)

# Generate basic statistics
fifa_df_germany_age.____().show()
Modifica ed esegui il codice