Eseguire SQL sui DataFrame
I DataFrame possono essere manipolati facilmente usando query SQL in PySpark. Il metodo .sql() in una SparkSession permette alle applicazioni di eseguire query SQL in modo programmatico e restituisce il risultato come un altro DataFrame. In questo esercizio creerai una tabella temporanea a partire da un DataFrame che hai già creato in precedenza, poi costruirai una query per selezionare i nomi delle persone dalla tabella temporanea e assegnerai il risultato a un nuovo DataFrame.
Ricorda: nel tuo workspace sono già disponibili una SparkSession spark e un DataFrame df.
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Crea una tabella temporanea chiamata
"people"dal DataFramedf. - Costruisci una query per selezionare i nomi delle persone dalla tabella temporanea
people. - Assegna il risultato della query di Spark a un nuovo DataFrame chiamato
people_df_names. - Stampa le prime 10 righe con i nomi delle persone dal DataFrame
people_df_names.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a temporary table "people"
df.____("people")
# Select the names from the temporary table people
query = """SELECT name FROM ____"""
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)