Eseguire query SQL in modo programmatico
I DataFrame possono essere facilmente manipolati usando query SQL in PySpark. La funzione sql() in una SparkSession permette alle applicazioni di eseguire query SQL in modo programmatico e restituisce il risultato come un altro DataFrame. In questo esercizio, creerai una tabella temporanea del DataFrame che hai creato in precedenza, poi costruirai una query per selezionare i nomi delle persone dalla tabella temporanea e assegnerai il risultato a un nuovo DataFrame.
Ricorda: hai già una SparkSession spark e un DataFrame disponibili nel tuo workspace.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Crea una tabella temporanea
people. - Costruisci una
queryper selezionare i nomi delle persone dalla tabella temporaneapeople. - Assegna il risultato della
querydi Spark a un nuovo DataFrame:people_df_names. - Stampa i primi 10 nomi delle persone dal DataFrame
people_df_names.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a temporary table "people"
people_df.____("people")
# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''
# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)
# Print the top 10 names of the people
people_df_names.____(____)