IniziaInizia gratis

Eseguire query SQL in modo programmatico

I DataFrame possono essere facilmente manipolati usando query SQL in PySpark. La funzione sql() in una SparkSession permette alle applicazioni di eseguire query SQL in modo programmatico e restituisce il risultato come un altro DataFrame. In questo esercizio, creerai una tabella temporanea del DataFrame che hai creato in precedenza, poi costruirai una query per selezionare i nomi delle persone dalla tabella temporanea e assegnerai il risultato a un nuovo DataFrame.

Ricorda: hai già una SparkSession spark e un DataFrame disponibili nel tuo workspace.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una tabella temporanea people.
  • Costruisci una query per selezionare i nomi delle persone dalla tabella temporanea people.
  • Assegna il risultato della query di Spark a un nuovo DataFrame: people_df_names.
  • Stampa i primi 10 nomi delle persone dal DataFrame people_df_names.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a temporary table "people"
people_df.____("people")

# Construct a query to select the names of the people from the temporary table "people"
query = '''SELECT name FROM ____'''

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Modifica ed esegui il codice