IniziaInizia gratis

Eseguire SQL sui DataFrame

I DataFrame possono essere manipolati facilmente usando query SQL in PySpark. Il metodo .sql() in una SparkSession permette alle applicazioni di eseguire query SQL in modo programmatico e restituisce il risultato come un altro DataFrame. In questo esercizio creerai una tabella temporanea a partire da un DataFrame che hai già creato in precedenza, poi costruirai una query per selezionare i nomi delle persone dalla tabella temporanea e assegnerai il risultato a un nuovo DataFrame.

Ricorda: nel tuo workspace sono già disponibili una SparkSession spark e un DataFrame df.

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una tabella temporanea chiamata "people" dal DataFrame df.
  • Costruisci una query per selezionare i nomi delle persone dalla tabella temporanea people.
  • Assegna il risultato della query di Spark a un nuovo DataFrame chiamato people_df_names.
  • Stampa le prime 10 righe con i nomi delle persone dal DataFrame people_df_names.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a temporary table "people"
df.____("people")

# Select the names from the temporary table people
query = """SELECT name FROM ____"""

# Assign the result of Spark's query to people_df_names
people_df_names = spark.sql(____)

# Print the top 10 names of the people
people_df_names.____(____)
Modifica ed esegui il codice