Ti senti query-oso?

Uno dei vantaggi dell'interfaccia DataFrame è che puoi eseguire query SQL sulle tabelle nel tuo cluster Spark. Se non hai esperienza con SQL, non preoccuparti: ti forniremo noi le query! (Per imparare meglio SQL, inizia dal nostro corso Introduction to SQL).

Come hai visto nell'esercizio precedente, una delle tabelle nel tuo cluster è flights. Questa tabella contiene una riga per ogni volo partito da Portland International Airport (PDX) o Seattle-Tacoma International Airport (SEA) nel 2014 e 2015.

Eseguire una query su questa tabella è semplice quanto usare il metodo .sql() sul tuo SparkSession. Questo metodo accetta una stringa con la query e restituisce un DataFrame con i risultati!

Se guardi bene, noterai che la tabella flights è menzionata solo nella query, non come argomento di nessun metodo. Questo perché nel tuo ambiente non c'è un oggetto locale che contenga quei dati, quindi non avrebbe senso passare la tabella come argomento.

Ricorda: abbiamo già creato una SparkSession chiamata spark nel tuo workspace. (Non si chiama più my_spark perché l'abbiamo creata noi per te!)

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza corso

Istruzioni dell'esercizio

Usa il metodo .sql() per ottenere le prime 10 righe della tabella flights e salva il risultato in flights10. La variabile query contiene la query SQL corretta.
Usa il metodo DataFrame .show() per stampare flights10.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Don't change this query
query = "FROM flights SELECT * LIMIT 10"

# Get the first 10 rows of flights
flights10 = ____

# Show the results
flights10.____

Modifica ed esegui il codice