Ti senti query-oso?
Uno dei vantaggi dell'interfaccia DataFrame è che puoi eseguire query SQL sulle tabelle nel tuo cluster Spark. Se non hai esperienza con SQL, non preoccuparti: ti forniremo noi le query! (Per imparare meglio SQL, inizia dal nostro corso Introduction to SQL).
Come hai visto nell'esercizio precedente, una delle tabelle nel tuo cluster è flights. Questa tabella contiene una riga per ogni volo partito da Portland International Airport (PDX) o Seattle-Tacoma International Airport (SEA) nel 2014 e 2015.
Eseguire una query su questa tabella è semplice quanto usare il metodo .sql() sul tuo SparkSession. Questo metodo accetta una stringa con la query e restituisce un DataFrame con i risultati!
Se guardi bene, noterai che la tabella flights è menzionata solo nella query, non come argomento di nessun metodo. Questo perché nel tuo ambiente non c'è un oggetto locale che contenga quei dati, quindi non avrebbe senso passare la tabella come argomento.
Ricorda: abbiamo già creato una SparkSession chiamata spark nel tuo workspace. (Non si chiama più my_spark perché l'abbiamo creata noi per te!)
Questo esercizio fa parte del corso
Fondamenti di PySpark
Istruzioni dell'esercizio
- Usa il metodo
.sql()per ottenere le prime 10 righe della tabellaflightse salva il risultato inflights10. La variabilequerycontiene la query SQL corretta. - Usa il metodo DataFrame
.show()per stampareflights10.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Don't change this query
query = "FROM flights SELECT * LIMIT 10"
# Get the first 10 rows of flights
flights10 = ____
# Show the results
flights10.____