Aan de slagGa gratis aan de slag

Ben jij query-ous?

Een van de voordelen van de DataFrame-interface is dat je SQL-query’s kunt draaien op de tabellen in je Spark-cluster. Heb je geen ervaring met SQL? Geen zorgen, wij geven je de query’s! (Wil je meer SQL leren? Begin dan met onze cursus Introduction to SQL.)

Zoals je in de vorige oefening zag, is een van de tabellen in je cluster de tabel flights. Deze tabel bevat een rij voor elke vlucht die in 2014 en 2015 vertrok vanaf Portland International Airport (PDX) of Seattle-Tacoma International Airport (SEA).

Een query op deze tabel uitvoeren is net zo simpel als de methode .sql() gebruiken op je SparkSession. Deze methode neemt een string met de query en geeft een DataFrame met de resultaten terug!

Als je goed kijkt, zie je dat de tabel flights alleen in de query wordt genoemd, niet als argument van een van de methoden. Dat komt doordat er geen lokaal object in je omgeving is dat deze data vasthoudt, dus het zou niet logisch zijn om de tabel als argument door te geven.

Onthoud: we hebben in je werkruimte al een SparkSession met de naam spark aangemaakt. (Hij heet niet langer my_spark, omdat wij ‘m voor je hebben gemaakt!)

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Oefeninstructies

  • Gebruik de methode .sql() om de eerste 10 rijen van de tabel flights op te halen en sla het resultaat op in flights10. De variabele query bevat de juiste SQL-query.
  • Gebruik de DataFrame-methode .show() om flights10 af te drukken.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Don't change this query
query = "FROM flights SELECT * LIMIT 10"

# Get the first 10 rows of flights
flights10 = ____

# Show the results
flights10.____
Code bewerken en uitvoeren