Neugierig geworden?
Einer der Vorteile der DataFrame-Schnittstelle ist, dass du SQL-Abfragen auf den Tabellen in deinem Spark-Cluster ausführen kannst. Wenn du keine Erfahrung mit SQL hast, mach dir keine Sorgen, wir werden dich mit Abfragen versorgen! (Um mehr über SQL zu erfahren, beginne am besten mit unserem Kurs Einführung in SQL).
Wie du in der letzten Aufgabe gesehen hast, ist eine der Tabellen in deinem Cluster die Tabelle flights
. Diese Tabelle enthält eine Zeile für jeden Flug, der den Portland International Airport (PDX) oder den Seattle-Tacoma International Airport (SEA) in den Jahren 2014 und 2015 verlassen hat.
Zur Abfrage dieser Tabelle musst du einfach die Methode .sql()
auf deiner SparkSession
verwenden. Diese Methode nimmt einen String mit der Abfrage entgegen und gibt einen DataFrame mit den Ergebnissen zurück!
Wenn du genau hinsiehst, wirst du feststellen, dass die Tabelle flights
nur in der Abfrage erwähnt wird und nicht als Argument für eine der Methoden. Der Grund dafür ist, dass es in deiner Umgebung kein lokales Objekt gibt, das diese Daten enthält, so dass es keinen Sinn machen würde, die Tabelle als Argument zu übergeben.
Erinnere dich daran, dass wir bereits eine SparkSession
mit dem Namen spark
in deinem Arbeitsbereich erstellt haben. (Sie heißt nicht mehr my_spark
, weil wir sie für dich erstellt haben!)
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Verwende die Methode
.sql()
, um die ersten 10 Zeilen der Tabelleflights
abzurufen und speichere das Ergebnis unterflights10
. Die Variablequery
enthält die entsprechende SQL-Abfrage. - Verwende die DataFrame-Methode
.show()
, umflights10
auszugeben.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Don't change this query
query = "FROM flights SELECT * LIMIT 10"
# Get the first 10 rows of flights
flights10 = ____
# Show the results
flights10.____