Neugierig geworden?

Einer der Vorteile der DataFrame-Schnittstelle ist, dass du SQL-Abfragen auf den Tabellen in deinem Spark-Cluster ausführen kannst. Wenn du keine Erfahrung mit SQL hast, mach dir keine Sorgen, wir werden dich mit Abfragen versorgen! (Um mehr über SQL zu erfahren, beginne am besten mit unserem Kurs Einführung in SQL).

Wie du in der letzten Aufgabe gesehen hast, ist eine der Tabellen in deinem Cluster die Tabelle flights. Diese Tabelle enthält eine Zeile für jeden Flug, der den Portland International Airport (PDX) oder den Seattle-Tacoma International Airport (SEA) in den Jahren 2014 und 2015 verlassen hat.

Zur Abfrage dieser Tabelle musst du einfach die Methode .sql() auf deiner SparkSession verwenden. Diese Methode nimmt einen String mit der Abfrage entgegen und gibt einen DataFrame mit den Ergebnissen zurück!

Wenn du genau hinsiehst, wirst du feststellen, dass die Tabelle flights nur in der Abfrage erwähnt wird und nicht als Argument für eine der Methoden. Der Grund dafür ist, dass es in deiner Umgebung kein lokales Objekt gibt, das diese Daten enthält, so dass es keinen Sinn machen würde, die Tabelle als Argument zu übergeben.

Erinnere dich daran, dass wir bereits eine SparkSession mit dem Namen spark in deinem Arbeitsbereich erstellt haben. (Sie heißt nicht mehr my_spark, weil wir sie für dich erstellt haben!)

Diese Übung ist Teil des Kurses

<Kurs>Einführung in PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Verwende die Methode .sql(), um die ersten 10 Zeilen der Tabelle flights abzurufen und speichere das Ergebnis unter flights10. Die Variable query enthält die entsprechende SQL-Abfrage.
Verwende die DataFrame-Methode .show(), um flights10 auszugeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Don't change this query
query = "FROM flights SELECT * LIMIT 10"

# Get the first 10 rows of flights
flights10 = ____

# Show the results
flights10.____

Code bearbeiten und ausführen