Den Mittelsmann weglassen
Jetzt weißt du, wie du Daten über pandas
in Spark einspeisen kannst, aber du fragst dich wahrscheinlich, warum du dich überhaupt mit pandas
beschäftigen solltest? Wäre es nicht einfacher, eine Textdatei direkt in Spark einzulesen? Natürlich wäre es das!
Zum Glück hat deine SparkSession
ein .read
-Attribut, das mehrere Methoden zum Lesen verschiedener Datenquellen in Spark DataFrames bietet. Mit diesen kannst du einen DataFrame aus einer .csv-Datei erstellen, genau wie bei den normalen pandas
DataFrames!
Die Variable file_path
ist eine Zeichenkette mit dem Pfad zu der Datei airports.csv
. Diese Datei enthält Informationen über verschiedene Flughäfen auf der ganzen Welt.
Eine SparkSession
mit dem Namen spark
ist in deinem Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
Verwende die Methode
.read.csv()
, um einen Spark DataFrame namensairports
zu erstellen.Das erste Argument ist
file_path
Übergib das Argument
header=True
, damit Spark weiß, dass es die Spaltennamen aus der ersten Zeile der Datei nehmen soll.
Gib diesen DataFrame aus, indem du
.show()
aufrufst.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()