Den Mittelsmann weglassen
Jetzt weißt du, wie du Daten über pandas in Spark einspeisen kannst, aber du fragst dich wahrscheinlich, warum du dich überhaupt mit pandas beschäftigen solltest? Wäre es nicht einfacher, eine Textdatei direkt in Spark einzulesen? Natürlich wäre es das!
Zum Glück hat deine SparkSession ein .read-Attribut, das mehrere Methoden zum Lesen verschiedener Datenquellen in Spark DataFrames bietet. Mit diesen kannst du einen DataFrame aus einer .csv-Datei erstellen, genau wie bei den normalen pandas DataFrames!
Die Variable file_path ist eine Zeichenkette mit dem Pfad zu der Datei airports.csv. Diese Datei enthält Informationen über verschiedene Flughäfen auf der ganzen Welt.
Eine SparkSession mit dem Namen spark ist in deinem Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
Verwende die Methode
.read.csv(), um einen Spark DataFrame namensairportszu erstellen.Das erste Argument ist
file_pathÜbergib das Argument
header=True, damit Spark weiß, dass es die Spaltennamen aus der ersten Zeile der Datei nehmen soll.
Gib diesen DataFrame aus, indem du
.show()aufrufst.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()