Erste SchritteKostenlos loslegen

Den Mittelsmann weglassen

Jetzt weißt du, wie du Daten über pandas in Spark einspeisen kannst, aber du fragst dich wahrscheinlich, warum du dich überhaupt mit pandas beschäftigen solltest? Wäre es nicht einfacher, eine Textdatei direkt in Spark einzulesen? Natürlich wäre es das!

Zum Glück hat deine SparkSession ein .read-Attribut, das mehrere Methoden zum Lesen verschiedener Datenquellen in Spark DataFrames bietet. Mit diesen kannst du einen DataFrame aus einer .csv-Datei erstellen, genau wie bei den normalen pandas DataFrames!

Die Variable file_path ist eine Zeichenkette mit dem Pfad zu der Datei airports.csv. Diese Datei enthält Informationen über verschiedene Flughäfen auf der ganzen Welt.

Eine SparkSession mit dem Namen spark ist in deinem Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Verwende die Methode .read.csv(), um einen Spark DataFrame namens airports zu erstellen.

    • Das erste Argument ist file_path

    • Übergib das Argument header=True, damit Spark weiß, dass es die Spaltennamen aus der ersten Zeile der Datei nehmen soll.

  • Gib diesen DataFrame aus, indem du .show() aufrufst.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"

# Read in the airports data
airports = ____.____.____(____, ____=____)

# Show the data
____.____()
Bearbeiten und Ausführen von Code