Aan de slagGa gratis aan de slag

De tussenpersoon overslaan

Je weet nu hoe je data in Spark krijgt via pandas, maar je vraagt je misschien af waarom je pandas überhaupt zou gebruiken. Is het niet makkelijker om een tekstbestand direct in Spark te lezen? Natuurlijk!

Gelukkig heeft je SparkSession een .read-attribuut met verschillende methoden om diverse databronnen in Spark DataFrames te laden. Daarmee kun je net als bij gewone pandas DataFrames een DataFrame maken uit een .csv-bestand!

De variabele file_path is een string met het pad naar het bestand airports.csv. Dit bestand bevat informatie over verschillende luchthavens over de hele wereld.

Een SparkSession met de naam spark is beschikbaar in je workspace.

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Oefeninstructies

  • Gebruik de methode .read.csv() om een Spark DataFrame airports te maken
    • Het eerste argument is file_path
    • Geef het argument header=True mee zodat Spark de kolomnamen uit de eerste regel van het bestand haalt.
  • Print dit DataFrame met .show().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"

# Read in the airports data
airports = ____.____.____(____, ____=____)

# Show the data
____.____()
Code bewerken en uitvoeren