De tussenpersoon overslaan
Je weet nu hoe je data in Spark krijgt via pandas, maar je vraagt je misschien af waarom je pandas überhaupt zou gebruiken. Is het niet makkelijker om een tekstbestand direct in Spark te lezen? Natuurlijk!
Gelukkig heeft je SparkSession een .read-attribuut met verschillende methoden om diverse databronnen in Spark DataFrames te laden. Daarmee kun je net als bij gewone pandas DataFrames een DataFrame maken uit een .csv-bestand!
De variabele file_path is een string met het pad naar het bestand airports.csv. Dit bestand bevat informatie over verschillende luchthavens over de hele wereld.
Een SparkSession met de naam spark is beschikbaar in je workspace.
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Gebruik de methode
.read.csv()om een Spark DataFrameairportste maken- Het eerste argument is
file_path - Geef het argument
header=Truemee zodat Spark de kolomnamen uit de eerste regel van het bestand haalt.
- Het eerste argument is
- Print dit DataFrame met
.show().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()