Alles samenbrengen I
Je hebt een stevige basis in PySpark gelegd, de kernonderdelen verkend en geoefend met praktische scenario’s met Spark SQL, DataFrames en geavanceerde operaties. Nu is het tijd om alles samen te brengen. In de komende twee oefeningen ga je een SparkSession maken, een DataFrame opzetten, die DataFrame cachen, analyses uitvoeren en het resultaat toelichten!
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Importeer
SparkSessionuitpyspark.sql. - Maak een nieuwe
SparkSessionmet de naamfinal_sparkmetSparkSession.builder.getOrCreate(). - Print
my_sparknaar de console om te controleren dat het eenSparkSessionis. - Maak een nieuwe DataFrame op basis van een vooraf geladen schema en kolomdefinitie.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import SparkSession from pyspark.sql
from ____ import ____
# Create my_spark
my_spark = SparkSession.builder.appName(____).____
# Print my_spark
____
# Load dataset into a DataFrame
df = ____(data, schema=columns)
df.show()