Aan de slagGa gratis aan de slag

Alles samenbrengen I

Je hebt een stevige basis in PySpark gelegd, de kernonderdelen verkend en geoefend met praktische scenario’s met Spark SQL, DataFrames en geavanceerde operaties. Nu is het tijd om alles samen te brengen. In de komende twee oefeningen ga je een SparkSession maken, een DataFrame opzetten, die DataFrame cachen, analyses uitvoeren en het resultaat toelichten!

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Importeer SparkSession uit pyspark.sql.
  • Maak een nieuwe SparkSession met de naam final_spark met SparkSession.builder.getOrCreate().
  • Print my_spark naar de console om te controleren dat het een SparkSession is.
  • Maak een nieuwe DataFrame op basis van een vooraf geladen schema en kolomdefinitie.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import SparkSession from pyspark.sql
from ____ import ____

# Create my_spark
my_spark = SparkSession.builder.appName(____).____

# Print my_spark
____

# Load dataset into a DataFrame
df = ____(data, schema=columns)

df.show()
Code bewerken en uitvoeren