Aan de slagGa gratis aan de slag

Load in the data

Reading in data is the first step to using PySpark for data science! Let's leverage the new industry standard of parquet files!

Deze oefening maakt deel uit van de cursus

Feature Engineering with PySpark

Cursus bekijken

Oefeninstructies

  • Use the parquet() file reader to read in 'Real_Estate.parq' as described in the video exercise.
  • Print out the list of columns with columns.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Read the file into a dataframe
df = spark.read.____(____)
# Print columns in dataframe
____(df.____)
Code bewerken en uitvoeren