Load in the data
Reading in data is the first step to using PySpark for data science! Let's leverage the new industry standard of parquet files!
Deze oefening maakt deel uit van de cursus
Feature Engineering with PySpark
Oefeninstructies
- Use the
parquet()file reader to read in'Real_Estate.parq'as described in the video exercise. - Print out the list of columns with
columns.
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
# Read the file into a dataframe
df = spark.read.____(____)
# Print columns in dataframe
____(df.____)