CSV laden in een DataFrame
In de vorige oefening zag je een manier om een DataFrame te maken vanuit een RDD. Meestal is data laden uit een CSV-bestand de meest gebruikte methode om DataFrames te maken. In deze oefening maak je een PySpark DataFrame van het bestand people.csv, dat al als file_path is meegeleverd, en controleer je of het aangemaakte object een PySpark DataFrame is.
Onthoud: je hebt al een SparkSession spark en een variabele file_path (het pad naar het bestand people.csv) beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Maak een DataFrame van de variabele
file_path, het pad naar het bestandpeople.csv. - Bevestig dat de output een PySpark DataFrame is.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)
# Check the type of people_df
print("The type of people_df is", ____(people_df))