CSV laden in een DataFrame

In de vorige oefening zag je een manier om een DataFrame te maken vanuit een RDD. Meestal is data laden uit een CSV-bestand de meest gebruikte methode om DataFrames te maken. In deze oefening maak je een PySpark DataFrame van het bestand people.csv, dat al als file_path is meegeleverd, en controleer je of het aangemaakte object een PySpark DataFrame is.

Onthoud: je hebt al een SparkSession spark en een variabele file_path (het pad naar het bestand people.csv) beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Bekijk cursus

Oefeninstructies

Maak een DataFrame van de variabele file_path, het pad naar het bestand people.csv.
Bevestig dat de output een PySpark DataFrame is.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))

Code bewerken en uitvoeren