Aan de slagGa gratis aan de slag

CSV laden in een DataFrame

In de vorige oefening zag je een manier om een DataFrame te maken vanuit een RDD. Meestal is data laden uit een CSV-bestand de meest gebruikte methode om DataFrames te maken. In deze oefening maak je een PySpark DataFrame van het bestand people.csv, dat al als file_path is meegeleverd, en controleer je of het aangemaakte object een PySpark DataFrame is.

Onthoud: je hebt al een SparkSession spark en een variabele file_path (het pad naar het bestand people.csv) beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

  • Maak een DataFrame van de variabele file_path, het pad naar het bestand people.csv.
  • Bevestig dat de output een PySpark DataFrame is.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))
Code bewerken en uitvoeren