Memuat CSV ke dalam DataFrame
Pada latihan sebelumnya, Anda telah melihat metode untuk membuat DataFrame dari sebuah RDD. Secara umum, memuat data dari berkas CSV adalah cara paling umum untuk membuat DataFrame. Pada latihan ini, Anda akan membuat sebuah DataFrame PySpark dari berkas people.csv yang sudah disediakan untuk Anda sebagai file_path dan memastikan bahwa objek yang dibuat adalah sebuah DataFrame PySpark.
Ingat, Anda sudah memiliki SparkSession spark dan variabel file_path (jalur ke berkas people.csv) yang tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Buat sebuah DataFrame dari variabel
file_pathyang merupakan jalur ke berkaspeople.csv. - Pastikan keluarannya adalah sebuah DataFrame PySpark.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)
# Check the type of people_df
print("The type of people_df is", ____(people_df))