Memuat CSV ke dalam DataFrame

Pada latihan sebelumnya, Anda telah melihat metode untuk membuat DataFrame dari sebuah RDD. Secara umum, memuat data dari berkas CSV adalah cara paling umum untuk membuat DataFrame. Pada latihan ini, Anda akan membuat sebuah DataFrame PySpark dari berkas people.csv yang sudah disediakan untuk Anda sebagai file_path dan memastikan bahwa objek yang dibuat adalah sebuah DataFrame PySpark.

Ingat, Anda sudah memiliki SparkSession spark dan variabel file_path (jalur ke berkas people.csv) yang tersedia di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

Buat sebuah DataFrame dari variabel file_path yang merupakan jalur ke berkas people.csv.
Pastikan keluarannya adalah sebuah DataFrame PySpark.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))

Edit dan Jalankan Kode