RDD ke DataFrame
Mirip dengan RDD, DataFrame adalah struktur data Spark yang tidak dapat diubah dan terdistribusi. Meskipun RDD merupakan struktur data fundamental di Spark, bekerja dengan data dalam DataFrame lebih mudah dibandingkan RDD. Oleh karena itu, pemahaman tentang cara mengonversi RDD menjadi DataFrame diperlukan.
Dalam latihan ini, Anda akan terlebih dahulu membuat sebuah RDD menggunakan sample_list yang sudah disediakan untuk Anda. RDD ini berisi daftar tuple ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) dengan setiap tuple memuat nama orang dan usianya. Selanjutnya, Anda akan membuat sebuah DataFrame menggunakan RDD dan skema (yang merupakan daftar 'Name' dan 'Age') dan akhirnya mengonfirmasi bahwa keluaran adalah sebuah DataFrame PySpark.
Ingat, Anda sudah memiliki SparkContext sc dan SparkSession spark yang tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Buat sebuah RDD dari
sample_list. - Buat sebuah DataFrame PySpark menggunakan RDD dan skema di atas.
- Konfirmasikan bahwa keluarannya adalah DataFrame PySpark.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create an RDD from the list
rdd = sc.____(sample_list)
# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])
# Check the type of names_df
print("The type of names_df is", ____(names_df))