MulaiMulai sekarang secara gratis

RDD ke DataFrame

Mirip dengan RDD, DataFrame adalah struktur data Spark yang tidak dapat diubah dan terdistribusi. Meskipun RDD merupakan struktur data fundamental di Spark, bekerja dengan data dalam DataFrame lebih mudah dibandingkan RDD. Oleh karena itu, pemahaman tentang cara mengonversi RDD menjadi DataFrame diperlukan.

Dalam latihan ini, Anda akan terlebih dahulu membuat sebuah RDD menggunakan sample_list yang sudah disediakan untuk Anda. RDD ini berisi daftar tuple ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) dengan setiap tuple memuat nama orang dan usianya. Selanjutnya, Anda akan membuat sebuah DataFrame menggunakan RDD dan skema (yang merupakan daftar 'Name' dan 'Age') dan akhirnya mengonfirmasi bahwa keluaran adalah sebuah DataFrame PySpark.

Ingat, Anda sudah memiliki SparkContext sc dan SparkSession spark yang tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat sebuah RDD dari sample_list.
  • Buat sebuah DataFrame PySpark menggunakan RDD dan skema di atas.
  • Konfirmasikan bahwa keluarannya adalah DataFrame PySpark.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create an RDD from the list
rdd = sc.____(sample_list)

# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])

# Check the type of names_df
print("The type of names_df is", ____(names_df))
Edit dan Jalankan Kode