RDD dari Koleksi yang Diparalelkan
Resilient Distributed Dataset (RDD) adalah abstraksi dasar di Spark. Ini merupakan himpunan data terdistribusi yang tidak dapat diubah (immutable). Karena RDD adalah tipe data fundamental dan tulang punggung di Spark, penting bagi Anda untuk memahami cara membuatnya. Pada latihan ini, Anda akan membuat RDD pertama Anda di PySpark dari sekumpulan kata.
Ingat, Anda sudah memiliki SparkContext sc yang tersedia di ruang kerja Anda.
Latihan ini merupakan bagian dari kursus
Fundamental Big Data dengan PySpark
Instruksi latihan
- Buat sebuah RDD bernama
RDDdari daftar Python berisi kata-kata. - Konfirmasikan bahwa objek yang dibuat adalah RDD.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])
# Print out the type of the created object
print("The type of RDD is", ____(RDD))