RDD dari Koleksi yang Diparalelkan
Resilient Distributed Dataset (RDD) adalah abstraksi dasar di Spark. Ini merupakan himpunan data terdistribusi yang tidak dapat diubah (immutable). Karena RDD adalah tipe data fundamental dan tulang punggung di Spark, penting bagi Anda untuk memahami cara membuatnya. Pada latihan ini, Anda akan membuat RDD pertama Anda di PySpark dari sekumpulan kata.
Ingat, Anda sudah memiliki SparkContext sc yang tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Buat sebuah RDD bernama
RDDdari daftar Python berisi kata-kata. - Konfirmasikan bahwa objek yang dibuat adalah RDD.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])
# Print out the type of the created object
print("The type of RDD is", ____(RDD))