RDD dari Koleksi yang Diparalelkan

Resilient Distributed Dataset (RDD) adalah abstraksi dasar di Spark. Ini merupakan himpunan data terdistribusi yang tidak dapat diubah (immutable). Karena RDD adalah tipe data fundamental dan tulang punggung di Spark, penting bagi Anda untuk memahami cara membuatnya. Pada latihan ini, Anda akan membuat RDD pertama Anda di PySpark dari sekumpulan kata.

Ingat, Anda sudah memiliki SparkContext sc yang tersedia di ruang kerja Anda.

Latihan ini merupakan bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Instruksi latihan

Buat sebuah RDD bernama RDD dari daftar Python berisi kata-kata.
Konfirmasikan bahwa objek yang dibuat adalah RDD.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))

Edit dan Jalankan Kode