MulaiMulai sekarang secara gratis

RDD dari Koleksi yang Diparalelkan

Resilient Distributed Dataset (RDD) adalah abstraksi dasar di Spark. Ini merupakan himpunan data terdistribusi yang tidak dapat diubah (immutable). Karena RDD adalah tipe data fundamental dan tulang punggung di Spark, penting bagi Anda untuk memahami cara membuatnya. Pada latihan ini, Anda akan membuat RDD pertama Anda di PySpark dari sekumpulan kata.

Ingat, Anda sudah memiliki SparkContext sc yang tersedia di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat sebuah RDD bernama RDD dari daftar Python berisi kata-kata.
  • Konfirmasikan bahwa objek yang dibuat adalah RDD.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))
Edit dan Jalankan Kode