MulaiMulai sekarang secara gratis

Membuat RDD

Di PySpark, Anda dapat membuat RDD (Resilient Distributed Dataset) dengan beberapa cara. Karena Anda sudah familiar dengan DataFrame, Anda akan menyiapkannya menggunakan sebuah DataFrame. Ingat, sudah ada SparkSession bernama spark di workspace Anda!

Latihan ini adalah bagian dari kursus

Pengantar PySpark

Lihat Kursus

Petunjuk latihan

  • Buat sebuah DataFrame dari daftar yang disediakan dan beri nama df.
  • Konversikan DataFrame tersebut menjadi sebuah RDD.
  • Kumpulkan dan cetak RDD yang dihasilkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Edit dan Jalankan Kode