Membuat RDD
Di PySpark, Anda dapat membuat RDD (Resilient Distributed Dataset) dengan beberapa cara. Karena Anda sudah familiar dengan DataFrame, Anda akan menyiapkannya menggunakan sebuah DataFrame. Ingat, sudah ada SparkSession bernama spark di workspace Anda!
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Buat sebuah DataFrame dari daftar yang disediakan dan beri nama
df. - Konversikan DataFrame tersebut menjadi sebuah RDD.
- Kumpulkan dan cetak RDD yang dihasilkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)
# Convert DataFrame to RDD
rdd = df.____
# Show the RDD's contents
rdd.____
print(rdd)