Membuat RDD
Di PySpark, Anda dapat membuat RDD (Resilient Distributed Dataset) dengan beberapa cara. Karena Anda sudah familiar dengan DataFrame, Anda akan menyiapkannya menggunakan sebuah DataFrame. Ingat, sudah ada SparkSession bernama spark di workspace Anda!
Latihan ini merupakan bagian dari kursus
Pengantar PySpark
Instruksi latihan
- Buat sebuah DataFrame dari daftar yang disediakan dan beri nama
df. - Konversikan DataFrame tersebut menjadi sebuah RDD.
- Kumpulkan dan cetak RDD yang dihasilkan.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)
# Convert DataFrame to RDD
rdd = df.____
# Show the RDD's contents
rdd.____
print(rdd)