Mulai sekarangMulai gratis

Membuat RDD

Di PySpark, Anda dapat membuat RDD (Resilient Distributed Dataset) dengan beberapa cara. Karena Anda sudah familiar dengan DataFrame, Anda akan menyiapkannya menggunakan sebuah DataFrame. Ingat, sudah ada SparkSession bernama spark di workspace Anda!

Latihan ini merupakan bagian dari kursus

Pengantar PySpark

Lihat Kursus

Instruksi latihan

  • Buat sebuah DataFrame dari daftar yang disediakan dan beri nama df.
  • Konversikan DataFrame tersebut menjadi sebuah RDD.
  • Kumpulkan dan cetak RDD yang dihasilkan.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Edit dan Jalankan Kode