RDD oluşturma
PySpark'ta bir RDD'yi (Resilient Distributed Dataset) birkaç farklı yolla oluşturabilirsin. Zaten DataFrame'lere aşina olduğun için bunu bir DataFrame üzerinden kuracaksın. Unutma, çalışma alanında zaten spark adlı bir SparkSession var!
Bu egzersiz
PySpark'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Verilen listeden
dfadlı bir DataFrame oluştur. - DataFrame'i bir RDD'ye dönüştür.
- Ortaya çıkan RDD'yi topla ve yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)
# Convert DataFrame to RDD
rdd = df.____
# Show the RDD's contents
rdd.____
print(rdd)