RDD oluşturma
PySpark'ta bir RDD'yi (Resilient Distributed Dataset) birkaç farklı yolla oluşturabilirsin. Zaten DataFrame'lere aşina olduğun için bunu bir DataFrame üzerinden kuracaksın. Unutma, çalışma alanında zaten spark adlı bir SparkSession var!
Bu egzersiz, kursun bir parçasıdır
PySpark'e Giriş
Egzersiz talimatları
- Verilen listeden
dfadlı bir DataFrame oluştur. - DataFrame'i bir RDD'ye dönüştür.
- Ortaya çıkan RDD'yi topla ve yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)
# Convert DataFrame to RDD
rdd = df.____
# Show the RDD's contents
rdd.____
print(rdd)