RDD'den DataFrame'e
RDD'ler gibi, DataFrame'ler de Spark'ta değiştirilemez ve dağıtık veri yapılarıdır. RDD'ler Spark'ın temel veri yapıları olsa da, verilerle DataFrame'lerde çalışmak RDD'lere göre daha kolaydır. Bu yüzden, bir RDD'yi DataFrame'e nasıl dönüştüreceğini bilmen gerekir.
Bu egzersizde, önce sana zaten verilmiş olan sample_list'ten bir RDD oluşturacaksın. Bu RDD, her biri kişinin adını ve yaşını içeren ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) şeklinde demetlerden oluşan bir liste içerir. Sonrasında, RDD ve şemayı (yani 'Name' ve 'Age' listesini) kullanarak bir DataFrame oluşturacak ve en sonunda çıktının bir PySpark DataFrame'i olduğunu doğrulayacaksın.
Unutma, çalışma alanında bir SparkContext sc ve SparkSession spark zaten hazır.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
sample_list'ten bir RDD oluştur.- Yukarıdaki RDD ve şemayı kullanarak bir PySpark DataFrame oluştur.
- Çıktının PySpark DataFrame olduğunu doğrula.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create an RDD from the list
rdd = sc.____(sample_list)
# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])
# Check the type of names_df
print("The type of names_df is", ____(names_df))