RDD'den DataFrame'e
RDD'ler gibi, DataFrame'ler de Spark'ta değiştirilemez ve dağıtık veri yapılarıdır. RDD'ler Spark'ın temel veri yapıları olsa da, verilerle DataFrame'lerde çalışmak RDD'lere göre daha kolaydır. Bu yüzden, bir RDD'yi DataFrame'e nasıl dönüştüreceğini bilmen gerekir.
Bu egzersizde, önce sana zaten verilmiş olan sample_list'ten bir RDD oluşturacaksın. Bu RDD, her biri kişinin adını ve yaşını içeren ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) şeklinde demetlerden oluşan bir liste içerir. Sonrasında, RDD ve şemayı (yani 'Name' ve 'Age' listesini) kullanarak bir DataFrame oluşturacak ve en sonunda çıktının bir PySpark DataFrame'i olduğunu doğrulayacaksın.
Unutma, çalışma alanında bir SparkContext sc ve SparkSession spark zaten hazır.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
sample_list'ten bir RDD oluştur.- Yukarıdaki RDD ve şemayı kullanarak bir PySpark DataFrame oluştur.
- Çıktının PySpark DataFrame olduğunu doğrula.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create an RDD from the list
rdd = sc.____(sample_list)
# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])
# Check the type of names_df
print("The type of names_df is", ____(names_df))