PySpark DataFrame alt kümeleme ve temizleme
Veriyi inceledikten sonra, genellikle veriyi temizlemek gerekir; bu da çoğunlukla alt kümeye ayırma, sütunları yeniden adlandırma, yinelenen satırları kaldırma vb. işlemleri içerir. PySpark DataFrame API bu işlemler için çeşitli operatörler sağlar. Bu egzersizde görevin, people_df DataFrame'inden 'name', 'sex' ve 'date of birth' sütunlarını alt küme olarak seçmek, bu veri kümesindeki yinelenen satırları kaldırmak ve yinelenenler kaldırılmadan önce ve sonra satır sayılarını hesaplamaktır.
Unutma, çalışma alanında bir SparkSession spark ve bir DataFrame people_df zaten mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
people_dfiçinden 'name', 'sex' ve 'date of birth' sütunlarını seç vepeople_df_subadlı bir DataFrame oluştur.people_df_subDataFrame'indeki ilk 10 gözlemi yazdır.people_df_subDataFrame'indeki yinelenen kayıtları kaldır vepeople_df_sub_nodupadlı DataFrame'i oluştur.- Yinelenenler kaldırılmadan önce ve sonra kaç satır var?
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)
# Print the first 10 observations from people_df_sub
people_df_sub.____(____)
# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()
# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))