PySpark DataFrame alt kümeleme ve temizleme

Veriyi inceledikten sonra, genellikle veriyi temizlemek gerekir; bu da çoğunlukla alt kümeye ayırma, sütunları yeniden adlandırma, yinelenen satırları kaldırma vb. işlemleri içerir. PySpark DataFrame API bu işlemler için çeşitli operatörler sağlar. Bu egzersizde görevin, people_df DataFrame'inden 'name', 'sex' ve 'date of birth' sütunlarını alt küme olarak seçmek, bu veri kümesindeki yinelenen satırları kaldırmak ve yinelenenler kaldırılmadan önce ve sonra satır sayılarını hesaplamaktır.

Unutma, çalışma alanında bir SparkSession spark ve bir DataFrame people_df zaten mevcut.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Big Data Temelleri

Kursa Göz Atın

Egzersiz talimatları

people_df içinden 'name', 'sex' ve 'date of birth' sütunlarını seç ve people_df_sub adlı bir DataFrame oluştur.
people_df_sub DataFrame'indeki ilk 10 gözlemi yazdır.
people_df_sub DataFrame'indeki yinelenen kayıtları kaldır ve people_df_sub_nodup adlı DataFrame'i oluştur.
Yinelenenler kaldırılmadan önce ve sonra kaç satır var?

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))

Kodu Düzenle ve Çalıştır