BaşlayınÜcretsiz Başlayın

PySpark DataFrame alt kümeleme ve temizleme

Veriyi inceledikten sonra, genellikle veriyi temizlemek gerekir; bu da çoğunlukla alt kümeye ayırma, sütunları yeniden adlandırma, yinelenen satırları kaldırma vb. işlemleri içerir. PySpark DataFrame API bu işlemler için çeşitli operatörler sağlar. Bu egzersizde görevin, people_df DataFrame'inden 'name', 'sex' ve 'date of birth' sütunlarını alt küme olarak seçmek, bu veri kümesindeki yinelenen satırları kaldırmak ve yinelenenler kaldırılmadan önce ve sonra satır sayılarını hesaplamaktır.

Unutma, çalışma alanında bir SparkSession spark ve bir DataFrame people_df zaten mevcut.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • people_df içinden 'name', 'sex' ve 'date of birth' sütunlarını seç ve people_df_sub adlı bir DataFrame oluştur.
  • people_df_sub DataFrame'indeki ilk 10 gözlemi yazdır.
  • people_df_sub DataFrame'indeki yinelenen kayıtları kaldır ve people_df_sub_nodup adlı DataFrame'i oluştur.
  • Yinelenenler kaldırılmadan önce ve sonra kaç satır var?

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))
Kodu Düzenle ve Çalıştır