Python ile sütun içeriğini filtreleme
DataFrame sütunları üzerinde çeşitli işlemler kullanmayı gördün — şimdi gerçek bir veri kümesini düzenleyebilirsin. voter_df DataFrame’i, son birkaç yılda Dallas Şehir Konseyi’ndeki oylamalara ilişkin seçmen bilgilerini içeriyor. Bu kısaltılmış DataFrame’de oy verme tarihi ile seçmenin adı ve pozisyonu yer alıyor. Yöneticin bu veriyi daha sonra bazı raporlara entegre edilebilmesi için temizlemeni istedi. İlk görev, null girişleri veya garip karakterleri kaldırmak ve bilgilerini doğrulayabileceğin belirli bir seçmen grubunu döndürmek.
Bu, veri temizlemenin ilk adımlarından biridir — biçimin bariz şekilde dışında olanları kaldırmak. Bu veri kümesi için, orijinal veriye bakıp VOTER_NAME sütununda göze aykırı duran neler var kontrol ettiğinden emin ol.
pyspark.sql.functions kütüphanesi zaten F takma adıyla içe aktarıldı.
Bu egzersiz
PySpark ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
- Benzersiz
VOTER_NAMEgirişlerini göster. VOTER_NAMEuzunluğu 1–20 karakter olanvoter_dfsatırlarını filtrele.VOTER_NAMEiçinde_bulunanvoter_dfsatırlarını filtreleyip çıkar.- Benzersiz
VOTER_NAMEgirişlerini tekrar göster.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Show the distinct VOTER_NAME entries
voter_df.select(____).distinct().show(40, truncate=False)
# Filter voter_df where the VOTER_NAME is 1-20 characters in length
voter_df = ____('length(VOTER_NAME) > 0 and length(VOTER_NAME) < 20')
# Filter out voter_df where the VOTER_NAME contains an underscore
voter_df = voter_df.filter(~ F.col('VOTER_NAME').____)
# Show the distinct VOTER_NAME entries again
voter_df.____(____).____().____(40, truncate=False)