Yinelenenleri temizleme
Son egzersizde, ride_sharing içine gelen yeni güncellemenin bir hata içerdiğini ve ride_id sütununun bazı değerleri için hem tam hem de eksik yinelenen satırlar ürettiğini, ayrıca zaman zaman user_birth_year ve duration sütunlarında uyumsuz değerler bulunduğunu doğrulamıştın.
Bu egzersizde, önce tam kopyaları kaldırarak, ardından eksik yinelenen satırları birleştirip her bir eksik yinelenen seti için duration değerinin ortalamasını ve user_birth_year değerinin minimumunu koruyarak bu yinelenen satırları temizleyeceksin.
Bu egzersiz
Python ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
ride_sharingiçindeki tam kopyaları kaldır ve sonucuride_dupdeğişkeninde sakla.user_birth_yeariçin min (en küçük) vedurationiçin mean (ortalama) toplulaştırmalarını tutanstatisticssözlüğünü oluştur.ride_id'e göre gruplayıpstatisticsiçindeki toplulaştırmaları uygulayarak eksik yinelenenleri kaldır.- Yinelenenleri yeniden bul ve yinelenmelerin giderildiğini doğrulamak için
assertifadesini çalıştır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Drop complete duplicates from ride_sharing
ride_dup = ____.____()
# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': ____, 'duration': ____}
# Group by ride_id and compute new statistics
ride_unique = ride_dup.____('____').____(____).reset_index()
# Find duplicated values again
duplicates = ride_unique.____(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]
# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0