BaşlayınÜcretsiz Başlayın

Yinelenenleri temizleme

Son egzersizde, ride_sharing içine gelen yeni güncellemenin bir hata içerdiğini ve ride_id sütununun bazı değerleri için hem tam hem de eksik yinelenen satırlar ürettiğini, ayrıca zaman zaman user_birth_year ve duration sütunlarında uyumsuz değerler bulunduğunu doğrulamıştın.

Bu egzersizde, önce tam kopyaları kaldırarak, ardından eksik yinelenen satırları birleştirip her bir eksik yinelenen seti için duration değerinin ortalamasını ve user_birth_year değerinin minimumunu koruyarak bu yinelenen satırları temizleyeceksin.

Bu egzersiz

Python ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • ride_sharing içindeki tam kopyaları kaldır ve sonucu ride_dup değişkeninde sakla.
  • user_birth_year için min (en küçük) ve duration için mean (ortalama) toplulaştırmalarını tutan statistics sözlüğünü oluştur.
  • ride_id'e göre gruplayıp statistics içindeki toplulaştırmaları uygulayarak eksik yinelenenleri kaldır.
  • Yinelenenleri yeniden bul ve yinelenmelerin giderildiğini doğrulamak için assert ifadesini çalıştır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Drop complete duplicates from ride_sharing
ride_dup = ____.____()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': ____, 'duration': ____}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.____('____').____(____).reset_index()

# Find duplicated values again
duplicates = ride_unique.____(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
Kodu Düzenle ve Çalıştır