Yinelenenleri bulma
ride_sharing veri hattına gelen yeni bir güncelleme, her yolculuk için benzersiz bir tanımlayıcıyı temsil eden ride_id sütununu ekledi.
Ancak bu güncelleme, ortalama yolculuk sürelerinin ciddi biçimde kısalmasıyla ve gelecekteki tarihlere ayarlanmış düzensiz kullanıcı doğum yıllarıyla aynı zamana denk geldi. En önemlisi, yapılan yolculuk sayısı bir gecede %20 arttı; bu da ride_sharing DataFrame'inde hem tam hem de eksik yinelenen kayıtlar olabileceğini düşündürüyor.
Bu egzersizde, bu şüpheyi yinelenenleri bularak doğrulayacaksın. ride_sharing örnek veri kümesi ve şimdiye kadar kullandığın tüm paketler çalışma ortamında hazır.
Bu egzersiz
Python ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
ride_sharingDataFrame'inderide_id'e göre yinelenen satırları bul vekeepargümanınıFalseolarak ayarla.ride_sharing'iduplicatesile alt kümele,ride_id'e göre sırala ve sonucuduplicated_ridesdeğişkenine ata.duplicated_ridesiçinderide_id,durationveuser_birth_yearsütunlarını bu sırayla yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])