Yinelenenleri bulma
ride_sharing veri hattına gelen yeni bir güncelleme, her yolculuk için benzersiz bir tanımlayıcıyı temsil eden ride_id sütununu ekledi.
Ancak bu güncelleme, ortalama yolculuk sürelerinin ciddi biçimde kısalmasıyla ve gelecekteki tarihlere ayarlanmış düzensiz kullanıcı doğum yıllarıyla aynı zamana denk geldi. En önemlisi, yapılan yolculuk sayısı bir gecede %20 arttı; bu da ride_sharing DataFrame'inde hem tam hem de eksik yinelenen kayıtlar olabileceğini düşündürüyor.
Bu egzersizde, bu şüpheyi yinelenenleri bularak doğrulayacaksın. ride_sharing örnek veri kümesi ve şimdiye kadar kullandığın tüm paketler çalışma ortamında hazır.
Bu egzersiz, kursun bir parçasıdır
Python ile Veri Temizleme
Egzersiz talimatları
ride_sharingDataFrame'inderide_id'e göre yinelenen satırları bul vekeepargümanınıFalseolarak ayarla.ride_sharing'iduplicatesile alt kümele,ride_id'e göre sırala ve sonucuduplicated_ridesdeğişkenine ata.duplicated_ridesiçinderide_id,durationveuser_birth_yearsütunlarını bu sırayla yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])