BaşlayınÜcretsiz Başlayın

Yinelenenleri bulma

ride_sharing veri hattına gelen yeni bir güncelleme, her yolculuk için benzersiz bir tanımlayıcıyı temsil eden ride_id sütununu ekledi.

Ancak bu güncelleme, ortalama yolculuk sürelerinin ciddi biçimde kısalmasıyla ve gelecekteki tarihlere ayarlanmış düzensiz kullanıcı doğum yıllarıyla aynı zamana denk geldi. En önemlisi, yapılan yolculuk sayısı bir gecede %20 arttı; bu da ride_sharing DataFrame'inde hem tam hem de eksik yinelenen kayıtlar olabileceğini düşündürüyor.

Bu egzersizde, bu şüpheyi yinelenenleri bularak doğrulayacaksın. ride_sharing örnek veri kümesi ve şimdiye kadar kullandığın tüm paketler çalışma ortamında hazır.

Bu egzersiz

Python ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • ride_sharing DataFrame'inde ride_id'e göre yinelenen satırları bul ve keep argümanını False olarak ayarla.
  • ride_sharing'i duplicates ile alt kümele, ride_id'e göre sırala ve sonucu duplicated_rides değişkenine ata.
  • duplicated_rides içinde ride_id, duration ve user_birth_year sütunlarını bu sırayla yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Kodu Düzenle ve Çalıştır