BaşlayınÜcretsiz başlayın

Yinelenenleri bulma

ride_sharing veri hattına gelen yeni bir güncelleme, her yolculuk için benzersiz bir tanımlayıcıyı temsil eden ride_id sütununu ekledi.

Ancak bu güncelleme, ortalama yolculuk sürelerinin ciddi biçimde kısalmasıyla ve gelecekteki tarihlere ayarlanmış düzensiz kullanıcı doğum yıllarıyla aynı zamana denk geldi. En önemlisi, yapılan yolculuk sayısı bir gecede %20 arttı; bu da ride_sharing DataFrame'inde hem tam hem de eksik yinelenen kayıtlar olabileceğini düşündürüyor.

Bu egzersizde, bu şüpheyi yinelenenleri bularak doğrulayacaksın. ride_sharing örnek veri kümesi ve şimdiye kadar kullandığın tüm paketler çalışma ortamında hazır.

Bu egzersiz, kursun bir parçasıdır

Python ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

  • ride_sharing DataFrame'inde ride_id'e göre yinelenen satırları bul ve keep argümanını False olarak ayarla.
  • ride_sharing'i duplicates ile alt kümele, ride_id'e göre sırala ve sonucu duplicated_rides değişkenine ata.
  • duplicated_rides içinde ride_id, duration ve user_birth_year sütunlarını bu sırayla yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Kodu Düzenle ve Çalıştır