Tam kopyalar
Bisiklet paylaşım veri hattını daha verimli hale getirmek için bir güncelleme yapıldığı, ancak bunun sonucunda yinelenen kayıtların oluşma olasılığının arttığı bildirildi. Haftalık sürüş istatistikleri analizlerini aynı betiklerle çalıştırmaya devam edebilmek için, önce veri kümesindeki olası kopyaları temizlemen gerekiyor.
Bir veri çerçevesinde birden fazla satır tüm sütunlarda aynı değerlere sahipse, bunlar birbirinin tam kopyasıdır. Bu tür kopyaları kaldırmak önemlidir; çünkü aynı değerin birden fazla kez bulunması ortalama ve medyan gibi özet istatistikleri bozabilir. Her sürüş, ride_id dâhil, benzersiz olmalıdır.
dplyr yüklü ve bike_share_rides hazır.
Bu egzersiz
R ile Veri Temizleme
kursunun bir parçasıdırEgzersiz talimatları
bike_share_ridesiçindeki tam kopyaların toplam sayısını bul.bike_share_ridesiçindeki tüm tam kopyaları kaldır ve yeni veri çerçevesinibike_share_rides_uniqueolarak kaydet.- Yeni
bike_share_rides_uniqueveri çerçevesindeki tam kopyaların toplam sayısını bul.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Count the number of full duplicates
___
# Remove duplicates
bike_share_rides_unique <- ___
# Count the full duplicates in bike_share_rides_unique
___