BaşlayınÜcretsiz Başlayın

Tam kopyalar

Bisiklet paylaşım veri hattını daha verimli hale getirmek için bir güncelleme yapıldığı, ancak bunun sonucunda yinelenen kayıtların oluşma olasılığının arttığı bildirildi. Haftalık sürüş istatistikleri analizlerini aynı betiklerle çalıştırmaya devam edebilmek için, önce veri kümesindeki olası kopyaları temizlemen gerekiyor.

Bir veri çerçevesinde birden fazla satır tüm sütunlarda aynı değerlere sahipse, bunlar birbirinin tam kopyasıdır. Bu tür kopyaları kaldırmak önemlidir; çünkü aynı değerin birden fazla kez bulunması ortalama ve medyan gibi özet istatistikleri bozabilir. Her sürüş, ride_id dâhil, benzersiz olmalıdır.

dplyr yüklü ve bike_share_rides hazır.

Bu egzersiz

R ile Veri Temizleme

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • bike_share_rides içindeki tam kopyaların toplam sayısını bul.
  • bike_share_rides içindeki tüm tam kopyaları kaldır ve yeni veri çerçevesini bike_share_rides_unique olarak kaydet.
  • Yeni bike_share_rides_unique veri çerçevesindeki tam kopyaların toplam sayısını bul.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___
Kodu Düzenle ve Çalıştır