or
Bu egzersiz, kursun bir parçasıdır
Bu bölümde, en yaygın kirli veri sorunlarının üstesinden gelmeyi öğreneceksin. Veri türlerini dönüştürecek, gelecekteki veri noktalarını elemek için aralık kısıtları uygulayacak ve çift sayımı önlemek için yinelenen veri noktalarını kaldıracaksın.
Kategorik ve metin verileri, yapılandırılmamış yapıları nedeniyle bir veri kümesinin en dağınık kısımları olabilir. Bu bölümde, kategori etiketlerindeki boşluk ve büyük/küçük harf tutarsızlıklarını düzeltecek, birden fazla kategoriyi tek bir kategoride toplayacak ve tutarlılık için dizeleri yeniden biçimlendireceksin.
Bu bölümde, örneğin ağırlıkların pound yerine kilogram olarak yazıldığından emin olmak gibi daha ileri düzey veri temizleme sorunlarına dalacaksın. Ayrıca, değerlerin doğru eklendiğini doğrulamaya ve eksik değerlerin analizlerini olumsuz etkilememesine yardımcı olacak çok değerli beceriler kazanacaksın.
Record linkage, yazım hataları veya farklı yazımlar olduğunda birden çok veri kümesini birleştirmek için kullanılan güçlü bir tekniktir. Bu bölümde, dizeler arasındaki benzerliği hesaplayarak kayıtları nasıl bağlayacağını öğreneceksin—sonrasında yeni becerilerini kullanarak iki restoran yorumu veri kümesini tek ve temiz bir ana veri kümesinde birleştireceksin.
Geçerli egzersiz