or
Bu egzersiz, kursun bir parçasıdır
Bu bölümde, en yaygın kirli veri sorunlarını nasıl aşacağını öğreneceksin. Veri tiplerini dönüştürecek, geleceğe ait veri noktalarını elemek için aralık kısıtları uygulayacak ve çift sayımı önlemek için yinelenen veri noktalarını kaldıracaksın.
Yapısal olmadıkları için kategorik ve metin veriler, bir veri kümesinin en dağınık kısımları olabilir. Bu bölümde, kategori etiketlerindeki boşluk ve büyük/küçük harf tutarsızlıklarını düzeltecek, birden çok kategoriyi tek bir kategoride birleştirecek ve tutarlılık için dizgileri yeniden biçimlendireceksin.
Bu bölümde, ağırlıkların pound yerine kilogram cinsinden yazıldığından emin olmak gibi daha ileri düzey veri temizleme problemlerine dalacaksın. Ayrıca, değerlerin doğru şekilde toplanıp toplanmadığını doğrulamana ve eksik değerlerin analizlerini olumsuz etkilemesini önlemene yardımcı olacak çok değerli beceriler edineceksin.
Geçerli egzersiz
Kayıt eşleştirme, yazım hataları veya farklı yazımlar olduğunda birden fazla veri kümesini birleştirmek için kullanılan güçlü bir tekniktir. Bu bölümde, dizgiler arasındaki benzerliği hesaplayarak kayıtları nasıl eşleştireceğini öğreneceksin—ardından yeni becerilerini kullanarak iki restoran inceleme veri kümesini tek bir temiz ana veri kümesinde birleştireceksin.