or
Latihan ini merupakan bagian dari kursus
Di bab ini, Anda akan mempelajari cara mengatasi beberapa masalah data kotor yang paling umum. Anda akan mengonversi tipe data, menerapkan batasan rentang untuk menghapus titik data masa depan, dan menghapus duplikasi titik data untuk menghindari penghitungan ganda.
Data kategorikal dan teks sering kali menjadi bagian yang paling berantakan dalam suatu himpunan data karena sifatnya yang tidak terstruktur. Di bab ini, Anda akan belajar memperbaiki ketidakkonsistenan spasi kosong dan kapitalisasi pada label kategori, menggabungkan beberapa kategori menjadi satu, serta memformat ulang string agar konsisten.
Di bab ini, Anda akan membahas masalah pembersihan data yang lebih lanjut, seperti memastikan bahwa semua bobot ditulis dalam kilogram, bukan pon. Anda juga akan memperoleh keterampilan berharga untuk membantu memverifikasi bahwa nilai telah dijumlahkan dengan benar, serta memastikan nilai hilang tidak berdampak negatif pada analisis Anda.
Record linkage adalah teknik yang kuat untuk menggabungkan beberapa himpunan data, digunakan ketika nilai memiliki salah ketik atau ejaan berbeda. Di bab ini, Anda akan mempelajari cara menautkan record dengan menghitung kemiripan antarstring—kemudian Anda akan menggunakan keterampilan baru ini untuk menggabungkan dua himpunan data ulasan restoran menjadi satu himpunan data induk yang bersih.
Latihan Saat Ini