or
Latihan ini merupakan bagian dari kursus
Di bab ini, Anda akan mempelajari cara mengatasi beberapa masalah data kotor yang paling umum. Anda akan mengonversi tipe data, menerapkan batasan rentang untuk menghapus titik data di masa depan, dan menghapus titik data yang terduplikasi untuk menghindari penghitungan ganda.
Data kategorikal dan teks sering kali menjadi bagian paling berantakan dari sebuah himpunan data karena sifatnya yang tidak terstruktur. Di bab ini, Anda akan belajar memperbaiki ketidakkonsistenan spasi kosong dan kapitalisasi pada label kategori, menggabungkan beberapa kategori menjadi satu, serta memformat ulang string agar konsisten.
Di bab ini, Anda akan menyelami masalah pembersihan data yang lebih lanjut, misalnya memastikan bahwa semua bobot ditulis dalam kilogram alih-alih pon. Anda juga akan memperoleh keterampilan penting untuk membantu Anda memverifikasi bahwa nilai telah ditambahkan dengan benar dan bahwa nilai hilang tidak berdampak negatif pada analisis Anda.
Record linkage adalah teknik yang kuat untuk menggabungkan beberapa himpunan data, digunakan ketika nilai memiliki salah ketik atau ejaan berbeda. Di bab ini, Anda akan belajar menautkan rekaman dengan menghitung kesamaan antar-string—lalu menggunakan keterampilan baru Anda untuk menggabungkan dua himpunan data ulasan restoran menjadi satu himpunan data induk yang bersih.
Latihan Saat Ini