Mengidentifikasi fitur untuk standardisasi
Dalam latihan ini, Anda akan meneliti varians kolom-kolom dalam himpunan data UFO untuk menentukan fitur mana yang perlu distandardisasi. Setelah meninjau varians kolom seconds dan minutes, Anda akan melihat bahwa varians kolom seconds sangat tinggi. Karena seconds dan minutes saling berkaitan (isu yang akan kita tangani saat memilih fitur untuk pemodelan), mari lakukan normalisasi log pada kolom seconds.
Latihan ini adalah bagian dari kursus
Prapemrosesan untuk Machine Learning di Python
Petunjuk latihan
- Hitung varians pada kolom
secondsdanminuteslalu cermati hasilnya. - Lakukan normalisasi log pada kolom
seconds, ubah menjadi kolom baru bernamaseconds_log. - Cetak varians dari kolom
seconds_log.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Check the variance of the seconds and minutes columns
print(____)
# Log normalize the seconds column
ufo["seconds_log"] = ____
# Print out the variance of just the seconds_log column
print(____)