Mengidentifikasi fitur untuk standardisasi
Dalam latihan ini, Anda akan meneliti varians kolom-kolom dalam himpunan data UFO untuk menentukan fitur mana yang perlu distandardisasi. Setelah meninjau varians kolom seconds dan minutes, Anda akan melihat bahwa varians kolom seconds sangat tinggi. Karena seconds dan minutes saling berkaitan (isu yang akan kita tangani saat memilih fitur untuk pemodelan), mari lakukan normalisasi log pada kolom seconds.
Latihan ini merupakan bagian dari kursus
Prapemrosesan untuk Machine Learning di Python
Instruksi latihan
- Hitung varians pada kolom
secondsdanminuteslalu cermati hasilnya. - Lakukan normalisasi log pada kolom
seconds, ubah menjadi kolom baru bernamaseconds_log. - Cetak varians dari kolom
seconds_log.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Check the variance of the seconds and minutes columns
print(____)
# Log normalize the seconds column
ufo["seconds_log"] = ____
# Print out the variance of just the seconds_log column
print(____)