Pengodean data
Pengodean data kategorikal membuatnya berguna untuk algoritme Machine Learning. R mengodekan faktor secara internal, tetapi pengodean diperlukan saat Anda mengembangkan model Anda sendiri.
Pada latihan ini, Anda akan terlebih dahulu membangun model linear menggunakan lm(), lalu mengembangkan model Anda sendiri selangkah demi selangkah.
Dalam one hot encoding, dibuat kolom terpisah untuk setiap level.

Perhatikan bahwa salah satu kolom dapat diturunkan dari kolom lainnya (misalnya 0 pada kolom "B" dan "C" menyiratkan 1 pada kolom "A"). Jadi, Anda dapat menghapus kolom pertama untuk regresi linear. Kita akan meninjau model linear lebih rinci di bab berikutnya.
Untuk one hot encoding, Anda dapat menggunakan dummyVars() dari paket caret.
Untuk menggunakannya, pertama buat encoder lalu transformasikan himpunan data:
encoder <- dummyVars(~ category, data = df)
predict(encoder, newdata = df)
Kasus lengkap dari himpunan data survei pada paket MASS tersedia sebagai survey.
Paket caret telah dimuat sebelumnya.
Latihan ini adalah bagian dari kursus
Latihan Pertanyaan Wawancara Statistik di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Fit a linear model
lm(___ ~ Exer, data = ___)