Menelaah struktur masukan kategorikal
Pada latihan ini, Anda akan memanggil model.matrix() (docs) untuk
menelaah bagaimana R merepresentasikan data dengan masukan kategorikal dan numerik untuk pemodelan.
Himpunan data flowers (diturunkan dari paket Sleuth3) telah dimuat untuk Anda. Himpunan data ini memiliki kolom-kolom berikut:
Flowers: jumlah rata-rata bunga pada tanaman meadowfoamIntensity: intensitas perlakuan cahaya yang diberikan pada tanamanTime: variabel kategorikal — kapan (LateatauEarly) dalam siklus hidup perlakuan cahaya diberikan
Tujuan akhirnya adalah memprediksi Flowers sebagai fungsi dari Time dan Intensity.
Latihan ini adalah bagian dari kursus
Supervised Learning di R: Regresi
Petunjuk latihan
- Panggil fungsi
str()padaflowersuntuk melihat tipe dari setiap kolom. - Gunakan fungsi
unique()pada kolomflowers$Timeuntuk melihat nilai-nilai yang mungkin diambil olehTime. Ada berapa nilai unik? - Buat sebuah formula untuk menyatakan
Flowerssebagai fungsi dariIntensitydanTime. Tetapkan ke variabelfmladan cetak. - Gunakan
fmladanmodel.matrix()untuk membuat matriks model untuk data frameflowers. Tetapkan ke variabelmmat. - Gunakan
head()untuk menelaah 20 baris pertama dariflowers. - Sekarang telaah 20 baris pertama dari
mmat.- Apakah kolom numerik
Intensityberbeda? - Apa yang terjadi pada kolom kategorikal
Timedariflowers? - Bagaimana
Time == 'Early'direpresentasikan? DanTime == 'Late'?
- Apakah kolom numerik
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Call str on flowers to see the types of each column
___
# Use unique() to see how many possible values Time takes
___
# Build and print a formula to express Flowers as a function of Intensity and Time: fmla
(fmla <- ___("Flowers ~ Intensity + Time"))
# Use fmla and model.matrix to see how the data is represented for modeling
mmat <- ___
# Examine the first 20 lines of flowers
___
# Examine the first 20 lines of mmat
___