Pemodelan dengan variabel kategorikal
Pada latihan sebelumnya Anda telah memasangkan model regresi logistik dengan color sebagai variabel penjelas bersama width, di mana Anda memperlakukan color sebagai variabel kuantitatif. Pada latihan ini, Anda akan memperlakukan color sebagai variabel kategorikal yang, saat Anda membangun matriks model, akan mengenkode color menjadi 3 variabel dengan pengkodean 0/1.
Ingat bahwa pengkodean bawaan pada dmatrix() menggunakan kelompok pertama sebagai kelompok referensi. Untuk menampilkan matriks model sebagai dataframe, argumen tambahan pada dmatrix(), yaitu return_type, akan diatur ke 'dataframe'.
Variabel color memiliki urutan alami sebagai berikut:
1: medium light
2: medium
3: medium dark
4: dark
Himpunan data crab telah dimuat sebelumnya di workspace.
Latihan ini adalah bagian dari kursus
Generalized Linear Models di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Construct model matrix
model_matrix = ____('C(____, ____(____))' , data = ____,
return_type = 'dataframe')
# Print first 5 rows of model matrix dataframe
print(____.____)
# Fit and print the results of a glm model with the above model matrix configuration
model = ____('____ ~ ____(____, ____(____))', data = ____,
family = ____).____
print(____.____)