Veri kodlama
Kategorik verilerin kodlanması, onları Machine Learning algoritmaları için kullanışlı hale getirir. R, faktörleri dahili olarak kodlar, ancak kendi modellerini geliştirirken kodlama yapmak gerekir.
Bu egzersizde önce lm() kullanarak bir doğrusal model kuracak, ardından adım adım kendi modelini geliştireceksin.
One hot encoding'de, her seviye için ayrı bir sütun oluşturulur.

Sütunlardan birinin diğerlerine göre türetilebileceğini unutma (örneğin, "B" ve "C" sütunlarındaki 0'lar "A" sütununda 1 anlamına gelir). Bu yüzden doğrusal regresyon için ilk sütunu düşürebilirsin. Doğrusal modelleri bir sonraki bölümde daha ayrıntılı inceleyeceğiz.
One hot encoding için caret paketindeki dummyVars() fonksiyonunu kullanabilirsin.
Kullanmak için önce kodlayıcıyı oluştur, sonra veri kümesini dönüştür:
encoder <- dummyVars(~ category, data = df)
predict(encoder, newdata = df)
MASS paketindeki anket veri kümesinin eksiksiz gözlemleri survey olarak kullanılabilir.
caret paketi önceden yüklendi.
Bu egzersiz
R ile İstatistik Mülakat Soruları Pratiği
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Fit a linear model
lm(___ ~ Exer, data = ___)