Kodowanie danych

Kodowanie danych kategorycznych sprawia, że stają się one użyteczne dla algorytmów uczenia maszynowego. R koduje czynniki wewnętrznie, jednak kodowanie jest niezbędne, gdy tworzysz własne modele.

W tym ćwiczeniu najpierw zbudujesz model liniowy za pomocą lm(), a następnie krok po kroku opracujesz własny model.

W kodowaniu one-hot dla każdego z poziomów tworzona jest osobna kolumna.

Zwróć uwagę, że jedną z kolumn można wywnioskować na podstawie pozostałych (np. zera w kolumnach „B" i „C" oznaczają jedynkę w kolumnie „A"). Dlatego w regresji liniowej można pominąć pierwszą kolumnę. Modele liniowe omówimy szczegółowo w następnym rozdziale.

Do kodowania one-hot możesz użyć funkcji dummyVars() z pakietu caret.

Aby z niej skorzystać, najpierw utwórz enkoder, a następnie przekształć zbiór danych:

encoder <- dummyVars(~ category, data = df)
predict(encoder, newdata = df)

Kompletne przypadki ze zbioru danych survey z pakietu MASS są dostępne jako survey. Pakiet caret został wcześniej wczytany.

Dopasuj model liniowy przewidujący Pulse na podstawie Exer, korzystając z danych survey. Jakie są współczynniki tego modelu?

ćwiczenie

Kodowanie danych

Instrukcje 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/3

ćwiczenie