1. Nauka
  2. /
  3. Kursy
  4. /
  5. Ćwiczenie statystycznych pytań rekrutacyjnych w R

Connected

ćwiczenie

Kodowanie danych

Kodowanie danych kategorycznych sprawia, że stają się one użyteczne dla algorytmów uczenia maszynowego. R koduje czynniki wewnętrznie, jednak kodowanie jest niezbędne, gdy tworzysz własne modele.

W tym ćwiczeniu najpierw zbudujesz model liniowy za pomocą lm(), a następnie krok po kroku opracujesz własny model.

W kodowaniu one-hot dla każdego z poziomów tworzona jest osobna kolumna.

Zwróć uwagę, że jedną z kolumn można wywnioskować na podstawie pozostałych (np. zera w kolumnach „B" i „C" oznaczają jedynkę w kolumnie „A"). Dlatego w regresji liniowej można pominąć pierwszą kolumnę. Modele liniowe omówimy szczegółowo w następnym rozdziale.

Do kodowania one-hot możesz użyć funkcji dummyVars() z pakietu caret.

Aby z niej skorzystać, najpierw utwórz enkoder, a następnie przekształć zbiór danych:

encoder <- dummyVars(~ category, data = df)
predict(encoder, newdata = df)

Kompletne przypadki ze zbioru danych survey z pakietu MASS są dostępne jako survey. Pakiet caret został wcześniej wczytany.

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Dopasuj model liniowy przewidujący Pulse na podstawie Exer, korzystając z danych survey. Jakie są współczynniki tego modelu?