Zastosuj imputację medianą

W tym rozdziale będziesz pracować z wersją zbioru danych Wisconsin Breast Cancer. To klasyczny problem klasyfikacji binarnej: 50% próbek to zmiany łagodne, a 50% – złośliwe. Zadaniem jest odróżnienie jednych od drugich.

Ten zbiór danych jest ciekawy z jeszcze jednego powodu – wiele cech zawiera brakujące wartości, a większość wierszy ma co najmniej jedną taką lukę. Stanowi to wyzwanie dla modelowania, ponieważ większość algorytmów uczenia maszynowego nie obsługuje brakujących wartości domyślnie. Pierwszym pomysłem mogłoby być dopasowanie modelu regresji logistycznej, ale wcześniej trzeba ustalić strategię radzenia sobie z wartościami NA.

Na szczęście funkcja train() z pakietu caret przyjmuje argument preProcess, który pozwala określić, że do uzupełnienia brakujących wartości ma być użyta imputacja medianą. W poprzednich rozdziałach tworzyłeś modele za pomocą funkcji train() z użyciem formuł takich jak y ~ .. Alternatywnie możesz przekazać argumenty x i y bezpośrednio do train(), gdzie x to obiekt z próbkami w wierszach i cechami w kolumnach, a y to wektor numeryczny lub czynnikowy zawierający zmienną docelową. Inaczej mówiąc, x to macierz lub ramka danych zawierająca cały zbiór danych, który przekazałbyś jako argument data w wywołaniu lm() – bez kolumny ze zmienną odpowiedzi; y to wektor zawierający wyłącznie tę kolumnę.

Na potrzeby tego ćwiczenia argument x funkcji train() jest wczytany do przestrzeni roboczej jako breast_cancer_x, a y jako breast_cancer_y.

Użyj funkcji train(), aby dopasować model glm o nazwie median_model do zbioru danych dotyczącego raka piersi. Użyj preProcess = "medianImpute", aby obsłużyć brakujące wartości.
Wyświetl median_model w konsoli.

cvičení

Zastosuj imputację medianą

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení