Ponowne próbkowanie danych

Pierwszym krokiem w projekcie uczenia maszynowego jest stworzenie zbiorów treningowego i testowego – służą one do dopasowania i oceny modelu. Zbiór testowy daje oszacowanie tego, jak model poradzi sobie z nowymi danymi, i pomaga uniknąć nadmiernego dopasowania.

Będziesz pracować ze zbiorem danych telecom_df, który zawiera informacje o klientach firmy telekomunikacyjnej. Zmienna docelowa to canceled_service – rejestruje, czy dany klient rozwiązał umowę z firmą. Zmienne predykcyjne zawierają informacje o wykorzystaniu telefonu komórkowego i Internetu przez klientów, a także o typie umowy i miesięcznych opłatach.

Tibble telecom_df został wczytany do twojej sesji.

Utwórz obiekt rsample o nazwie telecom_split, który zawiera instrukcje losowego podziału danych telecom_df na zbiór treningowy i testowy.
- Przeznacz 75% danych na zbiór treningowy i zastosuj stratyfikację według zmiennej canceled_service.
Przekaż obiekt telecom_split do odpowiednich funkcji z pakietu rsample, aby utworzyć zbiory treningowy i testowy.
Sprawdź liczbę wierszy w każdym zbiorze, przekazując je do funkcji nrow().

övning

Ponowne próbkowanie danych

Instruktioner

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}övning

Instruktioner

övning