1. Learn
  2. /
  3. Kurser
  4. /
  5. Modelowanie z tidymodels w R

Connected

övning

Ponowne próbkowanie danych

Pierwszym krokiem w projekcie uczenia maszynowego jest stworzenie zbiorów treningowego i testowego – służą one do dopasowania i oceny modelu. Zbiór testowy daje oszacowanie tego, jak model poradzi sobie z nowymi danymi, i pomaga uniknąć nadmiernego dopasowania.

Będziesz pracować ze zbiorem danych telecom_df, który zawiera informacje o klientach firmy telekomunikacyjnej. Zmienna docelowa to canceled_service – rejestruje, czy dany klient rozwiązał umowę z firmą. Zmienne predykcyjne zawierają informacje o wykorzystaniu telefonu komórkowego i Internetu przez klientów, a także o typie umowy i miesięcznych opłatach.

Tibble telecom_df został wczytany do twojej sesji.

Instruktioner

100 XP
  • Utwórz obiekt rsample o nazwie telecom_split, który zawiera instrukcje losowego podziału danych telecom_df na zbiór treningowy i testowy.
    • Przeznacz 75% danych na zbiór treningowy i zastosuj stratyfikację według zmiennej canceled_service.
  • Przekaż obiekt telecom_split do odpowiednich funkcji z pakietu rsample, aby utworzyć zbiory treningowy i testowy.
  • Sprawdź liczbę wierszy w każdym zbiorze, przekazując je do funkcji nrow().