1. Learn
  2. /
  3. Courses
  4. /
  5. Modelowanie ryzyka kredytowego w R

Connected

Exercise

Podział zbioru danych

Aby utworzyć zbiory treningowy i testowy, najpierw ustaw ziarno losowości za pomocą funkcji set.seed(). Ziarno wyznacza punkt startowy dla generatora liczb losowych, dzięki czemu każde uruchomienie kodu daje ten sam wynik. To przydatna praktyka – ty i inni możecie odtworzyć dokładnie te same zbiory, korzystając z tego samego ziarna.

Funkcja sample() pozwala losowo przydzielić obserwacje do zbioru treningowego i testowego.

W tym ćwiczeniu skorzystasz z dwóch pierwszych argumentów funkcji sample():

  • Pierwszy argument to wektor, z którego losujemy wartości. Będziemy losowo wybierać numery wierszy jako indeksy; użyj 1:nrow(loan_data), aby utworzyć wektor numerów wierszy.
  • Drugi argument to liczba elementów do wylosowania. Podaj 2 / 3 * nrow(loan_data), ponieważ zaczynamy od budowy zbioru treningowego.

Instructions

100 XP
  • Ustaw ziarno losowości równe 567 za pomocą funkcji set.seed().
  • Zapisz indeksy wierszy zbioru treningowego w obiekcie index_train. Użyj funkcji sample() z pierwszym i drugim argumentem zgodnie z powyższym opisem.
  • Utwórz zbiór treningowy, wybierając z loan_data wiersze o numerach zapisanych w index_train. Wynik zapisz w training_set.
  • Zbiór testowy zawiera wiersze, których nie ma w index_train. Skopiuj kod użyty do stworzenia zbioru treningowego, ale wstaw znak minus (-) bezpośrednio przed index_train wewnątrz nawiasów kwadratowych. Wynik zapisz w test_set.