1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z caret w R

Connected

ćwiczenie

Wypróbuj podział 60/40

Jak widziałeś w filmie, w tym rozdziale będziesz pracować ze zbiorem danych Sonar, korzystając z 60% zbioru treningowego i 40% zbioru testowego. Przećwiczmy podział na zbiór treningowy i testowy jeszcze raz, żeby utrwalić ten sposób działania. Przypomnij sobie, że funkcji sample() możesz użyć do losowego przetasowania indeksów wierszy zbioru danych, a następnie zastosować je przy podziale, np.:

n_obs <- nrow(my_data)
permuted_rows <- sample(n_obs)

Następnie użyj tych indeksów, aby losowo zmienić kolejność wierszy zbioru danych, np.:

my_data <- my_data[permuted_rows, ]

Gdy zbiór danych ma już losową kolejność, możesz wyodrębnić pierwsze 60% jako zbiór treningowy, a ostatnie 40% jako zbiór testowy.

Instrukcje

100 XP
  • Pobierz liczbę obserwacji (wierszy) w zbiorze Sonar i przypisz ją do zmiennej n_obs.
  • Przetasuj indeksy wierszy zbioru Sonar i zapisz wynik w zmiennej permuted_rows.
  • Użyj permuted_rows, aby losowo zmienić kolejność wierszy zbioru Sonar i zapisz wynik jako Sonar_shuffled.
  • Wyznacz właściwy wiersz podziału dla proporcji 60/40. Zapisz numer tego wiersza jako split.
  • Zapisz pierwsze 60% zbioru Sonar_shuffled jako zbiór treningowy.
  • Zapisz ostatnie 40% zbioru Sonar_shuffled jako zbiór testowy.