Losowe przestawienie kolejności ramki danych

Jednym ze sposobów podziału zbioru danych na część treningową i testową jest losowe przestawienie kolejności wierszy, a następnie podzielenie zbioru na dwie części. Dzięki temu zarówno zbiór treningowy, jak i testowy stanowią losowe próbki, a żadne uprzedzenia wynikające z oryginalnej kolejności danych (np. posortowania według ceny lub rozmiaru) nie wpłyną na wyniki trenowania ani testowania modeli. Można to porównać do tasowania nowej talii kart przed rozdaniem.

Na początku ustaw ziarno generatora liczb losowych, aby wyniki były powtarzalne i za każdym razem otrzymywać ten sam podział:

set.seed(42)

Następnie użyj funkcji sample(), aby przetasować indeksy wierszy zbioru danych diamonds. Później wykorzystasz te indeksy do zmiany kolejności zbioru.

rows <- sample(nrow(diamonds))

Na koniec użyj tego losowego wektora, aby zmienić kolejność wierszy w zbiorze diamonds:

diamonds <- diamonds[rows, ]

Ustaw ziarno generatora liczb losowych na 42.
Utwórz wektor indeksów wierszy o nazwie rows.
Losowo zmień kolejność wierszy w ramce danych diamonds, przypisując wynik do zmiennej shuffled_diamonds.

ćwiczenie

Losowe przestawienie kolejności ramki danych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie