Ponowne próbkowanie danych NHANES

Dane NHANES są zbierane na podstawie próby jednostek (osób) wybranych w taki sposób, aby reprezentowały populację Stanów Zjednoczonych. Teraz ponownie pobierzemy próbki ze zbioru nhanes_final na różne sposoby, żeby poznać różne metody próbkowania.

Prostą próbę losową możemy przeprowadzić za pomocą slice_sample() z pakietu dplyr. Funkcja przyjmuje jako argumenty zbiór danych oraz liczbę całkowitą określającą liczbę wierszy do wylosowania.

Próbkowanie warstwowe wykonuje się, łącząc group_by() z slice_sample(). Funkcja pobierze n obserwacji z każdej grupy wskazanej w group_by().

Funkcja cluster() z pakietu sampling tworzy próby skupiskowe. Przyjmuje nazwę zbioru danych, zmienną pełniącą rolę zmiennej skupiskowej (podaną jako wektor z nazwą w postaci ciągu znaków, np. c("variable")), liczbę skupisk do wybrania oraz metodę próbkowania.

Użyj slice_sample(), aby wybrać 2500 obserwacji z nhanes_final, i zapisz wynik jako nhanes_srs.
Utwórz nhanes_stratified, używając group_by() i slice_sample(). Podziel dane warstwowo według riagendr i wybierz 2000 obserwacji dla każdej płci. Sprawdź, czy operacja się powiodła, używając count() do zbadania zmiennej płci w nhanes_stratified.
Wczytaj pakiet sampling. Użyj cluster(), aby podzielić nhanes_final według "indhhin2" na 6 skupisk metodą "srswor". Wynik przypisz do nhanes_cluster.

ćwiczenie

Ponowne próbkowanie danych NHANES

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie