1. Nauka
  2. /
  3. Kursy
  4. /
  5. Projektowanie eksperymentów w R

Connected

ćwiczenie

Ponowne próbkowanie danych NHANES

Dane NHANES są zbierane na podstawie próby jednostek (osób) wybranych w taki sposób, aby reprezentowały populację Stanów Zjednoczonych. Teraz ponownie pobierzemy próbki ze zbioru nhanes_final na różne sposoby, żeby poznać różne metody próbkowania.

Prostą próbę losową możemy przeprowadzić za pomocą slice_sample() z pakietu dplyr. Funkcja przyjmuje jako argumenty zbiór danych oraz liczbę całkowitą określającą liczbę wierszy do wylosowania.

Próbkowanie warstwowe wykonuje się, łącząc group_by() z slice_sample(). Funkcja pobierze n obserwacji z każdej grupy wskazanej w group_by().

Funkcja cluster() z pakietu sampling tworzy próby skupiskowe. Przyjmuje nazwę zbioru danych, zmienną pełniącą rolę zmiennej skupiskowej (podaną jako wektor z nazwą w postaci ciągu znaków, np. c("variable")), liczbę skupisk do wybrania oraz metodę próbkowania.

Instrukcje

100 XP
  • Użyj slice_sample(), aby wybrać 2500 obserwacji z nhanes_final, i zapisz wynik jako nhanes_srs.
  • Utwórz nhanes_stratified, używając group_by() i slice_sample(). Podziel dane warstwowo według riagendr i wybierz 2000 obserwacji dla każdej płci. Sprawdź, czy operacja się powiodła, używając count() do zbadania zmiennej płci w nhanes_stratified.
  • Wczytaj pakiet sampling. Użyj cluster(), aby podzielić nhanes_final według "indhhin2" na 6 skupisk metodą "srswor". Wynik przypisz do nhanes_cluster.