Ri-campionare i dati NHANES
I dati NHANES sono raccolti su unità campionarie (persone) selezionate specificamente per rappresentare la popolazione degli Stati Uniti. Tuttavia, ricampioniamo l'insieme di dati nhanes_final in modi diversi per prendere confidenza con i vari metodi di campionamento.
Possiamo effettuare un campionamento casuale semplice usando slice_sample() di dplyr. Come input prende un insieme di dati e un intero che indica il numero di righe da campionare.
Il campionamento stratificato si può fare combinando group_by() e slice_sample(). La funzione estrarrà n da ciascuno dei gruppi specificati in group_by().
La funzione cluster() del pacchetto sampling crea campioni a grappolo. Richiede il nome di un insieme di dati, la variabile da usare come variabile di grappolo, passata come vettore con il nome come stringa (ad es. c("variable")), un numero di grappoli da selezionare e un metodo.
Questo esercizio fa parte del corso
Progettazione Sperimentale in R
Istruzioni dell'esercizio
- Usa
slice_sample()per selezionare 2500 osservazioni danhanes_finale salvale comenhanes_srs. - Crea
nhanes_stratifiedusandogroup_by()eslice_sample(). Stratificalo perriagendre seleziona 2000 osservazioni per ciascun genere. Verifica che abbia funzionato usandocount()per esaminare la variabile di genere dinhanes_stratified. - Carica il pacchetto
sampling. Usacluster()per suddividerenhanes_finalper"indhhin2"in 6 grappoli usando il metodo"srswor". Assegna anhanes_cluster.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Use slice_sample() to create nhanes_srs
nhanes_srs <- ___ %>% ___(n=___)
# Create nhanes_stratified with group_by() and slice_sample()
___ <- ___ %>% group_by(___) %>% ___(n=___)
nhanes_stratified %>% ___
# Load sampling package and create nhanes_cluster with cluster()
___
nhanes_cluster <- cluster(___, "___", 6, method = "srswor")