Reamostrando os dados do NHANES
Os dados do NHANES são coletados em unidades amostrais (pessoas) selecionadas especificamente para representar a população dos EUA. Mas vamos reamostrar o conjunto nhanes_final de diferentes maneiras para sentir na prática os diferentes métodos de amostragem.
Podemos fazer uma amostra aleatória simples usando slice_sample() do dplyr. A função recebe como entrada um conjunto de dados e um inteiro com o número de linhas a serem amostradas.
A amostragem estratificada pode ser feita combinando group_by() e slice_sample(). A função irá amostrar n de cada um dos grupos especificados no group_by().
A função cluster() do pacote sampling cria amostras em conglomerados. Ela recebe um conjunto de dados, a variável do conjunto que será usada como variável de conglomerado, passada como um vetor com o nome como string (por exemplo, c("variable")), um número de conglomerados a selecionar e um método.
Este exercício faz parte do curso
Planejamento de Experimentos em R
Instruções do exercício
- Use
slice_sample()para selecionar 2500 observações denhanes_finale salve comonhanes_srs. - Crie
nhanes_stratifiedusandogroup_by()eslice_sample(). Estratifique porriagendre selecione 2000 de cada gênero. Confirme que funcionou usandocount()para examinar a variável de gênero denhanes_stratified. - Carregue o pacote
sampling. Usecluster()para dividirnhanes_finalpor"indhhin2"em 6 conglomerados usando o método"srswor". Atribua anhanes_cluster.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Use slice_sample() to create nhanes_srs
nhanes_srs <- ___ %>% ___(n=___)
# Create nhanes_stratified with group_by() and slice_sample()
___ <- ___ %>% group_by(___) %>% ___(n=___)
nhanes_stratified %>% ___
# Load sampling package and create nhanes_cluster with cluster()
___
nhanes_cluster <- cluster(___, "___", 6, method = "srswor")