Amostragem aleatória simples
O método mais simples de amostrar uma população é aquele que você já viu. Ele é conhecido como amostragem aleatória simples (às vezes abreviado como "SRS") e envolve selecionar linhas aleatoriamente, uma de cada vez, em que cada linha tem a mesma chance de ser escolhida que qualquer outra.
Para facilitar a visualização de quais linhas entram na amostra, é útil incluir uma coluna de ID de linha no conjunto de dados antes de criar a amostra.
Neste capítulo, vamos analisar métodos de amostragem usando um conjunto de dados sintético (fictício) de evasão de funcionários da IBM, em que "attrition" significa deixar a empresa.
attrition_pop está disponível; dplyr está carregado.
Este exercício faz parte do curso
Amostragem em R
Instruções do exercício
- Visualize o conjunto de dados
attrition_pop. Explore-o no visualizador até entender bem o que ele contém. - Defina a semente aleatória com um valor à sua escolha.
- Adicione uma coluna de ID de linha ao conjunto de dados e, em seguida, use amostragem aleatória simples para obter 200 linhas.
- Visualize o conjunto de dados de amostra,
attrition_samp. O que você percebe sobre os IDs de linha?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# View the attrition_pop dataset
___
# Set the seed
___
attrition_samp <- attrition_pop %>%
# Add a row ID column
___ %>%
# Get 200 rows using simple random sampling
___
# View the attrition_samp dataset
___