Campionamento casuale semplice
Il metodo più semplice per campionare una popolazione è quello che hai già visto. Si chiama campionamento casuale semplice (a volte abbreviato in "SRS") e consiste nello scegliere le righe a caso, una alla volta, dove ogni riga ha la stessa probabilità di essere selezionata di qualunque altra.
Per rendere più facile vedere quali righe finiscono nel campione, è utile aggiungere una colonna con l'ID di riga al dataset prima di estrarre il campione.
In questo capitolo, esamineremo i metodi di campionamento usando un insieme di dati sintetico (fittizio) sull'attrition dei dipendenti di IBM, dove "attrition" significa lasciare l'azienda.
attrition_pop è disponibile; dplyr è caricato.
Questo esercizio fa parte del corso
Campionamento in R
Istruzioni dell'esercizio
- Visualizza il dataset
attrition_pop. Esploralo nel viewer finché non ti è chiaro cosa contiene. - Imposta il seme casuale a un valore a tua scelta.
- Aggiungi una colonna ID di riga al dataset, poi usa il campionamento casuale semplice per ottenere 200 righe.
- Visualizza il dataset campione,
attrition_samp. Che cosa noti sugli ID di riga?
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# View the attrition_pop dataset
___
# Set the seed
___
attrition_samp <- attrition_pop %>%
# Add a row ID column
___ %>%
# Get 200 rows using simple random sampling
___
# View the attrition_samp dataset
___