Suddividere l'insieme di dati
Per creare i tuoi training e test set, imposta prima un seed usando set.seed(). I seed ti permettono di fissare un punto di partenza per i numeri generati casualmente, in modo che a ogni esecuzione del codice venga prodotto lo stesso risultato. Il vantaggio di usarli nel campionamento è che tu o chiunque altro può ricreare esattamente gli stessi training e test set utilizzando lo stesso seed.
Usando sample(), puoi assegnare casualmente le osservazioni al training set e al test set.
Per questo esercizio utilizzerai i primi due argomenti della funzione sample():
- Il primo argomento è il vettore da cui campionare i valori. Selezioneremo casualmente i numeri di riga come indici; puoi usare
1:nrow(loan_data)per creare il vettore dei numeri di riga. - Il secondo argomento è il numero di elementi da scegliere. Inseriremo
2 / 3 * nrow(loan_data), poiché costruiamo prima il training set.
Questo esercizio fa parte del corso
Credit Risk Modeling in R
Istruzioni dell'esercizio
- Imposta un seed pari a 567 usando la funzione
set.seed(). - Memorizza gli indici di riga del training set nell'oggetto
index_train. Usa la funzionesample()con il primo e il secondo argomento come descritto sopra. - Crea il training set selezionando dall'insieme di dati
loan_datale righe i cui numeri sono inindex_train. Salva il risultato intraining_set. - Il test set contiene le righe che non sono in
index_train. Copia il codice che hai usato per creare il training set, ma usa il segno meno (-) subito prima diindex_traintra le parentesi quadre. Salva il risultato intest_set.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Set seed of 567
# Store row numbers for training set: index_train
# Create training set: training_set
training_set <- loan_data[___, ]
# Create test set: test_set