Suddividere l'insieme di dati

Per creare i tuoi training e test set, imposta prima un seed usando set.seed(). I seed ti permettono di fissare un punto di partenza per i numeri generati casualmente, in modo che a ogni esecuzione del codice venga prodotto lo stesso risultato. Il vantaggio di usarli nel campionamento è che tu o chiunque altro può ricreare esattamente gli stessi training e test set utilizzando lo stesso seed.

Usando sample(), puoi assegnare casualmente le osservazioni al training set e al test set.

Per questo esercizio utilizzerai i primi due argomenti della funzione sample():

Il primo argomento è il vettore da cui campionare i valori. Selezioneremo casualmente i numeri di riga come indici; puoi usare 1:nrow(loan_data) per creare il vettore dei numeri di riga.
Il secondo argomento è il numero di elementi da scegliere. Inseriremo 2 / 3 * nrow(loan_data), poiché costruiamo prima il training set.

Questo esercizio fa parte del corso

Credit Risk Modeling in R

Visualizza corso

Istruzioni dell'esercizio

Imposta un seed pari a 567 usando la funzione set.seed().
Memorizza gli indici di riga del training set nell'oggetto index_train. Usa la funzione sample() con il primo e il secondo argomento come descritto sopra.
Crea il training set selezionando dall'insieme di dati loan_data le righe i cui numeri sono in index_train. Salva il risultato in training_set.
Il test set contiene le righe che non sono in index_train. Copia il codice che hai usato per creare il training set, ma usa il segno meno (-) subito prima di index_train tra le parentesi quadre. Salva il risultato in test_set.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Set seed of 567


# Store row numbers for training set: index_train


# Create training set: training_set
training_set <- loan_data[___, ]

# Create test set: test_set

Modifica ed esegui il codice