Prueba una partición 80/20
Ahora que tu conjunto de datos está ordenado de forma aleatoria, puedes dividir el primer 80% en un conjunto de entrenamiento y el 20% restante en un conjunto de prueba. Puedes hacerlo eligiendo un punto de corte aproximadamente al 80% de tu data:
split <- round(nrow(mydata) * 0.80)
Luego puedes usar este punto para separar el primer 80% del conjunto de datos como conjunto de entrenamiento:
mydata[1:split, ]
Y después puedes usar ese mismo punto para determinar el conjunto de prueba:
mydata[(split + 1):nrow(mydata), ]
Este ejercicio forma parte del curso
Machine Learning con caret en R
Instrucciones del ejercicio
- Elige un índice de fila para dividir de modo que el punto de corte esté aproximadamente al 80% del conjunto de datos
diamonds. Llama a este índicesplit. - Crea un conjunto de entrenamiento llamado
trainusando ese índice. - Crea un conjunto de prueba llamado
testusando ese índice.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Determine row to split on: split
# Create train
# Create test