Crear conjuntos de entrenamiento y prueba
Dividir un conjunto de datos en conjuntos de entrenamiento y prueba es un paso importante para construir y evaluar un modelo de clasificación. El conjunto de entrenamiento se usa para construir el modelo y el conjunto de prueba para evaluar su precisión predictiva.
En este ejercicio, vas a dividir el conjunto de datos que creaste en el capítulo anterior en conjuntos de entrenamiento y prueba. El conjunto de datos se ha cargado en el data frame df y ya se ha fijado una semilla para garantizar la reproducibilidad. Recuerda que en el vídeo anterior establecimos el límite superior para la longitud del conjunto de entrenamiento con unas funciones muy prácticas: ¡ahora te toca implementarlas!
Este ejercicio forma parte del curso
Máquinas de Vectores de Soporte en R
Instrucciones del ejercicio
- Determina el límite superior para el número de filas que estarán en el conjunto de entrenamiento y guárdalo en
sample_size. - Crea el vector
trainque almacena la asignación aleatoria del conjunto de entrenamiento según la proporción 80/20. - Asigna las filas del vector
trainal data frametrainsety el resto al data frametestset.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))
# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)
# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]