Divide en entrenamiento y prueba
Ahora que tenemos un dataframe, podemos aplicar técnicas estándar de modelado. En este ejercicio, vas a dividir los datos en conjuntos de entrenamiento y prueba.
Este ejercicio forma parte del curso
Analítica predictiva con datos conectados en R
Instrucciones del ejercicio
- Para asegurar la reproducibilidad de tus resultados, fija una semilla en 7 con
set.seed(). - Usa la función
sample()para muestrear dos tercios de los números de la secuencia que abarca el número total de filas destudentnetworkdata. Llama a este vectorindex_train. - Crea el conjunto de entrenamiento incluyendo las filas de
studentnetworkdataque están enindex_trainy llámalotraining_set. - Crea el conjunto de prueba excluyendo las filas de
studentnetworkdataque están enindex_trainy llámalotest_set.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Set the seed
set.seed(___)
# Creat the index vector
index_train <- sample(1:nrow(___), 2 / 3 * nrow(___))
# Make the training set
training_set <- ___[index_train,]
# Make the test set
___ <- ___[-index_train,]