Ordena aleatoriamente el data frame
Una forma de crear una división train/test de un conjunto de datos es ordenarlo de manera aleatoria y luego dividirlo en dos subconjuntos. Así te aseguras de que tanto el conjunto de entrenamiento como el de prueba sean muestras aleatorias y de que no se arrastren posibles sesgos del orden original del conjunto de datos (por ejemplo, si estaba ordenado por precio o tamaño). Puedes pensar en esto como barajar una baraja de cartas nueva antes de repartir.
Primero, fija una semilla aleatoria para que tu trabajo sea reproducible y obtengas la misma partición aleatoria cada vez que ejecutes tu script:
set.seed(42)
Después, usa la función sample() para barajar los índices de fila del conjunto diamonds. Más tarde podrás usar estos índices para reordenar el conjunto de datos.
rows <- sample(nrow(diamonds))
Por último, puedes usar este vector aleatorio para reordenar el conjunto de datos diamonds:
diamonds <- diamonds[rows, ]
Este ejercicio forma parte del curso
Machine Learning con caret en R
Instrucciones del ejercicio
- Fija la semilla aleatoria a 42.
- Crea un vector de índices de fila llamado
rows. - Reordena aleatoriamente el data frame
diamondsy asígnalo ashuffled_diamonds.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Set seed
# Shuffle row indices: rows
# Randomly order data