Ordena aleatoriamente el data frame

Una forma de crear una división train/test de un conjunto de datos es ordenarlo de manera aleatoria y luego dividirlo en dos subconjuntos. Así te aseguras de que tanto el conjunto de entrenamiento como el de prueba sean muestras aleatorias y de que no se arrastren posibles sesgos del orden original del conjunto de datos (por ejemplo, si estaba ordenado por precio o tamaño). Puedes pensar en esto como barajar una baraja de cartas nueva antes de repartir.

Primero, fija una semilla aleatoria para que tu trabajo sea reproducible y obtengas la misma partición aleatoria cada vez que ejecutes tu script:

set.seed(42)

Después, usa la función sample() para barajar los índices de fila del conjunto diamonds. Más tarde podrás usar estos índices para reordenar el conjunto de datos.

rows <- sample(nrow(diamonds))

Por último, puedes usar este vector aleatorio para reordenar el conjunto de datos diamonds:

diamonds <- diamonds[rows, ]

Este ejercicio forma parte del curso

Machine Learning con caret en R

Ver curso

Instrucciones del ejercicio

Fija la semilla aleatoria a 42.
Crea un vector de índices de fila llamado rows.
Reordena aleatoriamente el data frame diamonds y asígnalo a shuffled_diamonds.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Set seed


# Shuffle row indices: rows


# Randomly order data

Editar y ejecutar código