ComenzarEmpieza gratis

Ordena aleatoriamente el data frame

Una forma de crear una división train/test de un conjunto de datos es ordenarlo de manera aleatoria y luego dividirlo en dos subconjuntos. Así te aseguras de que tanto el conjunto de entrenamiento como el de prueba sean muestras aleatorias y de que no se arrastren posibles sesgos del orden original del conjunto de datos (por ejemplo, si estaba ordenado por precio o tamaño). Puedes pensar en esto como barajar una baraja de cartas nueva antes de repartir.

Primero, fija una semilla aleatoria para que tu trabajo sea reproducible y obtengas la misma partición aleatoria cada vez que ejecutes tu script:

set.seed(42)

Después, usa la función sample() para barajar los índices de fila del conjunto diamonds. Más tarde podrás usar estos índices para reordenar el conjunto de datos.

rows <- sample(nrow(diamonds))

Por último, puedes usar este vector aleatorio para reordenar el conjunto de datos diamonds:

diamonds <- diamonds[rows, ]

Este ejercicio forma parte del curso

Machine Learning con caret en R

Ver curso

Instrucciones del ejercicio

  • Fija la semilla aleatoria a 42.
  • Crea un vector de índices de fila llamado rows.
  • Reordena aleatoriamente el data frame diamonds y asígnalo a shuffled_diamonds.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Set seed


# Shuffle row indices: rows


# Randomly order data
Editar y ejecutar código