Prueba una partición 60/40
Como viste en el vídeo, en este capítulo trabajarás con el conjunto de datos Sonar, usando un 60% para entrenamiento y un 40% para prueba. Vamos a practicar una vez más cómo crear una partición train/test para asegurarnos de que lo dominas. Recuerda que puedes usar la función sample() para obtener una permutación aleatoria de los índices de fila de un conjunto de datos y usarla al crear particiones train/test, por ejemplo:
n_obs <- nrow(my_data)
permuted_rows <- sample(n_obs)
Y después usar esos índices de fila para reordenar aleatoriamente el conjunto de datos, por ejemplo:
my_data <- my_data[permuted_rows, ]
Una vez que tu conjunto de datos esté en orden aleatorio, puedes separar el primer 60% como conjunto de entrenamiento y el último 40% como conjunto de prueba.
Este ejercicio forma parte del curso
Machine Learning con caret en R
Instrucciones del ejercicio
- Obtén el número de observaciones (filas) en
Sonary asígnalo an_obs. - Baraja los índices de fila de
Sonary guarda el resultado enpermuted_rows. - Usa
permuted_rowspara reordenar aleatoriamente las filas deSonary guarda el resultado comoSonar_shuffled. - Identifica la fila correcta para dividir con una partición 60/40. Guarda este número de fila como
split. - Guarda el primer 60% de
Sonar_shuffledcomo conjunto de entrenamiento. - Guarda el último 40% de
Sonar_shuffledcomo conjunto de prueba.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Get the number of observations
# Shuffle row indices: permuted_rows
# Randomly order data: Sonar
# Identify row to split on: split
split <- round(n_obs * ___)
# Create train
# Create test