Preparar tus datos para el análisis
Vas a trabajar con una versión del conjunto de datos nycflights13, cargado como flights. Contiene información sobre vuelos que salen de la ciudad de Nueva York. Te interesa predecir si llegarán tarde o no a su destino, pero antes necesitas preparar los datos para el análisis.
Tras debatir los objetivos del modelo con un equipo de especialistas, seleccionaste las siguientes variables para tu modelo: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.
También vas a aplicar mutate() a la fecha con as.Date() y convertir las variables de tipo character en factores.
Por último, dividirás los datos en conjuntos train y test.
Este ejercicio forma parte del curso
Ingeniería de características en R
Instrucciones del ejercicio
- Convierte todas las variables de tipo character en factores.
- Divide los datos de flights en conjuntos de test y train.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
flights <- flights %>%
select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%
# Tranform all character-type variables to factors
mutate(date = as.Date(date), ___(where(is.character), as.factor))
# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)
test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()