ComenzarEmpieza gratis

Preparar tus datos para el análisis

Vas a trabajar con una versión del conjunto de datos nycflights13, cargado como flights. Contiene información sobre vuelos que salen de la ciudad de Nueva York. Te interesa predecir si llegarán tarde o no a su destino, pero antes necesitas preparar los datos para el análisis.

Tras debatir los objetivos del modelo con un equipo de especialistas, seleccionaste las siguientes variables para tu modelo: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.

También vas a aplicar mutate() a la fecha con as.Date() y convertir las variables de tipo character en factores.

Por último, dividirás los datos en conjuntos train y test.

Este ejercicio forma parte del curso

Ingeniería de características en R

Ver curso

Instrucciones del ejercicio

  • Convierte todas las variables de tipo character en factores.
  • Divide los datos de flights en conjuntos de test y train.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

flights <- flights %>%
  select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%

# Tranform all character-type variables to factors
  mutate(date = as.Date(date), ___(where(is.character), as.factor))

# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)

test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()
Editar y ejecutar código