Preparando seus dados para análise
Você vai analisar uma versão do conjunto de dados nycflights13, carregado como flights. Ele contém informações sobre voos saindo da cidade de Nova York. Seu interesse é prever se eles vão chegar atrasados ao destino, mas, antes, é preciso preparar os dados para a análise.
Depois de discutir os objetivos do modelo com um time de especialistas, você selecionou as seguintes variáveis para o seu modelo: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.
Você também vai usar mutate() com as.Date() para transformar a data e converter variáveis do tipo character em factors.
Por fim, você vai dividir os dados em conjuntos train e test.
Este exercício faz parte do curso
Feature Engineering em R
Instruções do exercício
- Converta todas as variáveis do tipo character para factors.
- Divida os dados de flights em conjuntos de teste e treino.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
flights <- flights %>%
select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%
# Tranform all character-type variables to factors
mutate(date = as.Date(date), ___(where(is.character), as.factor))
# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)
test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()