ComeçarComece de graça

Preparando seus dados para análise

Você vai analisar uma versão do conjunto de dados nycflights13, carregado como flights. Ele contém informações sobre voos saindo da cidade de Nova York. Seu interesse é prever se eles vão chegar atrasados ao destino, mas, antes, é preciso preparar os dados para a análise.

Depois de discutir os objetivos do modelo com um time de especialistas, você selecionou as seguintes variáveis para o seu modelo: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.

Você também vai usar mutate() com as.Date() para transformar a data e converter variáveis do tipo character em factors.

Por fim, você vai dividir os dados em conjuntos train e test.

Este exercício faz parte do curso

Feature Engineering em R

Ver curso

Instruções do exercício

  • Converta todas as variáveis do tipo character para factors.
  • Divida os dados de flights em conjuntos de teste e treino.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

flights <- flights %>%
  select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%

# Tranform all character-type variables to factors
  mutate(date = as.Date(date), ___(where(is.character), as.factor))

# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)

test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()
Editar e executar o código