Préparer vos données pour l’analyse
Vous allez examiner une version du jeu de données nycflights13, chargé sous le nom flights. Il contient des informations sur les vols au départ de New York. Vous souhaitez prédire s’ils arriveront en retard à destination, mais vous devez d’abord préparer les données pour l’analyse.
Après avoir discuté des objectifs du modèle avec une équipe d’experts, vous avez sélectionné les variables suivantes pour votre modèle : flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.
Vous allez également appliquer mutate() pour convertir la date avec as.Date() et transformer les variables de type character en facteurs.
Enfin, vous séparerez les données en jeux train et test.
Cet exercice fait partie du cours
Feature engineering en R
Instructions
- Transformez toutes les variables de type character en facteurs.
- Scindez les données flights en ensembles de test et d’entraînement.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
flights <- flights %>%
select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%
# Tranform all character-type variables to factors
mutate(date = as.Date(date), ___(where(is.character), as.factor))
# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)
test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()