CommencerCommencer gratuitement

Préparer vos données pour l’analyse

Vous allez examiner une version du jeu de données nycflights13, chargé sous le nom flights. Il contient des informations sur les vols au départ de New York. Vous souhaitez prédire s’ils arriveront en retard à destination, mais vous devez d’abord préparer les données pour l’analyse.

Après avoir discuté des objectifs du modèle avec une équipe d’experts, vous avez sélectionné les variables suivantes pour votre modèle : flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.

Vous allez également appliquer mutate() pour convertir la date avec as.Date() et transformer les variables de type character en facteurs.

Enfin, vous séparerez les données en jeux train et test.

Cet exercice fait partie du cours

Feature engineering en R

Afficher le cours

Instructions

  • Transformez toutes les variables de type character en facteurs.
  • Scindez les données flights en ensembles de test et d’entraînement.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

flights <- flights %>%
  select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%

# Tranform all character-type variables to factors
  mutate(date = as.Date(date), ___(where(is.character), as.factor))

# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)

test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()
Modifier et exécuter le code