Prepara i tuoi dati per l'analisi
Esaminerai una versione dell'insieme di dati nycflights13, caricato come flights. Contiene informazioni sui voli in partenza da New York City. Ti interessa prevedere se arriveranno in ritardo a destinazione oppure no, ma prima devi preparare i dati per l’analisi.
Dopo aver discusso gli obiettivi del modello con un team di esperti, hai selezionato le seguenti variabili per il tuo modello: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.
Userai anche mutate() sulla data con as.Date() e convertirai le variabili di tipo character in fattori.
Infine, suddividerai i dati in insiemi train e test.
Questo esercizio fa parte del corso
Feature Engineering in R
Istruzioni dell'esercizio
- Trasforma tutte le variabili di tipo character in fattori.
- Suddividi i dati di flights in set di test e train.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
flights <- flights %>%
select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%
# Tranform all character-type variables to factors
mutate(date = as.Date(date), ___(where(is.character), as.factor))
# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)
test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()