Aan de slagGa gratis aan de slag

Je gegevens klaarmaken voor analyse

Je bekijkt een versie van de gegevensset nycflights13, geladen als flights. Deze bevat informatie over vluchten die vertrekken vanuit New York City. Je wilt voorspellen of ze al dan niet laat op hun bestemming aankomen, maar eerst moet je de data klaarmaken voor analyse.

Na overleg over onze modeldoelen met een team van experts heb je de volgende variabelen voor je model geselecteerd: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.

Je zult ook de datum mutate()-en met as.Date() en variabelen van het type character omzetten naar factors.

Tot slot splits je de data in train- en test-gegevenssets.

Deze oefening maakt deel uit van de cursus

Feature engineering in R

Cursus bekijken

Oefeninstructies

  • Zet alle variabelen van het type character om naar factors.
  • Splits de flights-data in test- en train-sets.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

flights <- flights %>%
  select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%

# Tranform all character-type variables to factors
  mutate(date = as.Date(date), ___(where(is.character), as.factor))

# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)

test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()
Code bewerken en uitvoeren