Deine Daten für die Analyse vorbereiten
Du arbeitest mit einer Variante des Datensatzes nycflights13, geladen als flights. Er enthält Informationen zu Flügen, die aus New York City abfliegen. Du möchtest vorhersagen, ob sie verspätet am Ziel ankommen. Zunächst musst du die Daten für die Analyse vorbereiten.
Nach der Abstimmung der Modellziele mit einem Expertenteam hast du folgende Variablen für dein Modell ausgewählt: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.
Außerdem wirst du mit mutate() das Datum mit as.Date() umwandeln und Variablen vom Typ character in Faktoren konvertieren.
Zum Schluss teilst du die Daten in train- und test-Datensätze auf.
Diese Übung ist Teil des Kurses
Feature Engineering in R
Anleitung zur Übung
- Wandle alle Variablen vom Typ character in Faktoren um.
- Teile die flights-Daten in Test- und Train-Sets auf.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
flights <- flights %>%
select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%
# Tranform all character-type variables to factors
mutate(date = as.Date(date), ___(where(is.character), as.factor))
# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)
test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()