LoslegenKostenlos starten

Deine Daten für die Analyse vorbereiten

Du arbeitest mit einer Variante des Datensatzes nycflights13, geladen als flights. Er enthält Informationen zu Flügen, die aus New York City abfliegen. Du möchtest vorhersagen, ob sie verspätet am Ziel ankommen. Zunächst musst du die Daten für die Analyse vorbereiten.

Nach der Abstimmung der Modellziele mit einem Expertenteam hast du folgende Variablen für dein Modell ausgewählt: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.

Außerdem wirst du mit mutate() das Datum mit as.Date() umwandeln und Variablen vom Typ character in Faktoren konvertieren.

Zum Schluss teilst du die Daten in train- und test-Datensätze auf.

Diese Übung ist Teil des Kurses

<Kurs>Feature Engineering in R</Kurs>
Kurs ansehen

Übungsanweisungen

  • Wandle alle Variablen vom Typ character in Faktoren um.
  • Teile die flights-Daten in Test- und Train-Sets auf.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

flights <- flights %>%
  select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%

# Tranform all character-type variables to factors
  mutate(date = as.Date(date), ___(where(is.character), as.factor))

# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)

test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()
Code bearbeiten und ausführen