LoslegenKostenlos loslegen

Deine Daten für die Analyse vorbereiten

Du arbeitest mit einer Variante des Datensatzes nycflights13, geladen als flights. Er enthält Informationen zu Flügen, die aus New York City abfliegen. Du möchtest vorhersagen, ob sie verspätet am Ziel ankommen. Zunächst musst du die Daten für die Analyse vorbereiten.

Nach der Abstimmung der Modellziele mit einem Expertenteam hast du folgende Variablen für dein Modell ausgewählt: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.

Außerdem wirst du mit mutate() das Datum mit as.Date() umwandeln und Variablen vom Typ character in Faktoren konvertieren.

Zum Schluss teilst du die Daten in train- und test-Datensätze auf.

Diese Übung ist Teil des Kurses

Feature Engineering in R

Kurs anzeigen

Anleitung zur Übung

  • Wandle alle Variablen vom Typ character in Faktoren um.
  • Teile die flights-Daten in Test- und Train-Sets auf.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

flights <- flights %>%
  select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%

# Tranform all character-type variables to factors
  mutate(date = as.Date(date), ___(where(is.character), as.factor))

# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)

test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()
Code bearbeiten und ausführen