Analiz için verini hazırlama
nycflights13 veri kümesinin flights olarak yüklenmiş bir sürümüne bakacaksın. Bu veri kümesi, New York City'den kalkan uçuşlarla ilgili bilgileri içerir. Varış noktasına geç ulaşıp ulaşmayacaklarını tahmin etmek istiyorsun; ancak önce veriyi analiz için hazırlaman gerekiyor.
Uzman bir ekiple model hedeflerini görüştükten sonra modelin için şu değişkenleri seçtin: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.
Ayrıca, mutate() içinde as.Date() kullanarak tarihi dönüştürecek ve karakter tipindeki değişkenleri factor'a çevireceksin.
Son olarak, veriyi train ve test veri kümelerine böleceksin.
Bu egzersiz
R'da Feature Engineering
kursunun bir parçasıdırEgzersiz talimatları
- Karakter tipindeki tüm değişkenleri factor'a dönüştür.
- Flights verisini test ve train kümelerine ayır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
flights <- flights %>%
select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%
# Tranform all character-type variables to factors
mutate(date = as.Date(date), ___(where(is.character), as.factor))
# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)
test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()