MulaiMulai sekarang secara gratis

Menyiapkan data Anda untuk analisis

Anda akan melihat versi himpunan data nycflights13, dimuat sebagai flights. Himpunan data ini berisi informasi tentang penerbangan yang berangkat dari New York City. Anda ingin memprediksi apakah penerbangan akan tiba terlambat di tujuan, tetapi pertama-tama, Anda perlu menyiapkan data untuk analisis.

Setelah mendiskusikan tujuan model dengan tim ahli, Anda memilih variabel berikut untuk model: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.

Anda juga akan melakukan mutate() pada tanggal menggunakan as.Date() dan mengonversi variabel bertipe character menjadi faktor.

Terakhir, Anda akan membagi data menjadi himpunan data train dan test.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur di R

Lihat Kursus

Petunjuk latihan

  • Ubah semua variabel bertipe character menjadi faktor.
  • Bagi data flights menjadi himpunan test dan train.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

flights <- flights %>%
  select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%

# Tranform all character-type variables to factors
  mutate(date = as.Date(date), ___(where(is.character), as.factor))

# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)

test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()
Edit dan Jalankan Kode