Mulai sekarangMulai gratis

Menyiapkan data Anda untuk analisis

Anda akan melihat versi himpunan data nycflights13, dimuat sebagai flights. Himpunan data ini berisi informasi tentang penerbangan yang berangkat dari New York City. Anda ingin memprediksi apakah penerbangan akan tiba terlambat di tujuan, tetapi pertama-tama, Anda perlu menyiapkan data untuk analisis.

Setelah mendiskusikan tujuan model dengan tim ahli, Anda memilih variabel berikut untuk model: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.

Anda juga akan melakukan mutate() pada tanggal menggunakan as.Date() dan mengonversi variabel bertipe character menjadi faktor.

Terakhir, Anda akan membagi data menjadi himpunan data train dan test.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur di R

Lihat Kursus

Instruksi latihan

  • Ubah semua variabel bertipe character menjadi faktor.
  • Bagi data flights menjadi himpunan test dan train.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

flights <- flights %>%
  select(flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival) %>%

# Tranform all character-type variables to factors
  mutate(date = as.Date(date), ___(where(is.character), as.factor))

# Split the flights data into test and train sets
set.seed(246)
split <- flights %>% initial_split(prop = 3/4, strata = arrival)
test <- ___(split)
train <- ___(split)

test %>% select(arrival) %>% table() %>% prop.table()
train %>% select(arrival) %>% table() %>% prop.table()
Edit dan Jalankan Kode