1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Kỹ thuật đặc trưng (Feature Engineering) với R

Connected

Bài tập

Chuẩn bị dữ liệu cho phân tích

Bạn sẽ xem một phiên bản của bộ dữ liệu nycflights13, đã được nạp thành flights. Bộ dữ liệu này chứa thông tin về các chuyến bay rời khỏi New York City. Bạn muốn dự đoán liệu chúng có đến điểm đến trễ hay không, nhưng trước tiên, bạn cần chuẩn bị dữ liệu cho việc phân tích.

Sau khi thảo luận mục tiêu mô hình với nhóm chuyên gia, bạn đã chọn các biến sau cho mô hình: flight, sched_dep_time, dep_delay, sched_arr_time, carrier, origin, dest, distance, date, arrival.

Bạn cũng sẽ mutate() cột ngày bằng as.Date() và chuyển các biến kiểu character thành factor.

Cuối cùng, bạn sẽ chia dữ liệu thành các tập train và test.

Hướng dẫn

100 XP
  • Chuyển tất cả biến kiểu character thành factor.
  • Chia dữ liệu flights thành tập test và train.