1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Machine Learning cho Phân tích Marketing bằng R

Connected

Bài tập

Khám phá dữ liệu

Bộ dữ liệu salesData đã được nạp vào không gian làm việc. Nó chứa thông tin về khách hàng trong các tháng một đến ba. Chỉ có doanh số của tháng tư được đưa vào. Bảng sau mô tả một số biến có ý nghĩa chưa rõ ràng.

Variable Description
id số định danh của khách hàng
mostFreqStore cửa hàng mà người mua thường mua nhất
mostFreqCat danh mục mà người mua mua nhiều nhất
nCats số lượng danh mục khác nhau
preferredBrand thương hiệu mà người mua chọn nhiều nhất
nBrands số lượng thương hiệu khác nhau

Các gói readr, dplyr, corrplot và ggplot2 đã được cài đặt và nạp.

Hướng dẫn

100 XP
  • Dùng lệnh xem cấu trúc str() để có cái nhìn tổng quan về dữ liệu.
  • Bây giờ, trực quan hóa tương quan giữa các biến giải thích liên tục của ba tháng trước với biến doanh số của tháng này. Dùng các hàm cor() và corrplot() cùng với toán tử pipe. Lưu ý rằng các biến phù hợp đã được chọn sẵn cho bạn.
  • Bên cạnh đó, vẽ boxplot thể hiện phân phối của salesThisMon theo các mức của biến phân loại preferredBrand. Điều tương tự đã được thực hiện cho biến phân loại mostFreqStore.