Áp dụng phép thế giá trị trung vị (median imputation)

Trong chương này, bạn sẽ sử dụng một phiên bản của bộ dữ liệu Wisconsin Breast Cancer. Bộ dữ liệu này nêu ra một bài toán phân loại nhị phân kinh điển: 50% mẫu là lành tính, 50% là ác tính, và thách thức là xác định mẫu nào thuộc nhóm nào.

Điểm đáng chú ý là nhiều biến dự báo trong bộ dữ liệu bị thiếu giá trị, và hầu hết các dòng đều có ít nhất một giá trị thiếu. Đây là một thách thức khi xây dựng mô hình, vì phần lớn thuật toán Machine Learning không thể xử lý giá trị thiếu ngay lập tức. Ví dụ, trực giác đầu tiên của bạn có thể là khớp một mô hình hồi quy logistic cho dữ liệu này, nhưng trước đó bạn cần một chiến lược để xử lý các NA.

May mắn là hàm train() trong caret có một đối số tên là preProcess, cho phép bạn chỉ định dùng phép thế trung vị (median imputation) để điền các giá trị thiếu. Ở các chương trước, bạn đã tạo mô hình với train() bằng công thức như y ~ .. Một cách khác là chỉ định các đối số x và y cho train(), trong đó x là một đối tượng có các mẫu theo hàng và đặc trưng theo cột, còn y là một vector số hoặc factor chứa biến đích. Nói cách khác, x là một ma trận hoặc data frame chứa toàn bộ bộ dữ liệu mà bạn sẽ dùng cho đối số data trong lời gọi lm(), chẳng hạn, nhưng loại trừ cột biến phản hồi; y là một vector chỉ chứa cột biến phản hồi.

Trong bài tập này, đối số x truyền vào train() đã được nạp trong không gian làm việc của bạn với tên breast_cancer_x và y là breast_cancer_y.

Dùng hàm train() để khớp một mô hình glm đặt tên là median_model cho bộ dữ liệu ung thư vú. Dùng preProcess = "medianImpute" để xử lý các giá trị thiếu.
In median_model ra console.

Bài tập

Áp dụng phép thế giá trị trung vị (median imputation)

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập