1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học không giám sát với R

Connected

Bài tập

Chuẩn bị dữ liệu

Khác với các chương trước, nơi chúng tôi đã chuẩn bị sẵn dữ liệu cho bạn để làm unsupervised learning, mục tiêu của chương này là hướng dẫn bạn qua một quy trình làm việc thực tế và đầy đủ hơn.

Hãy nhớ lại từ video: bước đầu tiên là tải xuống và chuẩn bị dữ liệu.

Hướng dẫn

100 XP
  • Dùng hàm read.csv() để tải tệp CSV (giá trị phân tách bằng dấu phẩy) chứa dữ liệu từ URL đã cung cấp. Gán kết quả cho wisc.df.
  • Dùng as.matrix() để chuyển các đặc trưng của dữ liệu (ở các cột từ 3 đến 32) thành ma trận. Lưu vào biến wisc.data.
  • Gán tên hàng (row names) của wisc.data bằng các giá trị hiện có trong cột id của wisc.df. Việc này không bắt buộc, nhưng sẽ giúp bạn theo dõi các quan sát khác nhau trong suốt quá trình mô hình hóa.
  • Cuối cùng, tạo một vector tên diagnosis nhận giá trị 1 nếu chẩn đoán là ác tính ("M") và 0 nếu không. Lưu ý R ép TRUE thành 1 và FALSE thành 0.