1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý Dữ liệu Khuyết trong Python

Connected

Bài tập

Điền các giá trị giả (dummy)

Tương tự như cách bạn đã kiểm tra mối liên hệ giữa giá trị thiếu với giá trị thiếu giữa các cột, việc tìm mối liên hệ giữa giá trị thiếu với giá trị không thiếu giữa các cột cũng rất quan trọng. Điều này giúp bạn nhận ra các yếu tố gây ra tình trạng thiếu dữ liệu.

BMI vs Serum Insulin

Trong hình trên, bạn có thể thấy các giá trị thiếu của Serum Insulin phân bố khắp dải giá trị BMI. Điều này ngụ ý rằng không có mối liên hệ nào cả!

Trong bài tập này, bạn sẽ viết một hàm để tạo các giá trị giả (dummy) nhằm hỗ trợ vẽ biểu đồ scatter như trên (ở bài tập tiếp theo). Các thao tác tạo giá trị giả gồm: co giãn (scale) các giá trị ngẫu nhiên theo dải giá trị của cột với một hệ số co giãn và tịnh tiến (shift) các giá trị.

Hàm rand() đã được nhập sẵn cho bạn từ numpy.random.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • Tính dải giá trị của cột bằng cách lấy giá trị lớn nhất trừ đi giá trị nhỏ nhất của cột.