1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý Dữ liệu Khuyết trong Python

Connected

Bài tập

Vẽ scatter plot thể hiện giá trị bị thiếu

Trong bài này, bạn sẽ tạo một scatter plot gồm cả giá trị thiếu và không thiếu. Bạn sẽ dùng hàm fill_dummy_values() mà bạn đã tạo ở bài trước để điền các giá trị giả (dummy) vào DataFrame diabetes_dummy.

Tính thiếu của một cột được tính bằng phương thức .isnull(). Kết quả là một Series (pd.Series) gồm các giá trị True hoặc False.

Để đặt màu khác nhau cho các điểm thiếu và không thiếu, bạn có thể kết hợp tính thiếu bằng phép OR (|) trên các cột mà bạn đang vẽ, dẫn đến:

  • True \(\rightarrow\) Một trong col1 hoặc col2 hoặc cả hai bị thiếu.
  • False \(\rightarrow\) Cả col1 và col2 đều không bị thiếu.

DataFrame diabetes và hàm fill_dummy_values() đã được nạp sẵn để bạn sử dụng.

Hướng dẫn

100 XP
  • Dùng phép OR để kết hợp tính thiếu của Skin_Fold và BMI.
  • Điền các giá trị giả trong diabetes_dummy bằng hàm fill_dummy_values().
  • Tạo scatter plot của 'BMI' theo 'Skin_Fold'; lưu ý Y theo X tức là trục Y so với trục X hay Y là hàm của X.