1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Introduction to Data Engineering

Connected

Bài tập

Loại bỏ dữ liệu hỏng

Một bước lặp lại thường gặp trong giai đoạn transform là dọn sạch những dữ liệu chưa đầy đủ. Trong bài tập này, bạn sẽ xem dữ liệu khóa học với định dạng như sau:

course_id title description programming_language
1 Some Course … r

Bạn sẽ kiểm tra DataFrame này và đảm bảo không còn giá trị bị thiếu bằng cách dùng các phương thức .isnull().sum() của DataFrame pandas. Bạn sẽ thấy cột programming_language có một số giá trị bị thiếu.

Vì vậy, bạn sẽ hoàn thiện hàm transform_fill_programming_language() bằng cách dùng phương thức .fillna() để điền các giá trị bị thiếu.

Hướng dẫn

100 XP
  • In ra số lượng giá trị bị thiếu trong course_data.
  • Giá trị bị thiếu của programming_language nên được điền là ngôn ngữ "R".
  • In lại số lượng giá trị bị thiếu theo từng cột, lần này cho transformed.