Exercise

Các giá trị của factor (factor levels)

Khi mới tiếp cận dữ liêu, các bạn hẳn sẽ nhận thấy rằng các factor chứa một số giá trị nhất định. Tuy nhiên, đôi khi ta muốn đổi tên của các giá trị này nhằm phục vụ quá trình phân tích dữ liệu. R cho phép bạn thực hiện quá trình này với hàm levels():

levels(factor_vector) <- c("name1", "name2",...)

Một ví dụ điển hình để giải thích quá trình này là sử dụng bảng hỏi. Khi thu thập ý kiến, một câu hỏi điển hình là giới tính của người được hỏi. Hẳn các bạn vẫn còn nhớ đây là biến factor có hai giá "M" và "F".

survey_vector <- c("M", "F", "F", "M", "M")

Tiếp đó, khi bắt đầu phân tích dữ liệu, quan tâm chính của bạn sẽ là giữ được cái nhìn tổng quan của tất cả các biến cũng như ý nghĩa của chúng. Khi đó, để giúp quá trình phân tích được dễ dàng hơn, bạn thường sẽ muốn đổi các giá trị của factor thành "Male" và "Female" (nam và nữ) thay cho giá trị "M" và "F"

Lưu ý: Thứ tự của các giá trị trong biến factor rất quan trọng trong quá trình phân tích. Nếu gõ levels(factor_survey_vector), bạn sẽ thấy kết quả hiển thị là [1] "F" "M". Nếu bạn không xác định rõ giá trị của facotr, R sẽ tự động gán chúng theo thứ tự bảng chữ cái. Để gán "F" thành "Female" và "M" thành "Male", giá trị của factor cần được gán thành c("Female", "Male") theo thứ tự

Instructions

100 XP
  • Kiểm tra đoạn code xây dựng giá trị của factor từ survey_vector. Bạn nên sử dụng factor_survey_vector trong phần bài giảng tiếp theo.
  • Đổi thứ thự các giá trị của factor_survey_vector thành c("Female", "Male"). Lưu ý thứ tự các giá trị trong vector