1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Dữ liệu phân loại trong Tidyverse

Connected

Bài tập

Lấy số lượng mức (levels)

Với mutate() và summarize() trong dplyr, bạn có thể dùng hàm across() để chỉ định áp dụng đối số thứ hai của chúng, một hàm, lên tất cả các cột mà đối số thứ nhất là đúng.

Chúng ta sẽ dùng các hàm này cùng với tidyr để lấy số lượng mức cho mỗi biến factor trong multiple_choice_responses. pivot_longer() của tidyr chuyển một tập dữ liệu từ dạng rộng sang dạng dài. Hai đối số của hàm là tên các cột mới — một cột chứa tên các cột cũ và một cột chứa tất cả các giá trị.

Hướng dẫn

100 XP
  • Chuyển tất cả các cột kiểu character thành cột kiểu factor và lưu tập dữ liệu mới là responses_as_factors.
  • Tạo một tập dữ liệu mới, number_of_levels, trong đó bạn:
    • Dùng summarize với across để áp dụng hàm nlevels() cho từng cột.
    • Chuyển định dạng tập dữ liệu từ rộng sang dài.