1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Kết hợp dữ liệu với dplyr

Connected

Bài tập

Left join giữa questions và tags

Ba trong số các bộ dữ liệu khảo sát Stack Overflow là questions, question_tags và tags:

  • questions: chứa ID và điểm số (số lần câu hỏi được upvote); dữ liệu chỉ gồm các câu hỏi về R
  • question_tags: chứa ID thẻ cho mỗi câu hỏi và id của câu hỏi
  • tags: chứa id thẻ và tên thẻ, có thể dùng để xác định chủ đề của từng câu hỏi, chẳng hạn như ggplot2 hoặc dplyr

Trong bài này, bạn sẽ ghép các bộ dữ liệu này lại với nhau và thay thế các giá trị NA ở những trường quan trọng.

Lưu ý: bạn sẽ dùng các left_join trong bài này để đảm bảo giữ lại tất cả câu hỏi, kể cả những câu không có thẻ tương ứng. Tuy nhiên, vì ta biết dữ liệu questions đều là câu hỏi về R, bạn sẽ cần gắn nhãn thủ công các câu này là câu hỏi R bằng replace_na.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Ghép questions và question_tags bằng các cột id và question_id, theo thứ tự tương ứng.