1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Kết hợp dữ liệu với data.table trong R

Connected

Bài tập

Lọc bản ghi trùng lặp

Hai bảng dữ liệu heart_2 và cardio_2 mà bạn đã lọc giá trị thiếu hiện có trong không gian làm việc. Mục tiêu của bạn là chọn một đầu dò (probe) đại diện cho mỗi gene trong từng data.table để mỗi gene chỉ còn một bản ghi trong kết quả join. Bạn muốn chọn đầu dò có mức liên quan yếu nhất để có được ước lượng thận trọng về khả năng tái lập. Cột "change" chứa hệ số thay đổi (fold change) mức biểu hiện cho mỗi đầu dò giữa nhóm khỏe mạnh và nhóm mắc bệnh tim*. Cột "pvalue" chứa p-value cho độ mạnh của liên quan. Các hàng được sắp theo thứ tự giảm dần về độ mạnh của liên quan (tức tăng dần theo P-value).

* Lưu ý: các mối liên quan được tạo ngẫu nhiên, không đại diện cho bất kỳ phát hiện sinh học thực sự hay tập dữ liệu thực nào.

Hướng dẫn

100 XP
  • Dùng hàm unique() (docs) để loại bỏ các bản ghi trùng ở cột "gene" trong cả heart_2 và cardio_2. Chỉ giữ hàng cuối cùng cho mỗi gene.
  • Thực hiện inner join cardio_3 vào heart_3 bằng hàm merge(). Thêm hậu tố ".heart" và ".cardio" cho các cột "change" và "pvalue".