1. 학습
  2. /
  3. 강의
  4. /
  5. R의 data.table로 데이터 결합하기

Connected

연습 문제

중복 필터링

결측값을 기준으로 필터링했던 heart_2와 cardio_2 데이터 테이블이 작업 공간에 준비되어 있어요. 목표는 각 data.table에서 유전자당 대표 프로브를 하나씩만 선택해서, 조인 결과에서 각 유전자가 단 하나의 행만 갖도록 만드는 거예요. 재현성을 보수적으로 추정하기 위해 연관성이 가장 약한 프로브를 선택하려고 해요. "change" 열에는 건강한 대상자와 심장 질환 대상자 사이에서 각 프로브의 발현량 변화 배수가 들어 있어요*. "pvalue" 열에는 연관성의 유의확률(p-value)이 들어 있어요. 행은 연관성의 강도가 약해지는 순서(즉, P-값이 증가하는 순서)로 정렬되어 있어요.

* 참고: 연관성은 무작위로 생성된 값으로, 실제 생물학적 발견이나 실제 데이터셋을 반영하지 않아요.

지침

100 XP
  • unique() (docs) 함수를 사용해 heart_2와 cardio_2의 "gene" 열에서 중복 항목을 제거하세요. 각 유전자에 대해 마지막 행만 유지하세요.
  • merge() 함수를 사용해 cardio_3를 heart_3와 내부 조인(Inner join)하세요. "change"와 "pvalue" 열에는 접미사로 ".heart"와 ".cardio"를 각각 추가하세요.