중복 필터링

결측값을 기준으로 필터링했던 heart_2와 cardio_2 데이터 테이블이 작업 공간에 준비되어 있어요. 목표는 각 data.table에서 유전자당 대표 프로브를 하나씩만 선택해서, 조인 결과에서 각 유전자가 단 하나의 행만 갖도록 만드는 거예요. 재현성을 보수적으로 추정하기 위해 연관성이 가장 약한 프로브를 선택하려고 해요. "change" 열에는 건강한 대상자와 심장 질환 대상자 사이에서 각 프로브의 발현량 변화 배수가 들어 있어요*. "pvalue" 열에는 연관성의 유의확률(p-value)이 들어 있어요. 행은 연관성의 강도가 약해지는 순서(즉, P-값이 증가하는 순서)로 정렬되어 있어요.

* 참고: 연관성은 무작위로 생성된 값으로, 실제 생물학적 발견이나 실제 데이터셋을 반영하지 않아요.