Filtrowanie duplikatów

W twoim środowisku pracy dostępne są tabele heart_2 i cardio_2, odfiltrowane wcześniej pod kątem brakujących wartości. Celem jest wybranie jednej reprezentatywnej sondy na gen w każdej data.table, tak aby każdy gen miał tylko jeden wiersz w wynikach złączenia. Chcesz wybrać sondę o najsłabszym powiązaniu, aby uzyskać konserwatywną ocenę odtwarzalności. Kolumna "change" zawiera krotność zmiany ekspresji dla każdej sondy między zdrowymi osobami a osobami z chorobą serca*. Kolumna "pvalue" zawiera wartość p określającą siłę powiązania. Wiersze są posortowane malejąco według siły powiązania (rosnąco według wartości p).

* Uwaga: powiązania są generowane losowo i nie odzwierciedlają żadnych rzeczywistych wyników biologicznych ani prawdziwego zbioru danych.

Użyj funkcji unique() (dokumentacja), aby usunąć zduplikowane wpisy w kolumnie "gene" w obu tabelach: heart_2 i cardio_2. Zachowaj tylko ostatni wiersz dla każdego genu.
Wykonaj złączenie wewnętrzne (inner join) tabeli cardio_3 z heart_3 za pomocą funkcji merge(). Dodaj sufiksy ".heart" i ".cardio" do kolumn "change" i "pvalue".

ćwiczenie

Filtrowanie duplikatów

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie