1. Nauka
  2. /
  3. Kursy
  4. /
  5. Łączenie danych z data.table w R

Connected

ćwiczenie

Filtrowanie duplikatów

W twoim środowisku pracy dostępne są tabele heart_2 i cardio_2, odfiltrowane wcześniej pod kątem brakujących wartości. Celem jest wybranie jednej reprezentatywnej sondy na gen w każdej data.table, tak aby każdy gen miał tylko jeden wiersz w wynikach złączenia. Chcesz wybrać sondę o najsłabszym powiązaniu, aby uzyskać konserwatywną ocenę odtwarzalności. Kolumna "change" zawiera krotność zmiany ekspresji dla każdej sondy między zdrowymi osobami a osobami z chorobą serca*. Kolumna "pvalue" zawiera wartość p określającą siłę powiązania. Wiersze są posortowane malejąco według siły powiązania (rosnąco według wartości p).

* Uwaga: powiązania są generowane losowo i nie odzwierciedlają żadnych rzeczywistych wyników biologicznych ani prawdziwego zbioru danych.

Instrukcje

100 XP
  • Użyj funkcji unique() (dokumentacja), aby usunąć zduplikowane wpisy w kolumnie "gene" w obu tabelach: heart_2 i cardio_2. Zachowaj tylko ostatni wiersz dla każdego genu.
  • Wykonaj złączenie wewnętrzne (inner join) tabeli cardio_3 z heart_3 za pomocą funkcji merge(). Dodaj sufiksy ".heart" i ".cardio" do kolumn "change" i "pvalue".