1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Joining Data with data.table in R

Connected

cvičení

Filtrování duplicit

V pracovním prostředí máš k dispozici datové tabulky heart_2 a cardio_2, které jsi vyfiltroval/a pro chybějící hodnoty. Tvým cílem je vybrat jeden reprezentativní probe pro každý gen v každém data.table tak, aby měl každý gen ve výsledku joinu pouze jeden záznam. Chceš vybrat probe s nejslabší asociací, čímž získáš konzervativní odhad reprodukovatelnosti. Sloupec "change" obsahuje násobnou změnu úrovní exprese každého probu mezi zdravými jedinci a těmi se srdeční chorobou*. Sloupec "pvalue" obsahuje p-hodnotu síly asociace. Řádky jsou seřazeny sestupně podle síly asociace (vzestupně podle p-hodnoty).

* Poznámka: asociace jsou generovány náhodně a nepředstavují žádný skutečný biologický nález ani reálný dataset.

Pokyny

100 XP
  • Pomocí funkce unique() (docs) odstraň duplicitní záznamy ve sloupci "gene" v tabulkách heart_2 i cardio_2. Ponech pouze poslední řádek pro každý gen.
  • Proveď inner join cardio_3 k heart_3 pomocí funkce merge(). Přidej sufixy ".heart" a ".cardio" ke sloupcům "change" a "pvalue".