Filtrování duplicit

V pracovním prostředí máš k dispozici datové tabulky heart_2 a cardio_2, které jsi vyfiltroval/a pro chybějící hodnoty. Tvým cílem je vybrat jeden reprezentativní probe pro každý gen v každém data.table tak, aby měl každý gen ve výsledku joinu pouze jeden záznam. Chceš vybrat probe s nejslabší asociací, čímž získáš konzervativní odhad reprodukovatelnosti. Sloupec "change" obsahuje násobnou změnu úrovní exprese každého probu mezi zdravými jedinci a těmi se srdeční chorobou*. Sloupec "pvalue" obsahuje p-hodnotu síly asociace. Řádky jsou seřazeny sestupně podle síly asociace (vzestupně podle p-hodnoty).

* Poznámka: asociace jsou generovány náhodně a nepředstavují žádný skutečný biologický nález ani reálný dataset.

Pomocí funkce unique() (docs) odstraň duplicitní záznamy ve sloupci "gene" v tabulkách heart_2 i cardio_2. Ponech pouze poslední řádek pro každý gen.
Proveď inner join cardio_3 k heart_3 pomocí funkce merge(). Přidej sufixy ".heart" a ".cardio" ke sloupcům "change" a "pvalue".

cvičení

Filtrování duplicit

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení