Duplicaten filteren
De datatabellen heart_2 en cardio_2 die je op missende waarden hebt gefilterd, staan in je werkruimte. Je doel is om per gen één representatieve probe te selecteren in elke data.table, zodat elk gen maar één vermelding heeft in het join-resultaat. Je wilt de probe met de zwakste associatie kiezen om een conservatieve schatting van reproduceerbaarheid te krijgen. De kolom "change" bevat de vouwverandering (fold change) in expressieniveaus voor elke probe tussen gezonde proefpersonen en proefpersonen met hartziekte*. De kolom "pvalue" bevat de p-waarde voor de associatiesterkte. Rijen zijn gesorteerd op afnemende associatiesterkte (oplopend op p-waarde).
* Let op: associaties zijn willekeurig gegenereerd en niet representatief voor echte biologische bevindingen of een echte gegevensset.
Deze oefening maakt deel uit van de cursus
Data samenvoegen met data.table in R
Oefeninstructies
- Gebruik de functie
unique()(docs) om dubbele vermeldingen in de kolom"gene"te verwijderen in zowelheart_2alscardio_2. Bewaar alleen de laatste rij per gen. - Voer een inner join uit van
cardio_3opheart_3met de functiemerge(). Voeg de suffixen".heart"en".cardio"toe aan de kolommen"change"en"pvalue".
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___
# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible