Duplicaten filteren

De datatabellen heart_2 en cardio_2 die je op missende waarden hebt gefilterd, staan in je werkruimte. Je doel is om per gen één representatieve probe te selecteren in elke data.table, zodat elk gen maar één vermelding heeft in het join-resultaat. Je wilt de probe met de zwakste associatie kiezen om een conservatieve schatting van reproduceerbaarheid te krijgen. De kolom "change" bevat de vouwverandering (fold change) in expressieniveaus voor elke probe tussen gezonde proefpersonen en proefpersonen met hartziekte*. De kolom "pvalue" bevat de p-waarde voor de associatiesterkte. Rijen zijn gesorteerd op afnemende associatiesterkte (oplopend op p-waarde).

* Let op: associaties zijn willekeurig gegenereerd en niet representatief voor echte biologische bevindingen of een echte gegevensset.

Deze oefening maakt deel uit van de cursus

Data samenvoegen met data.table in R

Cursus bekijken

Oefeninstructies

Gebruik de functie unique() (docs) om dubbele vermeldingen in de kolom "gene" te verwijderen in zowel heart_2 als cardio_2. Bewaar alleen de laatste rij per gen.
Voer een inner join uit van cardio_3 op heart_3 met de functie merge(). Voeg de suffixen ".heart" en ".cardio" toe aan de kolommen "change" en "pvalue".

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___

# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible

Code bewerken en uitvoeren