Joinen met ontbrekende waarden
Er zijn twee nieuwe data.tables in je R-sessie geladen: heart en cardio. Elk bevat een set microarray-probes die je in twee afzonderlijke onderzoeken hebt gevonden als geassocieerd met hartziekte*. Elke probe meet de expressieniveaus van een gen. Elk gen kan door één of meer probes worden gemeten, en sommige probes hebben geen bekende genannotatie in de humane referentiegenoomsequentie. De twee onderzoeken gebruikten verschillende microarrayplatformen die verschillende probes gebruiken om elk gen te meten. Je doel is om te vinden welke genen in beide onderzoeken een reproduceerbare associatie met hartziekte vertoonden.
* Let op: associaties zijn willekeurig gegenereerd en vertegenwoordigen geen echte biologische bevinding of echte gegevensset.
Deze oefening maakt deel uit van de cursus
Data samenvoegen met data.table in R
Oefeninstructies
- Gebruik de functie
merge()om een inner join vancardiometheartuit te voeren, met het juiste argument om eventuele fouten te omzeilen die je tegenkomt. - Verwijder de probes uit beide
data.tableszonder genannotatie (dus: verwijder rijen met ontbrekende waarden in de kolomgene). - Herhaal de inner join met de nieuwe
data.tablesom eendata.tablete krijgen met reproduceerbare associaties tussen genen en hartziekte.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Try an inner join
___
# Filter missing values
heart_2 <- ___
cardio_2 <- ___
# Inner join the filtered data.tables
___