Aan de slagGa gratis aan de slag

Joinen met ontbrekende waarden

Er zijn twee nieuwe data.tables in je R-sessie geladen: heart en cardio. Elk bevat een set microarray-probes die je in twee afzonderlijke onderzoeken hebt gevonden als geassocieerd met hartziekte*. Elke probe meet de expressieniveaus van een gen. Elk gen kan door één of meer probes worden gemeten, en sommige probes hebben geen bekende genannotatie in de humane referentiegenoomsequentie. De twee onderzoeken gebruikten verschillende microarrayplatformen die verschillende probes gebruiken om elk gen te meten. Je doel is om te vinden welke genen in beide onderzoeken een reproduceerbare associatie met hartziekte vertoonden.

* Let op: associaties zijn willekeurig gegenereerd en vertegenwoordigen geen echte biologische bevinding of echte gegevensset.

Deze oefening maakt deel uit van de cursus

Data samenvoegen met data.table in R

Cursus bekijken

Oefeninstructies

  • Gebruik de functie merge() om een inner join van cardio met heart uit te voeren, met het juiste argument om eventuele fouten te omzeilen die je tegenkomt.
  • Verwijder de probes uit beide data.tables zonder genannotatie (dus: verwijder rijen met ontbrekende waarden in de kolom gene).
  • Herhaal de inner join met de nieuwe data.tables om een data.table te krijgen met reproduceerbare associaties tussen genen en hartziekte.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Try an inner join
___

# Filter missing values
heart_2 <- ___
cardio_2 <- ___

# Inner join the filtered data.tables
___
Code bewerken en uitvoeren