Join con valori mancanti
Due nuove data.table sono state caricate nella tua sessione R: heart e cardio. Ognuna contiene un insieme di sonde microarray che hai trovato associate alle malattie cardiache in due studi distinti*. Ogni sonda misura i livelli di espressione di un gene. Ogni gene può essere misurato da una o più sonde, e alcune sonde non hanno alcuna annotazione genica nota nella sequenza di riferimento del genoma umano. I due studi hanno utilizzato piattaforme microarray diverse che impiegano sonde differenti per misurare ciascun gene. Il tuo obiettivo è trovare quali geni hanno mostrato associazioni riproducibili con le malattie cardiache in entrambi gli studi.
* Nota: le associazioni sono generate casualmente, non rappresentano alcuna scoperta biologica reale né un insieme di dati reale.
Questo esercizio fa parte del corso
Unire i dati con data.table in R
Istruzioni dell'esercizio
- Usando la funzione
merge(), esegui un inner join dicardioconheartincludendo l'argomento appropriato per ignorare eventuali errori che dovessi incontrare. - Rimuovi le sonde da entrambe le
data.tableprive di annotazione del gene (cioè elimina le righe con valori mancanti nella colonnagene). - Ripeti l'inner join con le nuove
data.tableper ottenere unadata.tabledi associazioni riproducibili tra geni e malattie cardiache.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Try an inner join
___
# Filter missing values
heart_2 <- ___
cardio_2 <- ___
# Inner join the filtered data.tables
___