Filtrare i duplicati
Le tabelle heart_2 e cardio_2 che hai filtrato per i valori mancanti sono disponibili nel tuo workspace. Il tuo obiettivo è selezionare una sonda rappresentativa per gene in ciascun data.table, così che ogni gene abbia una sola voce nel risultato della join. Vuoi selezionare la sonda con l’associazione più debole per ottenere una stima conservativa della riproducibilità. La colonna "change" contiene il fold change nei livelli di espressione per ciascuna sonda tra i soggetti sani e quelli con cardiopatia*. La colonna "pvalue" contiene il p-value della forza dell’associazione. Le righe sono ordinate per forza di associazione decrescente (per P-value crescente).
* Nota: le associazioni sono generate casualmente, non sono rappresentative di alcuna reale scoperta biologica o di un dataset reale.
Questo esercizio fa parte del corso
Unire i dati con data.table in R
Istruzioni dell'esercizio
- Usa la funzione
unique()(docs) per rimuovere le voci duplicate nella colonna"gene"sia inheart_2sia incardio_2. Mantieni solo l’ultima riga per ciascun gene. - Esegui una inner join di
cardio_3conheart_3usando la funzionemerge(). Aggiungi i suffissi".heart"e".cardio"alle colonne"change"e"pvalue".
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___
# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible