Filtrare i duplicati

Le tabelle heart_2 e cardio_2 che hai filtrato per i valori mancanti sono disponibili nel tuo workspace. Il tuo obiettivo è selezionare una sonda rappresentativa per gene in ciascun data.table, così che ogni gene abbia una sola voce nel risultato della join. Vuoi selezionare la sonda con l’associazione più debole per ottenere una stima conservativa della riproducibilità. La colonna "change" contiene il fold change nei livelli di espressione per ciascuna sonda tra i soggetti sani e quelli con cardiopatia*. La colonna "pvalue" contiene il p-value della forza dell’associazione. Le righe sono ordinate per forza di associazione decrescente (per P-value crescente).

* Nota: le associazioni sono generate casualmente, non sono rappresentative di alcuna reale scoperta biologica o di un dataset reale.

Questo esercizio fa parte del corso

Unire i dati con data.table in R

Visualizza corso

Istruzioni dell'esercizio

Usa la funzione unique() (docs) per rimuovere le voci duplicate nella colonna "gene" sia in heart_2 sia in cardio_2. Mantieni solo l’ultima riga per ciascun gene.
Esegui una inner join di cardio_3 con heart_3 usando la funzione merge(). Aggiungi i suffissi ".heart" e ".cardio" alle colonne "change" e "pvalue".

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___

# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible

Modifica ed esegui il codice