Jointure avec des valeurs manquantes
Deux nouveaux data.tables ont été chargés dans votre session R : heart et cardio. Chacun contient un ensemble de sondes de microréseaux que vous avez trouvées associées aux maladies cardiaques dans deux études distinctes*. Chaque sonde mesure le niveau d’expression d’un gène. Un gène peut être mesuré par une ou plusieurs sondes, et certaines sondes n’ont aucune annotation génique connue dans la séquence de référence du génome humain. Les deux études ont utilisé des plateformes de microréseaux différentes, qui emploient des sondes distinctes pour mesurer chaque gène. Votre objectif est d’identifier les gènes dont l’association avec les maladies cardiaques est reproductible dans les deux études.
* Remarque : les associations sont générées aléatoirement et ne reflètent aucune découverte biologique réelle ni aucun jeu de données réel.
Cet exercice fait partie du cours
Combiner des données avec data.table en R
Instructions
- En utilisant la fonction
merge(), effectuez une jointure interne decardioavechearten ajoutant l’argument approprié pour ignorer toute erreur rencontrée. - Supprimez des deux
data.tablesles sondes sans annotation génique (c’est-à-dire les lignes avec des valeurs manquantes dans la colonnegene). - Répétez la jointure interne avec les nouveaux
data.tablespour obtenir undata.tabledes associations reproductibles entre les gènes et les maladies cardiaques.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Try an inner join
___
# Filter missing values
heart_2 <- ___
cardio_2 <- ___
# Inner join the filtered data.tables
___