Filtrer les doublons
Les tables data.table heart_2 et cardio_2 que vous avez filtrées pour les valeurs manquantes sont disponibles dans votre espace de travail. Votre objectif est de sélectionner une sonde représentative par gène dans chaque data.table afin que chaque gène n’ait qu’une seule entrée dans le résultat de la jointure. Vous souhaitez sélectionner la sonde avec l’association la plus faible pour obtenir une estimation prudente de la reproductibilité. La colonne "change" contient le facteur de changement d’expression pour chaque sonde entre les sujets sains et ceux atteints d’une maladie cardiaque*. La colonne "pvalue" contient la p-valeur de la force de l’association. Les lignes sont ordonnées par ordre décroissant de force d’association (p-valeur croissante).
* Remarque : les associations sont générées aléatoirement et ne représentent aucune découverte biologique réelle ni aucun jeu de données réel.
Cet exercice fait partie du cours
Combiner des données avec data.table en R
Instructions
- Utilisez la fonction
unique()(docs) pour supprimer les doublons dans la colonne"gene"à la fois dansheart_2etcardio_2. Ne conservez que la dernière ligne pour chaque gène. - Effectuez une jointure interne de
cardio_3avecheart_3à l’aide de la fonctionmerge(). Ajoutez les suffixes".heart"et".cardio"aux colonnes"change"et"pvalue".
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___
# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible