Filtrer les doublons

Les tables data.table heart_2 et cardio_2 que vous avez filtrées pour les valeurs manquantes sont disponibles dans votre espace de travail. Votre objectif est de sélectionner une sonde représentative par gène dans chaque data.table afin que chaque gène n’ait qu’une seule entrée dans le résultat de la jointure. Vous souhaitez sélectionner la sonde avec l’association la plus faible pour obtenir une estimation prudente de la reproductibilité. La colonne "change" contient le facteur de changement d’expression pour chaque sonde entre les sujets sains et ceux atteints d’une maladie cardiaque*. La colonne "pvalue" contient la p-valeur de la force de l’association. Les lignes sont ordonnées par ordre décroissant de force d’association (p-valeur croissante).

* Remarque : les associations sont générées aléatoirement et ne représentent aucune découverte biologique réelle ni aucun jeu de données réel.

Cet exercice fait partie du cours

Combiner des données avec data.table en R

Afficher le cours

Instructions

Utilisez la fonction unique() (docs) pour supprimer les doublons dans la colonne "gene" à la fois dans heart_2 et cardio_2. Ne conservez que la dernière ligne pour chaque gène.
Effectuez une jointure interne de cardio_3 avec heart_3 à l’aide de la fonction merge(). Ajoutez les suffixes ".heart" et ".cardio" aux colonnes "change" et "pvalue".

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___

# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible

Modifier et exécuter le code