CommencerCommencez gratuitement

Filtrer les doublons

Les tables data.table heart_2 et cardio_2 que vous avez filtrées pour les valeurs manquantes sont disponibles dans votre espace de travail. Votre objectif est de sélectionner une sonde représentative par gène dans chaque data.table afin que chaque gène n’ait qu’une seule entrée dans le résultat de la jointure. Vous souhaitez sélectionner la sonde avec l’association la plus faible pour obtenir une estimation prudente de la reproductibilité. La colonne "change" contient le facteur de changement d’expression pour chaque sonde entre les sujets sains et ceux atteints d’une maladie cardiaque*. La colonne "pvalue" contient la p-valeur de la force de l’association. Les lignes sont ordonnées par ordre décroissant de force d’association (p-valeur croissante).

* Remarque : les associations sont générées aléatoirement et ne représentent aucune découverte biologique réelle ni aucun jeu de données réel.

Cet exercice fait partie du cours

<cours>Combiner des données avec data.table en R</cours>
Voir le cours

Instructions de l’exercice

  • Utilisez la fonction unique() (docs) pour supprimer les doublons dans la colonne "gene" à la fois dans heart_2 et cardio_2. Ne conservez que la dernière ligne pour chaque gène.
  • Effectuez une jointure interne de cardio_3 avec heart_3 à l’aide de la fonction merge(). Ajoutez les suffixes ".heart" et ".cardio" aux colonnes "change" et "pvalue".

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___

# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible
Modifier et exécuter le code