Résultats de l’analyse DE

Après avoir exploré la PCA et la carte de chaleur des corrélations, nous avons observé un bon regroupement de nos échantillons sur PC1, qui semble représenter la variation des données due à la fibrose, et sur PC2, qui paraît refléter la variation liée à la surexpression de smoc2. Nous n’avons pas identifié d’autres sources de variation, ni de valeurs aberrantes à retirer. Nous pouvons donc poursuivre avec l’exécution de DESeq2, le test DE et la réduction des coefficients de variation. Nous avons réalisé ces étapes pour vous afin de générer les résultats finaux, res_all.

Dans cet exercice, vous allez extraire des résultats les gènes significatifs et afficher les 10 gènes DE principaux selon la valeur p ajustée.

Cet exercice fait partie du cours

<cours>RNA-Seq avec Bioconductor en R</cours>

Voir le cours

Instructions de l’exercice

Utilisez la fonction subset() pour extraire les lignes dont la valeur p ajustée est inférieure à 0,05. Enregistrez ce sous-ensemble comme un data frame nommé smoc2_sig à l’aide de la fonction data.frame() et transformez les noms de lignes en une colonne nommée geneID avec la fonction rownames_to_column().
Triez les résultats significatifs par valeurs p ajustées avec la fonction arrange(), sélectionnez les colonnes avec l’identifiant de gène Ensembl et les valeurs p ajustées, puis affichez les gènes les plus significatifs avec head().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Select significant genese with padj < 0.05
smoc2_sig <- subset(___, ___) %>%
  				___() %>%
  				___(var = ___)

# Extract the top 6 genes with padj values
smoc2_sig %>%
	___(___) %>%
	select(___, ___) %>%
	head()

Modifier et exécuter le code