Resultaten van DE-analyse
Na het verkennen van de PCA en de correlatie-heatmap zagen we een goede clustering van onze monsters op PC1, die de variatie in de data door fibrose leek weer te geven, en PC2, die variatie door smoc2-overexpressie leek te representeren. We vonden geen extra bronnen van variatie in de data en ook geen uitschieters om te verwijderen. Daarom kunnen we doorgaan met het draaien van DESeq2, DE-testen en het shrinken van de fold changes. We hebben deze stappen voor je uitgevoerd om de eindresultaten, res_all, te genereren.
In deze oefening willen we de significante genen uit de resultaten subselecteren en de top 10 DE-genen op basis van de aangepaste p-waarde tonen.
Deze oefening maakt deel uit van de cursus
RNA-Seq met Bioconductor in R
Oefeninstructies
Gebruik de functie
subset()om die waarden te extraheren met een aangepaste p-waarde kleiner dan 0,05. Sla de subset op als een data frame met de naamsmoc2_sigdoor de functiedata.frame()te gebruiken en de rijnamen om te zetten naar een kolom met de naamgeneIDmet de functierownames_to_column().Sorteer de significante resultaten op aangepaste p-waarden met de functie
arrange(), selecteer de kolommen met Ensembl-gen-ID en aangepaste p-waarden, en geef de meest significante genen weer methead().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Select significant genese with padj < 0.05
smoc2_sig <- subset(___, ___) %>%
___() %>%
___(var = ___)
# Extract the top 6 genes with padj values
smoc2_sig %>%
___(___) %>%
select(___, ___) %>%
head()