Resultaten van DE-analyse

Na het verkennen van de PCA en de correlatie-heatmap zagen we een goede clustering van onze monsters op PC1, die de variatie in de data door fibrose leek weer te geven, en PC2, die variatie door smoc2-overexpressie leek te representeren. We vonden geen extra bronnen van variatie in de data en ook geen uitschieters om te verwijderen. Daarom kunnen we doorgaan met het draaien van DESeq2, DE-testen en het shrinken van de fold changes. We hebben deze stappen voor je uitgevoerd om de eindresultaten, res_all, te genereren.

In deze oefening willen we de significante genen uit de resultaten subselecteren en de top 10 DE-genen op basis van de aangepaste p-waarde tonen.

Deze oefening maakt deel uit van de cursus

RNA-Seq met Bioconductor in R

Bekijk cursus

Oefeninstructies

Gebruik de functie subset() om die waarden te extraheren met een aangepaste p-waarde kleiner dan 0,05. Sla de subset op als een data frame met de naam smoc2_sig door de functie data.frame() te gebruiken en de rijnamen om te zetten naar een kolom met de naam geneID met de functie rownames_to_column().
Sorteer de significante resultaten op aangepaste p-waarden met de functie arrange(), selecteer de kolommen met Ensembl-gen-ID en aangepaste p-waarden, en geef de meest significante genen weer met head().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Select significant genese with padj < 0.05
smoc2_sig <- subset(___, ___) %>%
  				___() %>%
  				___(var = ___)

# Extract the top 6 genes with padj values
smoc2_sig %>%
	___(___) %>%
	select(___, ___) %>%
	head()

Code bewerken en uitvoeren