Créez votre propre graphique de fréquence des nucléotides
Il est temps d’examiner de plus près la fréquence des nucléotides par cycle. Le meilleur moyen est de créer une visualisation. En général, les premiers cycles sont un peu aléatoires, puis la fréquence des nucléotides se stabilise au fil des cycles.
Cet exercice utilise le fichier fastq complet SRR1971253 avec un prétraitement déjà effectué pour vous :
library(ShortRead)
fqsample <- readFastq(dirPath = "data",
pattern = "SRR1971253.fastq")
# extract reads
abc <- alphabetByCycle(sread(fqsample))
# Transpose nucleotides A, C, G, T per column
nucByCycle <- t(abc[1:4,])
# Tidy dataset
nucByCycle <- nucByCycle %>%
as_tibble() %>% # convert to tibble
mutate(cycle = 1:50) # add cycle numbers
Votre objectif est de produire un graphique de fréquence des nucléotides par cycle avec les fonctions de tidyverse !
Cet exercice fait partie du cours
Introduction à Bioconductor avec R
Instructions
- Utilisez
glimpse()sur l’objetnucByCyclepour avoir un aperçu des données. - Transformez les lettres de nucléotides dans
alphabetavecpivot_longer()et obtenez une nouvelle colonnecount. - Réalisez un graphique en lignes avec
cyclesur l’axe des x etcountsur l’axe des y, coloré paralphabet.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Glimpse nucByCycle
___
# Create a line plot of cycle vs. count
nucByCycle %>%
# Gather the nucleotide letters in alphabet and get a new count column
pivot_longer(-cycle, names_to = ___, values_to = ___) %>%
ggplot(aes(x = ___, y = ___, color = ___)) +
geom_line(size = 0.5 ) +
labs(y = "Frequency") +
theme_bw() +
theme(panel.grid.major.x = element_blank())