Crea il tuo grafico di frequenza dei nucleotidi
È il momento di esaminare più da vicino la frequenza dei nucleotidi per ciclo. Il modo migliore è creare una visualizzazione. Di solito i primi cicli sono un po' casuali, poi la frequenza dei nucleotidi tende a stabilizzarsi con l'aumentare dei cicli.
Questo esercizio usa il file fastq completo SRR1971253 con qualche pre-elaborazione già fatta per te:
library(ShortRead)
fqsample <- readFastq(dirPath = "data",
pattern = "SRR1971253.fastq")
# estrai le letture
abc <- alphabetByCycle(sread(fqsample))
# Trasponi i nucleotidi A, C, G, T per colonna
nucByCycle <- t(abc[1:4,])
# Dataset ordinato
nucByCycle <- nucByCycle %>%
as_tibble() %>% # converti in tibble
mutate(cycle = 1:50) # aggiungi i numeri di ciclo
Il tuo compito è creare un grafico della frequenza dei nucleotidi per ciclo usando le funzioni di tidyverse!
Questo esercizio fa parte del corso
Introduzione a Bioconductor in R
Istruzioni dell'esercizio
- Usa
glimpse()sull'oggettonucByCycleper dare un'occhiata ai dati. - Ruota (pivot) le lettere dei nucleotidi in
alphabetconpivot_longer()ottenendo una nuova colonnacount. - Crea un grafico a linee con
cyclesull'asse x ecountsull'asse y, colorato peralphabet.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Glimpse nucByCycle
___
# Create a line plot of cycle vs. count
nucByCycle %>%
# Gather the nucleotide letters in alphabet and get a new count column
pivot_longer(-cycle, names_to = ___, values_to = ___) %>%
ggplot(aes(x = ___, y = ___, color = ___)) +
geom_line(size = 0.5 ) +
labs(y = "Frequency") +
theme_bw() +
theme(panel.grid.major.x = element_blank())