Crie seu próprio gráfico de frequência de nucleotídeos
Agora é hora de olhar mais de perto a frequência de nucleotídeos por ciclo. A melhor forma de fazer isso é com uma visualização. Normalmente, os primeiros ciclos são um pouco aleatórios e, em seguida, a frequência dos nucleotídeos tende a se estabilizar conforme os ciclos avançam.
Este exercício usa o arquivo fastq completo SRR1971253, com algum pré-processamento já feito para você:
library(ShortRead)
fqsample <- readFastq(dirPath = "data",
pattern = "SRR1971253.fastq")
# extract reads
abc <- alphabetByCycle(sread(fqsample))
# Transpose nucleotides A, C, G, T per column
nucByCycle <- t(abc[1:4,])
# Tidy dataset
nucByCycle <- nucByCycle %>%
as_tibble() %>% # convert to tibble
mutate(cycle = 1:50) # add cycle numbers
Sua tarefa é criar um gráfico de Frequência de Nucleotídeos por Ciclo usando funções do tidyverse!
Este exercício faz parte do curso
Introdução ao Bioconductor em R
Instruções do exercício
- Use
glimpse()emnucByCyclepara visualizar os dados. - Faça o pivot das letras dos nucleotídeos em
alphabetusandopivot_longer()e obtenha uma nova colunacount. - Crie um gráfico de linhas com
cycleno eixo x ecountno eixo y, colorido poralphabet.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Glimpse nucByCycle
___
# Create a line plot of cycle vs. count
nucByCycle %>%
# Gather the nucleotide letters in alphabet and get a new count column
pivot_longer(-cycle, names_to = ___, values_to = ___) %>%
ggplot(aes(x = ___, y = ___, color = ___)) +
geom_line(size = 0.5 ) +
labs(y = "Frequency") +
theme_bw() +
theme(panel.grid.major.x = element_blank())