Crea tu propia gráfica de frecuencia de nucleótidos
Ahora toca examinar más de cerca la frecuencia de nucleótidos por ciclo. La mejor forma de hacerlo es con una visualización. Normalmente, los primeros ciclos son algo aleatorios y, con los ciclos siguientes, la frecuencia de nucleótidos debería estabilizarse.
Este ejercicio usa el archivo fastq completo SRR1971253, con algo de preprocesado ya hecho por ti:
library(ShortRead)
fqsample <- readFastq(dirPath = "data",
pattern = "SRR1971253.fastq")
# extract reads
abc <- alphabetByCycle(sread(fqsample))
# Transpose nucleotides A, C, G, T per column
nucByCycle <- t(abc[1:4,])
# Tidy dataset
nucByCycle <- nucByCycle %>%
as_tibble() %>% # convert to tibble
mutate(cycle = 1:50) # add cycle numbers
¡Tu tarea es crear una gráfica de Frecuencia de nucleótidos por ciclo usando funciones de tidyverse!
Este ejercicio forma parte del curso
Introducción a Bioconductor en R
Instrucciones del ejercicio
- Usa
glimpse()sobre el objetonucByCyclepara echar un vistazo a los datos. - Pivotar las letras de nucleótidos en
alphabetusandopivot_longer()y obtener una nueva columnacount. - Haz un gráfico de líneas con
cycleen el eje x ycounten el eje y, coloreado poralphabet.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Glimpse nucByCycle
___
# Create a line plot of cycle vs. count
nucByCycle %>%
# Gather the nucleotide letters in alphabet and get a new count column
pivot_longer(-cycle, names_to = ___, values_to = ___) %>%
ggplot(aes(x = ___, y = ___, color = ___)) +
geom_line(size = 0.5 ) +
labs(y = "Frequency") +
theme_bw() +
theme(panel.grid.major.x = element_blank())