Coba plot frekuensi nukleotida Anda sendiri
Sekarang saatnya menelaah lebih dekat frekuensi nukleotida per siklus. Cara terbaik adalah dengan membuat visualisasi. Biasanya, beberapa siklus awal agak acak, lalu frekuensi nukleotida akan stabil seiring bertambahnya siklus.
Latihan ini menggunakan berkas fastq lengkap SRR1971253 dengan beberapa pra-pemrosesan yang sudah disiapkan untuk Anda:
library(ShortRead)
fqsample <- readFastq(dirPath = "data",
pattern = "SRR1971253.fastq")
# extract reads
abc <- alphabetByCycle(sread(fqsample))
# Transpose nucleotides A, C, G, T per column
nucByCycle <- t(abc[1:4,])
# Tidy dataset
nucByCycle <- nucByCycle %>%
as_tibble() %>% # convert to tibble
mutate(cycle = 1:50) # add cycle numbers
Tugas Anda adalah membuat plot Frekuensi Nukleotida per Siklus menggunakan fungsi-fungsi tidyverse!
Latihan ini adalah bagian dari kursus
Pengantar Bioconductor di R
Petunjuk latihan
- Gunakan
glimpse()pada objeknucByCycleuntuk melihat data. - Pivot huruf nukleotida dalam
alphabetmenggunakanpivot_longer()dan buat kolomcountbaru. - Buat plot garis dengan
cyclepada sumbu x vscountpada sumbu y, diwarnai berdasarkanalphabet.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Glimpse nucByCycle
___
# Create a line plot of cycle vs. count
nucByCycle %>%
# Gather the nucleotide letters in alphabet and get a new count column
pivot_longer(-cycle, names_to = ___, values_to = ___) %>%
ggplot(aes(x = ___, y = ___, color = ___)) +
geom_line(size = 0.5 ) +
labs(y = "Frequency") +
theme_bw() +
theme(panel.grid.major.x = element_blank())