Data pengurutan
Unit dasar dari himpunan data ChIP-seq adalah sequencing read. Satu himpunan data lengkap biasanya terdiri atas beberapa juta read, disimpan dalam berkas BAM. Pada latihan ini, kita akan melihat bagaimana read direpresentasikan di R, menggunakan read dari sebuah wilayah kecil pada kromosom 20.
Read sudah dimuat ke dalam R untuk Anda. Data tersebut disimpan dalam objek GAlignments bernama reads. Objek GAlignments sangat terkait dengan GenomicRanges, yang mungkin pernah Anda jumpai pada kursus pengantar Bioconductor. Ini kesempatan baik untuk mengingat kembali cara berinteraksi dengan tipe objek ini.
Ingat bahwa Bioconductor menyediakan fungsi akses (accessor) untuk memudahkan ekstraksi data. Misalnya, start() akan mengekstrak koordinat awal dari semua read.
Latihan ini adalah bagian dari kursus
ChIP-seq dengan Bioconductor di R
Petunjuk latihan
- Cetak objek
readsuntuk memperoleh ringkasan data. - Dapatkan posisi awal dari read pertama.
- Dapatkan posisi akhir dari read terakhir.
- Tentukan jumlah read yang meliputi setiap posisi di wilayah terpilih, yaitu hitung coverage read menggunakan fungsi dengan nama yang sama.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Print the 'reads' object to obtain a summary of the data
print(___)
# Get the *start* position of the first read
start_first <- ___(reads)[1]
# Get the *end* position of the last read
end_last <- ___(___)[length(___)]
# Compute the number of reads covering each position in the selected region
cvg <- ___