Data ze sekvenování

Základní jednotkou ChIP-seq datasetu je sekvenační čtení (read). Kompletní dataset obvykle obsahuje několik milionů čtení uložených v souborech BAM. V tomto cvičení se podíváme na to, jak jsou čtení reprezentována v R – použijeme čtení z malé oblasti na chromozomu 20.

Čtení jsou již načtena do R. Jsou uložena v objektu GAlignments s názvem reads. Objekt GAlignments úzce souvisí s GenomicRanges, se kterým ses možná setkal/a v úvodních kurzech Bioconductoru. Je to skvělá příležitost, jak si připomenout práci s tímto typem objektu.

Měj na paměti, že Bioconductor nabízí přístupové funkce (accessor functions), které usnadňují extrakci dat. Například start() vrátí počáteční souřadnice všech čtení.

Vypiš objekt reads, abys získal/a přehled o datech.
Zjisti počáteční pozici prvního čtení.
Zjisti koncovou pozici posledního čtení.
Urči počet čtení pokrývajících každou pozici ve vybrané oblasti, tedy vypočítej pokrytí (coverage) pomocí funkce stejného názvu.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení