Dati di sequenziamento
L’unità di base di un dataset ChIP-seq è una lettura di sequenziamento. Un dataset completo in genere contiene diversi milioni di letture, archiviate in file BAM. In questo esercizio vedremo come le letture sono rappresentate in R, usando letture da una piccola regione del cromosoma 20.
Le letture sono già state caricate in R per te. Sono memorizzate in un oggetto GAlignments chiamato reads. L’oggetto GAlignments è strettamente collegato a GenomicRanges, che potresti aver incontrato nei corsi introduttivi su Bioconductor. Questa è una buona occasione per ripassare come interagire con questo tipo di oggetto.
Ricorda che Bioconductor fornisce funzioni di accesso per semplificare l’estrazione dei dati. Ad esempio, start() estrae le coordinate di inizio di tutte le letture.
Questo esercizio fa parte del corso
ChIP-seq con Bioconductor in R
Istruzioni dell'esercizio
- Stampa l’oggetto
readsper ottenere un riepilogo dei dati. - Recupera la posizione di inizio della prima lettura.
- Recupera la posizione di fine dell’ultima lettura.
- Determina il numero di letture che coprono ogni posizione nella regione selezionata, cioè calcola la copertura delle letture usando la funzione con lo stesso nome.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Print the 'reads' object to obtain a summary of the data
print(___)
# Get the *start* position of the first read
start_first <- ___(reads)[1]
# Get the *end* position of the last read
end_last <- ___(___)[length(___)]
# Compute the number of reads covering each position in the selected region
cvg <- ___