Datos de secuenciación
La unidad básica de un conjunto de datos de ChIP-seq es una lectura de secuenciación. Un conjunto completo suele contener varios millones de lecturas, almacenadas en archivos BAM. En este ejercicio, veremos cómo se representan las lecturas en R, usando lecturas de una región pequeña del cromosoma 20.
Las lecturas ya se han cargado en R por ti. Están guardadas en un objeto GAlignments llamado reads. El objeto GAlignments está estrechamente relacionado con GenomicRanges, que quizá hayas visto en cursos introductorios de Bioconductor. Esta es una buena oportunidad para recordar cómo interactuar con este tipo de objeto.
Recuerda que Bioconductor proporciona funciones de acceso para facilitar la extracción de datos. Por ejemplo, start() extrae las coordenadas de inicio de todas las lecturas.
Este ejercicio forma parte del curso
ChIP-seq con Bioconductor en R
Instrucciones del ejercicio
- Imprime el objeto
readspara obtener un resumen de los datos. - Obtén la posición de inicio de la primera lectura.
- Obtén la posición final de la última lectura.
- Determina cuántas lecturas cubren cada posición de la región seleccionada; es decir, calcula la cobertura con la función del mismo nombre.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Print the 'reads' object to obtain a summary of the data
print(___)
# Get the *start* position of the first read
start_first <- ___(reads)[1]
# Get the *end* position of the last read
end_last <- ___(___)[length(___)]
# Compute the number of reads covering each position in the selected region
cvg <- ___