Explorando un archivo fastq

Los archivos fastq suelen contener miles o millones de lecturas y pueden ser muy grandes. En este ejercicio usarás una submuestra pequeña de fastq con 500 lecturas, que cabe sin problemas en memoria y puede leerse completa con la función readFastq().

El archivo de secuencias original proviene de Arabidopsis thaliana, facilitado por el UC Davis Genome Center. El número de acceso es SRR1971253 y se descargó del Sequence Read Archive (SRA). Contiene ADN de tejido foliar, agrupado y secuenciado en Illumina HiSeq 2000. Estas son lecturas single-read con una longitud de 50 pares de bases (bp).

fqsample es un objeto ShortReadQ y contiene información sobre las lecturas, las puntuaciones de calidad y los ids. ¡Te toca explorarlo!

Este ejercicio forma parte del curso

Introducción a Bioconductor en R

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load ShortRead
___

# Print fqsample
___

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción a Bioconductor en R

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

En este capítulo trabajarás directamente con Bioconductor. Bioconductor es el repositorio especializado de software de bioinformática, desarrollado y mantenido por la comunidad de R. Aprenderás a instalar y usar paquetes de Bioconductor. También conocerás los objetos y funciones S4, porque la mayoría de paquetes en Bioconductor heredan de S4. Además, usarás un conjunto de datos genómicos real de un hongo para explorar el paquete BSgenome.

Exercise 1: Introducción al proyecto Bioconductor Exercise 2: Versión de Bioconductor Exercise 3: BiocManager para instalar paquetes Exercise 4: El papel de S4 en Bioconductor Exercise 5: Definición de clase S4 Exercise 6: Interacción con clases Exercise 7: Introducción a la biología de los conjuntos de datos genómicos Exercise 8: Descubriendo el genoma de la levadura Exercise 9: Particionando el genoma de levadura Exercise 10: Genomas disponibles

Biostrings son contenedores de cadenas eficientes en memoria. Biostrings incluye algoritmos de búsqueda y otras utilidades para manipular rápidamente secuencias biológicas grandes o conjuntos de secuencias. ¿Cuán eficiente puedes ser usando los contenedores adecuados para tus secuencias? Aprenderás sobre alfabetos y manipulación de secuencias usando el pequeño genoma de un virus.

Exercise 1: Introducción a Biostrings Exercise 2: Explorando la secuencia del virus del Zika Exercise 3: Contenedores de Biostrings Exercise 4: Manipulando Biostrings Exercise 5: Manipulación de secuencias Exercise 6: De un conjunto a una única secuencia Exercise 7: Subconjuntar un conjunto Exercise 8: Funciones comunes para manipular secuencias Exercise 9: ¿Por qué nos interesan los patrones?Exercise 10: Búsqueda de un patrón Exercise 11: Encontrar palíndromos Exercise 12: Encontrar una región conservada en seis marcos de lectura Exercise 13: Buscando una coincidencia

Los paquetes IRanges y GenomicRanges también son contenedores para almacenar y manipular intervalos genómicos y variables definidas a lo largo de un genoma. Estos paquetes proporcionan infraestructura y soporte a muchos otros paquetes de Bioconductor gracias a sus funcionalidades. Aprenderás a usar estos contenedores y sus metadatos asociados para manipular tus secuencias. El conjunto de datos que verás es un gen especial de interés en el genoma humano.

Exercise 1: IRanges y estructuras genómicas Exercise 2: IRanges Exercise 3: Construyendo IRanges Exercise 4: Interactuar con IRanges Exercise 5: Gen de interés Exercise 6: De datos tabulares a Genomic Ranges Exercise 7: Accesores de GenomicRanges Exercise 8: Mutación en ABCD1 Exercise 9: Cromosoma X del genoma humano Exercise 10: Manipular colecciones de GRanges Exercise 11: Una ventana de secuencia Exercise 12: ¿Está ahí?Exercise 13: Más sobre ABCD1 Exercise 14: ¿Cuántos transcritos?Exercise 15: De un objeto GRangesList a un objeto GRanges

ShortRead es el paquete para la entrada, manipulación y evaluación de archivos fasta y fastq. Puedes crear subconjuntos, recortar y filtrar las secuencias de interés, e incluso generar un informe de calidad. Como extra en los últimos ejercicios tendrás herramientas para evaluación de calidad en paralelo, guiño, guiño: Rqc. ¡Y lo mejor es que para esto usarás secuencias de genoma de plantas!

Exercise 1: Archivos de secuencias Exercise 2: ¿Por qué fastq?Exercise 3: Lectura de archivos Exercise 4: Explorando un archivo fastq

Ejercicio actual

Exercise 5: Extraer una muestra de un archivo fastq Exercise 6: Calidad de las secuencias Exercise 7: Explorando la calidad de las secuencias Exercise 8: Gráfico de calidad por base Exercise 9: Crea tu propia gráfica de frecuencia de nucleótidos Exercise 10: Emparejar y filtrar Exercise 11: ¡Filtrando lecturas sobre la marcha!Exercise 12: Eliminar duplicados Exercise 13: ¡Más filtrado!Exercise 14: Evaluación múltiple Exercise 15: Graficar la calidad media por ciclo Exercise 16: Introducción a Bioconductor