Esplorare un file fastq

I file fastq di solito contengono migliaia o milioni di read e possono diventare molto grandi! In questo esercizio userai un piccolo sotto-campione fastq di 500 read, che entra comodamente in memoria e può essere letto interamente con la funzione readFastq().

Il file di sequenze originale proviene da Arabidopsis thaliana, fornito dall'UC Davis Genome Center. Il numero di accesso è SRR1971253 ed è stato scaricato dal Sequence Read Archive (SRA). Contiene DNA da tessuti fogliari, campionato e sequenziato su Illumina HiSeq 2000. Queste sono sequenze single-read con lunghezza di 50 paia di basi (bp).

fqsample è un oggetto ShortReadQ e contiene informazioni su read, punteggi di qualità e ID. Ora tocca a te esplorarlo!

Questo esercizio fa parte del corso

Introduzione a Bioconductor in R

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load ShortRead
___

# Print fqsample
___

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Introduzione a Bioconductor in R

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo metterai subito le mani in pasta con Bioconductor. Bioconductor è il repository specializzato per software di bioinformatica, sviluppato e mantenuto dalla comunità R. Imparerai come installare e usare i package di Bioconductor. Ti presenteremo oggetti e funzioni S4, perché la maggior parte dei package in Bioconductor eredita da S4. Inoltre, userai un insieme di dati genomici reale di un fungo per esplorare il package BSgenome.

Exercise 1: Introduzione al progetto Bioconductor Exercise 2: Versione di Bioconductor Exercise 3: Usare BiocManager per installare i pacchetti Exercise 4: Il ruolo di S4 in Bioconductor Exercise 5: Definizione di classe S4 Exercise 6: Interazione con le classi Exercise 7: Introduzione alla biologia degli insiemi di dati genomici Exercise 8: Alla scoperta del genoma del lievito Exercise 9: Suddividere il genoma del lievito Exercise 10: Genomi disponibili

Le Biostrings sono contenitori di stringhe efficienti in memoria. Biostrings offre algoritmi di matching e altre utilità per la manipolazione rapida di grandi sequenze biologiche o insiemi di sequenze. Quanto puoi diventare efficiente usando i contenitori giusti per le tue sequenze? Imparerai gli alfabeti e la manipolazione delle sequenze utilizzando il piccolo genoma di un virus.

Exercise 1: Introduzione a Biostrings Exercise 2: Esplorare la sequenza del virus Zika Exercise 3: Container di Biostrings Exercise 4: Manipolare Biostrings Exercise 5: Gestione delle sequenze Exercise 6: Da un insieme a una singola sequenza Exercise 7: Sottoinsiemi di un insieme Exercise 8: Funzioni comuni per la manipolazione di sequenze Exercise 9: Perché ci interessano i pattern?Exercise 10: Ricerca di un pattern Exercise 11: Trovare i palindromi Exercise 12: Trovare una regione conservata in sei frame Exercise 13: Cercare una corrispondenza

I package IRanges e GenomicRanges sono anch’essi contenitori per archiviare e manipolare intervalli genomici e variabili definite lungo un genoma. Questi package forniscono infrastruttura e supporto a molti altri package di Bioconductor grazie alle loro funzionalità avanzate. Imparerai come usare questi contenitori e i metadati associati per manipolare le tue sequenze. Il dataset che analizzerai è un gene di particolare interesse nel genoma umano.

Exercise 1: IRanges e strutture genomiche Exercise 2: IRanges Exercise 3: Creare IRanges Exercise 4: Interagire con IRanges Exercise 5: Gene di interesse Exercise 6: Dati tabellari in Genomic Ranges Exercise 7: Accessor di GenomicRanges Exercise 8: Mutazione di ABCD1 Exercise 9: Cromosoma X del genoma umano Exercise 10: Manipolare raccolte di GRanges Exercise 11: Una finestra di sequenza Exercise 12: È lì?Exercise 13: Di più su ABCD1 Exercise 14: Quanti transcript?Exercise 15: Da un oggetto GRangesList a un oggetto GRanges

ShortRead è il package per l’input, la manipolazione e la valutazione di file fasta e fastq. Puoi creare sottoinsiemi, rifilare e filtrare le sequenze di interesse, e persino generare un report di qualità. Un extra verso gli ultimi esercizi ti darà gli strumenti per una valutazione della qualità in parallelo, strizzando l’occhio a Rqc. Ancora più interessante: per questo userai sequenze del genoma di piante!

Exercise 1: File di sequenza Exercise 2: Perché fastq?Exercise 3: Lettura dei file Exercise 4: Esplorare un file fastq

Esercizio attuale

Exercise 5: Estrai un campione da un file fastq Exercise 6: Qualità delle sequenze Exercise 7: Esplorare la qualità delle sequenze Exercise 8: Grafico della qualità di base Exercise 9: Crea il tuo grafico di frequenza dei nucleotidi Exercise 10: Confronta e filtra Exercise 11: Filtrare le read al volo!Exercise 12: Rimozione dei duplicati Exercise 13: Ancora filtri!Exercise 14: Valutazioni multiple Exercise 15: Rappresentare la qualità media per ciclo Exercise 16: Introduzione a Bioconductor