Een fastq-bestand verkennen
Fastq-bestanden bevatten meestal duizenden of miljoenen reads en kunnen erg groot worden! Voor deze oefening gebruik je een kleine fastq-subset van 500 reads, die gemakkelijk in het geheugen past en volledig kan worden ingelezen met de functie readFastq().
Het oorspronkelijke sequentiebestand komt van Arabidopsis thaliana en is geleverd door het UC Davis Genome Center. Het toegangsnumer is SRR1971253 en is gedownload uit de Sequence Read Archive (SRA). Het bevat DNA uit bladmateriaal, gepoold en gesequenst op een Illumina HiSeq 2000. Deze sequenties zijn single-read met een lengte van 50 base pairs (bp).
fqsample is een ShortReadQ-object en bevat informatie over reads, kwaliteitscores en ids. Jij bent aan de beurt om het te verkennen!
Deze oefening maakt deel uit van de cursus
Introductie tot Bioconductor in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load ShortRead
___
# Print fqsample
___