Een fastq-bestand verkennen

Fastq-bestanden bevatten meestal duizenden of miljoenen reads en kunnen erg groot worden! Voor deze oefening gebruik je een kleine fastq-subset van 500 reads, die gemakkelijk in het geheugen past en volledig kan worden ingelezen met de functie readFastq().

Het oorspronkelijke sequentiebestand komt van Arabidopsis thaliana en is geleverd door het UC Davis Genome Center. Het toegangsnumer is SRR1971253 en is gedownload uit de Sequence Read Archive (SRA). Het bevat DNA uit bladmateriaal, gepoold en gesequenst op een Illumina HiSeq 2000. Deze sequenties zijn single-read met een lengte van 50 base pairs (bp).

fqsample is een ShortReadQ-object en bevat informatie over reads, kwaliteitscores en ids. Jij bent aan de beurt om het te verkennen!

Deze oefening maakt deel uit van de cursus

Introductie tot Bioconductor in R

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load ShortRead
___

# Print fqsample
___

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Bioconductor in R

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk ga je praktisch aan de slag met Bioconductor. Bioconductor is de gespecialiseerde repository voor bio-informaticasoftware, ontwikkeld en onderhouden door de R-community. Je leert hoe je Bioconductor-packages installeert en gebruikt. Je maakt kennis met S4-objecten en -functies, omdat de meeste packages binnen Bioconductor van S4 overerven. Daarnaast gebruik je een echte genomische gegevensset van een schimmel om het BSgenome-package te verkennen.

Exercise 1: Introductie van het Bioconductor-project Exercise 2: Bioconductor-versie Exercise 3: BiocManager om pakketten te installeren Exercise 4: De rol van S4 in Bioconductor Exercise 5: S4-classdefinitie Exercise 6: Interactie met klassen Exercise 7: Kennismaken met de biologie van genomische gegevenssets Exercise 8: Het gistgenoom ontdekken Exercise 9: Het gistgenoom opdelen Exercise 10: Beschikbare genomen

Biostrings zijn geheugenefficiënte string-containers. Biostrings heeft match-algoritmes en andere hulpmiddelen voor snelle bewerking van grote biologische sequenties of sets van sequenties. Hoe efficiënt kun je worden door de juiste containers voor je sequenties te gebruiken? Je leert over alfabetten en sequentiebewerking met behulp van het kleine genoom van een virus.

Exercise 1: Introductie tot Biostrings Exercise 2: De Zikavirus-sequentie verkennen Exercise 3: Biostrings-containers Exercise 4: Biostrings manipuleren Exercise 5: Omgaan met sequenties Exercise 6: Van een set naar één enkele sequentie Exercise 7: Een set subselecteren Exercise 8: Veelgebruikte functies voor sequentiebewerking Exercise 9: Waarom zijn we geïnteresseerd in patronen?Exercise 10: Zoeken naar een patroon Exercise 11: Palindromen vinden Exercise 12: Een geconserveerde regio vinden binnen zes frames Exercise 13: Op zoek naar een match

De IRanges- en GenomicRanges-packages zijn ook containers voor het opslaan en manipuleren van genomische intervallen en variabelen die langs een genoom zijn gedefinieerd. Deze packages bieden infrastructuur en ondersteuning aan veel andere Bioconductor-packages dankzij hun rijke functionaliteit. Je leert hoe je deze containers en hun bijbehorende metadata gebruikt voor de bewerking van je sequenties. De gegevensset die je bekijkt is een speciaal gen van interesse in het menselijk genoom.

Exercise 1: IRanges en genomische structuren Exercise 2: IRanges Exercise 3: IRanges construeren Exercise 4: Interactie met IRanges Exercise 5: Gen van interesse Exercise 6: Van tabelgegevens naar Genomic Ranges Exercise 7: GenomicRanges-accessors Exercise 8: ABCD1-mutatie Exercise 9: Menselijk genoom chromosoom X Exercise 10: Collecties van GRanges manipuleren Exercise 11: Een sequentievenster Exercise 12: Zit het erbij?Exercise 13: Meer over ABCD1 Exercise 14: Hoeveel transcripten?Exercise 15: Van een GRangesList-object naar een GRanges-object

ShortRead is de package voor het inlezen, bewerken en beoordelen van fasta- en fastq-bestanden. Je kunt sequenties van interesse subsetten, trimmen en filteren, en zelfs een kwaliteitsrapport maken. Als extraatje krijg je in de laatste oefeningen de tools voor parallelle kwaliteitsbeoordeling, knipoog, knipoog: Rqc. Extra leuk: hiervoor gebruik je plantengenoomsequenties!

Exercise 1: Sequentie-bestanden Exercise 2: Waarom fastq?Exercise 3: Bestanden inlezen Exercise 4: Een fastq-bestand verkennen

Huidige oefening

Exercise 5: Neem een steekproef uit een fastq-bestand Exercise 6: Sequentiekwaliteit Exercise 7: De kwaliteit van sequenties verkennen Exercise 8: Plot van basekwaliteit Exercise 9: Maak je eigen nucleotidenfrequentie-plot Exercise 10: Matchen en filteren Exercise 11: On-the-fly reads filteren!Exercise 12: Duplicaten verwijderen Exercise 13: Meer filteren!Exercise 14: Meervoudige beoordeling Exercise 15: Fietsgemiddelde kwaliteit plotten Exercise 16: Introductie tot Bioconductor