Maak je eigen nucleotidenfrequentie-plot

Tijd om de frequentie van nucleotiden per cycle van dichterbij te bekijken. De beste manier om dit te doen is met een visualisatie. Meestal zijn de eerste cycles wat willekeurig, en daarna zou de frequentie van nucleotiden moeten stabiliseren naarmate er meer cycles komen.

Deze oefening gebruikt het volledige fastq-bestand SRR1971253, met wat voorbewerking voor je gedaan:

library(ShortRead)
fqsample <- readFastq(dirPath = "data", 
                      pattern = "SRR1971253.fastq")
# extract reads                      
abc <- alphabetByCycle(sread(fqsample))

# Transpose nucleotides A, C, G, T per column
nucByCycle <- t(abc[1:4,]) 

# Tidy dataset
nucByCycle <- nucByCycle %>% 
  as_tibble() %>% # convert to tibble
  mutate(cycle = 1:50) # add cycle numbers

Jouw taak is om met tidyverse-functies een plot te maken van de nucleotidenfrequentie per cycle!

Deze oefening maakt deel uit van de cursus

Introductie tot Bioconductor in R

Oefeninstructies

Gebruik glimpse() op het object nucByCycle om de data te bekijken.
Zet de nucleotideletters in alphabet op lang formaat met pivot_longer() en maak een nieuwe kolom count.
Maak een lijnplot met cycle op de x-as en count op de y-as, met de kleur bepaald door alphabet.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Glimpse nucByCycle
___

# Create a line plot of cycle vs. count
nucByCycle %>% 
  # Gather the nucleotide letters in alphabet and get a new count column
  pivot_longer(-cycle, names_to = ___, values_to = ___) %>% 
  ggplot(aes(x = ___, y =  ___, color = ___)) +
  geom_line(size = 0.5 ) +
  labs(y = "Frequency") +
  theme_bw() +
  theme(panel.grid.major.x = element_blank())

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Bioconductor in R

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk ga je praktisch aan de slag met Bioconductor. Bioconductor is de gespecialiseerde repository voor bio-informaticasoftware, ontwikkeld en onderhouden door de R-community. Je leert hoe je Bioconductor-packages installeert en gebruikt. Je maakt kennis met S4-objecten en -functies, omdat de meeste packages binnen Bioconductor van S4 overerven. Daarnaast gebruik je een echte genomische gegevensset van een schimmel om het BSgenome-package te verkennen.

Exercise 1: Introductie van het Bioconductor-project Exercise 2: Bioconductor-versie Exercise 3: BiocManager om pakketten te installeren Exercise 4: De rol van S4 in Bioconductor Exercise 5: S4-classdefinitie Exercise 6: Interactie met klassen Exercise 7: Kennismaken met de biologie van genomische gegevenssets Exercise 8: Het gistgenoom ontdekken Exercise 9: Het gistgenoom opdelen Exercise 10: Beschikbare genomen

Biostrings zijn geheugenefficiënte string-containers. Biostrings heeft match-algoritmes en andere hulpmiddelen voor snelle bewerking van grote biologische sequenties of sets van sequenties. Hoe efficiënt kun je worden door de juiste containers voor je sequenties te gebruiken? Je leert over alfabetten en sequentiebewerking met behulp van het kleine genoom van een virus.

Exercise 1: Introductie tot Biostrings Exercise 2: De Zikavirus-sequentie verkennen Exercise 3: Biostrings-containers Exercise 4: Biostrings manipuleren Exercise 5: Omgaan met sequenties Exercise 6: Van een set naar één enkele sequentie Exercise 7: Een set subselecteren Exercise 8: Veelgebruikte functies voor sequentiebewerking Exercise 9: Waarom zijn we geïnteresseerd in patronen?Exercise 10: Zoeken naar een patroon Exercise 11: Palindromen vinden Exercise 12: Een geconserveerde regio vinden binnen zes frames Exercise 13: Op zoek naar een match

De IRanges- en GenomicRanges-packages zijn ook containers voor het opslaan en manipuleren van genomische intervallen en variabelen die langs een genoom zijn gedefinieerd. Deze packages bieden infrastructuur en ondersteuning aan veel andere Bioconductor-packages dankzij hun rijke functionaliteit. Je leert hoe je deze containers en hun bijbehorende metadata gebruikt voor de bewerking van je sequenties. De gegevensset die je bekijkt is een speciaal gen van interesse in het menselijk genoom.

Exercise 1: IRanges en genomische structuren Exercise 2: IRanges Exercise 3: IRanges construeren Exercise 4: Interactie met IRanges Exercise 5: Gen van interesse Exercise 6: Van tabelgegevens naar Genomic Ranges Exercise 7: GenomicRanges-accessors Exercise 8: ABCD1-mutatie Exercise 9: Menselijk genoom chromosoom X Exercise 10: Collecties van GRanges manipuleren Exercise 11: Een sequentievenster Exercise 12: Zit het erbij?Exercise 13: Meer over ABCD1 Exercise 14: Hoeveel transcripten?Exercise 15: Van een GRangesList-object naar een GRanges-object

ShortRead is de package voor het inlezen, bewerken en beoordelen van fasta- en fastq-bestanden. Je kunt sequenties van interesse subsetten, trimmen en filteren, en zelfs een kwaliteitsrapport maken. Als extraatje krijg je in de laatste oefeningen de tools voor parallelle kwaliteitsbeoordeling, knipoog, knipoog: Rqc. Extra leuk: hiervoor gebruik je plantengenoomsequenties!

Exercise 1: Sequentie-bestanden Exercise 2: Waarom fastq?Exercise 3: Bestanden inlezen Exercise 4: Een fastq-bestand verkennen Exercise 5: Neem een steekproef uit een fastq-bestand Exercise 6: Sequentiekwaliteit Exercise 7: De kwaliteit van sequenties verkennen Exercise 8: Plot van basekwaliteit Exercise 9: Maak je eigen nucleotidenfrequentie-plot

Huidige oefening

Exercise 10: Matchen en filteren Exercise 11: On-the-fly reads filteren!Exercise 12: Duplicaten verwijderen Exercise 13: Meer filteren!Exercise 14: Meervoudige beoordeling Exercise 15: Fietsgemiddelde kwaliteit plotten Exercise 16: Introductie tot Bioconductor