Erstelle deinen eigenen Plot zur Nukleotidhäufigkeit

Jetzt ist es an der Zeit, die Häufigkeit der Nukleotide pro Zyklus genauer anzuschauen. Am besten geht das mit einer Visualisierung. Üblicherweise sind die ersten Zyklen etwas zufällig, und anschließend sollte sich die Nukleotidhäufigkeit mit den folgenden Zyklen stabilisieren.

In dieser Übung wird die komplette fastq-Datei SRR1971253 verwendet, für die bereits etwas Vorverarbeitung erledigt wurde:

library(ShortRead)
fqsample <- readFastq(dirPath = "data", 
                      pattern = "SRR1971253.fastq")
# Reads extrahieren                      
abc <- alphabetByCycle(sread(fqsample))

# Nukleotide A, C, G, T spaltenweise transponieren
nucByCycle <- t(abc[1:4,]) 

# Datensatz aufräumen
nucByCycle <- nucByCycle %>% 
  as_tibble() %>% # in tibble umwandeln
  mutate(cycle = 1:50) # Zyklusnummern hinzufügen

Deine Aufgabe ist es, mit tidyverse-Funktionen einen Plot "Nucleotide Frequency by Cycle" zu erstellen!

Diese Übung ist Teil des Kurses

Einführung in Bioconductor in R

Anleitung zur Übung

Wende glimpse() auf das Objekt nucByCycle an, um einen Überblick über die Daten zu bekommen.
Pivotiere die Nukleotid-Buchstaben in alphabet mit pivot_longer() und erzeuge eine neue Spalte count.
Erstelle einen Liniendiagramm-Plot mit cycle auf der x-Achse und count auf der y-Achse, eingefärbt nach alphabet.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Glimpse nucByCycle
___

# Create a line plot of cycle vs. count
nucByCycle %>% 
  # Gather the nucleotide letters in alphabet and get a new count column
  pivot_longer(-cycle, names_to = ___, values_to = ___) %>% 
  ggplot(aes(x = ___, y =  ___, color = ___)) +
  geom_line(size = 0.5 ) +
  labs(y = "Frequency") +
  theme_bw() +
  theme(panel.grid.major.x = element_blank())

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Einführung in Bioconductor in R

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel arbeitest du praktisch mit Bioconductor. Bioconductor ist das spezialisierte Repository für Bioinformatik-Software, entwickelt und gepflegt von der R-Community. Du lernst, wie man Bioconductor-Pakete installiert und verwendet. Du wirst mit S4-Objekten und -Funktionen vertraut gemacht, denn die meisten Pakete in Bioconductor leiten sich von S4 ab. Außerdem nutzt du einen realen genomischen Datensatz eines Pilzes, um das Paket BSgenome zu erkunden.

Exercise 1: Einführung in das Bioconductor-Projekt Exercise 2: Bioconductor-Version Exercise 3: BiocManager zum Installieren von Paketen Exercise 4: Die Rolle von S4 in Bioconductor Exercise 5: S4-Klassendefinition Exercise 6: Interaktion mit Klassen Exercise 7: Einführung in die Biologie genomischer Datensätze Exercise 8: Das Hefegenom entdecken Exercise 9: Das Hefegenom in Abschnitte teilen Exercise 10: Verfügbare Genome

Biostrings sind speichereffiziente String-Container. Biostrings bietet Abgleichsalgorithmen und weitere Hilfsfunktionen für die schnelle Verarbeitung großer biologischer Sequenzen oder Sequenzmengen. Wie effizient kannst du werden, wenn du die richtigen Container für deine Sequenzen nutzt? Du lernst etwas über Alphabete und die Manipulation von Sequenzen anhand des winzigen Genoms eines Virus.

Exercise 1: Einführung in Biostrings Exercise 2: Die Zika-Virus-Sequenz erkunden Exercise 3: Biostrings-Container Exercise 4: Biostrings manipulieren Exercise 5: Umgang mit Sequenzen Exercise 6: Von einer Menge zu einer einzelnen Sequenz Exercise 7: Eine Menge subsetten Exercise 8: Häufige Funktionen zur Sequenzmanipulation Exercise 9: Warum interessieren wir uns für Muster?Exercise 10: Nach einem Muster suchen Exercise 11: Palindrome finden Exercise 12: Eine konservierte Region in sechs Leserahmen finden Exercise 13: Nach einem Match suchen

Die Pakete IRanges und GenomicRanges sind ebenfalls Container zum Speichern und Bearbeiten genomischer Intervalle und von entlang eines Genoms definierten Variablen. Diese Pakete stellen Infrastruktur und Unterstützung für viele weitere Bioconductor-Pakete bereit – dank ihrer umfangreichen Funktionen. Du lernst, wie du diese Container und die zugehörigen Metadaten zur Manipulation deiner Sequenzen nutzt. Der Datensatz, den du dir ansiehst, ist ein besonderes Gen von Interesse im menschlichen Genom.

Exercise 1: IRanges und genomische Strukturen Exercise 2: IRanges Exercise 3: IRanges konstruieren Exercise 4: Mit IRanges arbeiten Exercise 5: Gen von Interesse Exercise 6: Von tabellarischen Daten zu Genomic Ranges Exercise 7: GenomicRanges-Accessoren Exercise 8: ABCD1-Mutation Exercise 9: X-Chromosom des menschlichen Genoms Exercise 10: Sammlungen von GRanges bearbeiten Exercise 11: Ein Sequenzfenster Exercise 12: Ist es da?Exercise 13: Mehr über ABCD1 Exercise 14: Wie viele Transkripte?Exercise 15: Vom GRangesList-Objekt zu einem GRanges-Objekt

ShortRead ist das Paket zum Einlesen, Bearbeiten und Beurteilen von FASTA- und FASTQ-Dateien. Du kannst Sequenzen von Interesse auswählen, trimmen und filtern und sogar einen Qualitätsbericht erstellen. Als Bonus in den letzten Übungen bekommst du Werkzeuge für eine parallele Qualitätsbewertung an die Hand – zwinker, zwinker: Rqc. Besonders spannend: Dafür verwendest du Pflanzengenom-Sequenzen!

Exercise 1: Sequenzdateien Exercise 2: Warum fastq?Exercise 3: Dateien einlesen Exercise 4: Ein fastq-File erkunden Exercise 5: Eine Stichprobe aus einer fastq-Datei ziehen Exercise 6: Sequenzqualität Exercise 7: Sequenzqualität untersuchen Exercise 8: Basenqualitäts-Plot Exercise 9: Erstelle deinen eigenen Plot zur Nukleotidhäufigkeit

Aktuelle Übung

Exercise 10: Abgleichen und filtern Exercise 11: Reads unterwegs filtern!Exercise 12: Duplikate entfernen Exercise 13: Mehr Filtern!Exercise 14: Mehrfache Bewertung Exercise 15: Zyklusbezogene Durchschnittsqualität plotten Exercise 16: Einführung in Bioconductor