Duplikate entfernen

Es ist immer eine gute Praxis zu prüfen, dass deine Sequenz-Reads nicht zu viele Duplikate enthalten.

# Sample with duplicates of class: ShortReadQ
dfqsample

# Get the reads from dfqsample
mydReads <- sread(dfqsample)

# Counting duplicates
table(srduplicated(mydReads))

Wie würdest du doppelte Reads in einer Datei entfernen? Achte darauf, welche Bedingung dieser Filter haben sollte.

Diese Übung ist Teil des Kurses

Einführung in Bioconductor in R

Kurs anzeigen

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten

Diese Übung ist Teil des Kurses

Einführung in Bioconductor in R

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

77 reviews

Kurs kostenlos starten

In diesem Kapitel arbeitest du praktisch mit Bioconductor. Bioconductor ist das spezialisierte Repository für Bioinformatik-Software, entwickelt und gepflegt von der R-Community. Du lernst, wie man Bioconductor-Pakete installiert und verwendet. Du wirst mit S4-Objekten und -Funktionen vertraut gemacht, denn die meisten Pakete in Bioconductor leiten sich von S4 ab. Außerdem nutzt du einen realen genomischen Datensatz eines Pilzes, um das Paket BSgenome zu erkunden.

Exercise 1: Einführung in das Bioconductor-Projekt Exercise 2: Bioconductor-Version Exercise 3: BiocManager zum Installieren von Paketen Exercise 4: Die Rolle von S4 in Bioconductor Exercise 5: S4-Klassendefinition Exercise 6: Interaktion mit Klassen Exercise 7: Einführung in die Biologie genomischer Datensätze Exercise 8: Das Hefegenom entdecken Exercise 9: Das Hefegenom in Abschnitte teilen Exercise 10: Verfügbare Genome

Biostrings sind speichereffiziente String-Container. Biostrings bietet Abgleichsalgorithmen und weitere Hilfsfunktionen für die schnelle Verarbeitung großer biologischer Sequenzen oder Sequenzmengen. Wie effizient kannst du werden, wenn du die richtigen Container für deine Sequenzen nutzt? Du lernst etwas über Alphabete und die Manipulation von Sequenzen anhand des winzigen Genoms eines Virus.

Exercise 1: Einführung in Biostrings Exercise 2: Die Zika-Virus-Sequenz erkunden Exercise 3: Biostrings-Container Exercise 4: Biostrings manipulieren Exercise 5: Umgang mit Sequenzen Exercise 6: Von einer Menge zu einer einzelnen Sequenz Exercise 7: Eine Menge subsetten Exercise 8: Häufige Funktionen zur Sequenzmanipulation Exercise 9: Warum interessieren wir uns für Muster?Exercise 10: Nach einem Muster suchen Exercise 11: Palindrome finden Exercise 12: Eine konservierte Region in sechs Leserahmen finden Exercise 13: Nach einem Match suchen

Die Pakete IRanges und GenomicRanges sind ebenfalls Container zum Speichern und Bearbeiten genomischer Intervalle und von entlang eines Genoms definierten Variablen. Diese Pakete stellen Infrastruktur und Unterstützung für viele weitere Bioconductor-Pakete bereit – dank ihrer umfangreichen Funktionen. Du lernst, wie du diese Container und die zugehörigen Metadaten zur Manipulation deiner Sequenzen nutzt. Der Datensatz, den du dir ansiehst, ist ein besonderes Gen von Interesse im menschlichen Genom.

Exercise 1: IRanges und genomische Strukturen Exercise 2: IRanges Exercise 3: IRanges konstruieren Exercise 4: Mit IRanges arbeiten Exercise 5: Gen von Interesse Exercise 6: Von tabellarischen Daten zu Genomic Ranges Exercise 7: GenomicRanges-Accessoren Exercise 8: ABCD1-Mutation Exercise 9: X-Chromosom des menschlichen Genoms Exercise 10: Sammlungen von GRanges bearbeiten Exercise 11: Ein Sequenzfenster Exercise 12: Ist es da?Exercise 13: Mehr über ABCD1 Exercise 14: Wie viele Transkripte?Exercise 15: Vom GRangesList-Objekt zu einem GRanges-Objekt

ShortRead ist das Paket zum Einlesen, Bearbeiten und Beurteilen von FASTA- und FASTQ-Dateien. Du kannst Sequenzen von Interesse auswählen, trimmen und filtern und sogar einen Qualitätsbericht erstellen. Als Bonus in den letzten Übungen bekommst du Werkzeuge für eine parallele Qualitätsbewertung an die Hand – zwinker, zwinker: Rqc. Besonders spannend: Dafür verwendest du Pflanzengenom-Sequenzen!

Exercise 1: Sequenzdateien Exercise 2: Warum fastq?Exercise 3: Dateien einlesen Exercise 4: Ein fastq-File erkunden Exercise 5: Eine Stichprobe aus einer fastq-Datei ziehen Exercise 6: Sequenzqualität Exercise 7: Sequenzqualität untersuchen Exercise 8: Basenqualitäts-Plot Exercise 9: Erstelle deinen eigenen Plot zur Nukleotidhäufigkeit Exercise 10: Abgleichen und filtern Exercise 11: Reads unterwegs filtern!Exercise 12: Duplikate entfernen

Aktuelle Übung

Exercise 13: Mehr Filtern!Exercise 14: Mehrfache Bewertung Exercise 15: Zyklusbezogene Durchschnittsqualität plotten Exercise 16: Einführung in Bioconductor