Duplikate filtern
Die Datentabellen heart_2 und cardio_2, die du zuvor auf fehlende Werte gefiltert hast, stehen in deinem Arbeitsbereich bereit. Dein Ziel ist es, in jeder data.table pro Gen genau eine repräsentative Probe auszuwählen, sodass jedes Gen im Join-Ergebnis nur einen einzelnen Eintrag hat. Du möchtest die Probe mit der schwächsten Assoziation wählen, um eine konservative Schätzung der Reproduzierbarkeit zu erhalten. Die Spalte "change" enthält die Fold-Change-Werte der Expressionsniveaus für jede Probe zwischen gesunden Personen und solchen mit Herzkrankheit*. Die Spalte "pvalue" enthält den p-Wert für die Stärke der Assoziation. Die Zeilen sind in absteigender Assoziationsstärke sortiert (entspricht aufsteigenden p-Werten).
* Hinweis: Die Assoziationen sind zufällig generiert und repräsentieren keinen tatsächlichen biologischen Befund oder realen Datensatz.
Diese Übung ist Teil des Kurses
Daten mit data.table in R verknüpfen
Anleitung zur Übung
- Verwende die Funktion
unique()(Docs), um doppelte Einträge in der Spalte"gene"sowohl inheart_2als auch incardio_2zu entfernen. Behalte nur die letzte Zeile für jedes Gen. - Führe einen Inner Join von
cardio_3aufheart_3mit der Funktionmerge()durch. Hänge die Suffixe".heart"und".cardio"an die Spalten"change"und"pvalue"an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___
# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible