Duplikate filtern

Die Datentabellen heart_2 und cardio_2, die du zuvor auf fehlende Werte gefiltert hast, stehen in deinem Arbeitsbereich bereit. Dein Ziel ist es, in jeder data.table pro Gen genau eine repräsentative Probe auszuwählen, sodass jedes Gen im Join-Ergebnis nur einen einzelnen Eintrag hat. Du möchtest die Probe mit der schwächsten Assoziation wählen, um eine konservative Schätzung der Reproduzierbarkeit zu erhalten. Die Spalte "change" enthält die Fold-Change-Werte der Expressionsniveaus für jede Probe zwischen gesunden Personen und solchen mit Herzkrankheit*. Die Spalte "pvalue" enthält den p-Wert für die Stärke der Assoziation. Die Zeilen sind in absteigender Assoziationsstärke sortiert (entspricht aufsteigenden p-Werten).

* Hinweis: Die Assoziationen sind zufällig generiert und repräsentieren keinen tatsächlichen biologischen Befund oder realen Datensatz.

Diese Übung ist Teil des Kurses

Daten mit data.table in R verknüpfen

Kurs anzeigen

Anleitung zur Übung

Verwende die Funktion unique() (Docs), um doppelte Einträge in der Spalte "gene" sowohl in heart_2 als auch in cardio_2 zu entfernen. Behalte nur die letzte Zeile für jedes Gen.
Führe einen Inner Join von cardio_3 auf heart_3 mit der Funktion merge() durch. Hänge die Suffixe ".heart" und ".cardio" an die Spalten "change" und "pvalue" an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___

# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible

Code bearbeiten und ausführen