Filtrar duplicados

Las tablas data.table heart_2 y cardio_2 que filtraste por valores ausentes están disponibles en tu espacio de trabajo. Tu objetivo es seleccionar una sonda representativa por gen en cada data.table para que cada gen tenga una única entrada en el resultado del join. Quieres seleccionar la sonda con la asociación más débil para obtener una estimación conservadora de la reproducibilidad. La columna "change" contiene el cambio de pliegue en los niveles de expresión para cada sonda entre los sujetos sanos y los que padecen enfermedad cardíaca*. La columna "pvalue" contiene el valor p de la fuerza de la asociación. Las filas están ordenadas por fuerza de asociación decreciente (por valor p creciente).

* Nota: las asociaciones se generan aleatoriamente; no representan ningún hallazgo biológico real ni un conjunto de datos real.

Este ejercicio forma parte del curso

Unir datos con data.table en R

Ver curso

Instrucciones del ejercicio

Usa la función unique() (docs) para eliminar entradas duplicadas en la columna "gene" tanto en heart_2 como en cardio_2. Conserva solo la última fila de cada gen.
Haz un inner join de cardio_3 con heart_3 usando la función merge(). Añade ".heart" y ".cardio" como sufijos a las columnas "change" y "pvalue".

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___

# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible

Editar y ejecutar código