Filtrar duplicados
Las tablas data.table heart_2 y cardio_2 que filtraste por valores ausentes están disponibles en tu espacio de trabajo. Tu objetivo es seleccionar una sonda representativa por gen en cada data.table para que cada gen tenga una única entrada en el resultado del join. Quieres seleccionar la sonda con la asociación más débil para obtener una estimación conservadora de la reproducibilidad. La columna "change" contiene el cambio de pliegue en los niveles de expresión para cada sonda entre los sujetos sanos y los que padecen enfermedad cardíaca*. La columna "pvalue" contiene el valor p de la fuerza de la asociación. Las filas están ordenadas por fuerza de asociación decreciente (por valor p creciente).
* Nota: las asociaciones se generan aleatoriamente; no representan ningún hallazgo biológico real ni un conjunto de datos real.
Este ejercicio forma parte del curso
Unir datos con data.table en R
Instrucciones del ejercicio
- Usa la función
unique()(docs) para eliminar entradas duplicadas en la columna"gene"tanto enheart_2como encardio_2. Conserva solo la última fila de cada gen. - Haz un inner join de
cardio_3conheart_3usando la funciónmerge(). Añade".heart"y".cardio"como sufijos a las columnas"change"y"pvalue".
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___
# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible