Filtrando duplicatas
As tabelas data.table heart_2 e cardio_2 que você filtrou para valores ausentes estão disponíveis no seu ambiente. Seu objetivo é selecionar uma sonda representativa por gene em cada data.table, de modo que cada gene tenha apenas uma única entrada no resultado do join. Você quer escolher a sonda com a associação mais fraca para obter uma estimativa conservadora de reprodutibilidade. A coluna "change" contém a variação (fold change) nos níveis de expressão de cada sonda entre indivíduos saudáveis e aqueles com doença cardíaca*. A coluna "pvalue" contém o p-valor da força de associação. As linhas estão ordenadas por força de associação decrescente (por p-valor crescente).
* Observação: as associações são geradas aleatoriamente, não representam achados biológicos reais nem um conjunto de dados real.
Este exercício faz parte do curso
Combinando dados com data.table em R
Instruções do exercício
- Use a função
unique()(docs) para remover entradas duplicadas na coluna"gene"emheart_2ecardio_2. Mantenha apenas a última linha de cada gene. - Faça um inner join de
cardio_3comheart_3usando a funçãomerge(). Acrescente".heart"e".cardio"como sufixos às colunas"change"e"pvalue".
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___
# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible