Filtrando duplicatas

As tabelas data.table heart_2 e cardio_2 que você filtrou para valores ausentes estão disponíveis no seu ambiente. Seu objetivo é selecionar uma sonda representativa por gene em cada data.table, de modo que cada gene tenha apenas uma única entrada no resultado do join. Você quer escolher a sonda com a associação mais fraca para obter uma estimativa conservadora de reprodutibilidade. A coluna "change" contém a variação (fold change) nos níveis de expressão de cada sonda entre indivíduos saudáveis e aqueles com doença cardíaca*. A coluna "pvalue" contém o p-valor da força de associação. As linhas estão ordenadas por força de associação decrescente (por p-valor crescente).

* Observação: as associações são geradas aleatoriamente, não representam achados biológicos reais nem um conjunto de dados real.

Este exercício faz parte do curso

Combinando dados com data.table em R

Ver curso

Instruções do exercício

Use a função unique() (docs) para remover entradas duplicadas na coluna "gene" em heart_2 e cardio_2. Mantenha apenas a última linha de cada gene.
Faça um inner join de cardio_3 com heart_3 usando a função merge(). Acrescente ".heart" e ".cardio" como sufixos às colunas "change" e "pvalue".

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Keep only the last probe for each gene
heart_3 <- ___
cardio_3 <- ___

# Inner join
reproducible <- ___(heart_3, cardio_3, by = "gene", ___)
reproducible

Editar e executar o código