ComeçarComece de graça

Limpeza de dados do NHANES

Durante a limpeza dos dados, descobrimos que ninguém com menos de 16 anos recebeu o tratamento. Lembre-se de que estamos supondo que a variável que indica se um médico já aconselhou a reduzir gordura ou calorias na dieta representa aconselhamento nutricional, nosso tratamento. Vamos manter no conjunto de dados apenas pacientes com mais de 16 anos.

Você também deve ter notado que as configurações padrão do ggplot2 excluem quaisquer observações com variável dependente ausente, neste caso, peso corporal. Uma opção para lidar com os pesos ausentes é a imputação, que pode ser implementada com o pacote simputation. Imputação é uma técnica para lidar com valores faltantes na qual você os substitui por uma estatística-resumo, como média ou mediana, ou usa um modelo para prever um valor a utilizar.

Vamos usar impute_median(), que recebe um conjunto de dados e a variável a imputar ou uma fórmula para imputação como argumentos. Por exemplo, impute_median(ToothGrowth, len ~ dose) preencheria quaisquer valores ausentes na variável len com a mediana de len por dose. Assim, se um porquinho-da-índia que recebeu uma dose de 2,0 tivesse um valor ausente para len, ele seria preenchido com a mediana de len para porquinhos-da-índia com dose de 2,0.

Este exercício faz parte do curso

Planejamento de Experimentos em R

Ver curso

Instruções do exercício

  • Crie nhanes_filter usando filter() para manter no conjunto apenas quem tem mais de 16 anos, sem incluir quem tem 16. A idade está na variável ridageyr.
  • Carregue simputation. Use impute_median() para preencher as observações faltantes de bmxwt em nhanes_filter, agrupando por riagendr.
  • Recodifique a variável nhanes_final$mcq365d, definindo qualquer observação com valor 9 para 2. Verifique se a recodificação funcionou com count().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Filter to keep only those 16+
nhanes_filter <- ___ %>% filter(___)

# Load simputation & impute bmxwt by riagendr
___
nhanes_final <- impute_median(___, ___)

# Recode mcq365d with recode() & examine with count()
nhanes_final$mcq365d <- recode(nhanes_final$mcq365d, 
                               `1` = 1,
                               `2` = 2,
                               `9` = ___)
___ %>% ___
Editar e executar o código