Limpeza de dados do NHANES
Durante a limpeza dos dados, descobrimos que ninguém com menos de 16 anos recebeu o tratamento. Lembre-se de que estamos supondo que a variável que indica se um médico já aconselhou a reduzir gordura ou calorias na dieta representa aconselhamento nutricional, nosso tratamento. Vamos manter no conjunto de dados apenas pacientes com mais de 16 anos.
Você também deve ter notado que as configurações padrão do ggplot2 excluem quaisquer observações com variável dependente ausente, neste caso, peso corporal. Uma opção para lidar com os pesos ausentes é a imputação, que pode ser implementada com o pacote simputation. Imputação é uma técnica para lidar com valores faltantes na qual você os substitui por uma estatística-resumo, como média ou mediana, ou usa um modelo para prever um valor a utilizar.
Vamos usar impute_median(), que recebe um conjunto de dados e a variável a imputar ou uma fórmula para imputação como argumentos. Por exemplo, impute_median(ToothGrowth, len ~ dose) preencheria quaisquer valores ausentes na variável len com a mediana de len por dose. Assim, se um porquinho-da-índia que recebeu uma dose de 2,0 tivesse um valor ausente para len, ele seria preenchido com a mediana de len para porquinhos-da-índia com dose de 2,0.
Este exercício faz parte do curso
Planejamento de Experimentos em R
Instruções do exercício
- Crie
nhanes_filterusandofilter()para manter no conjunto apenas quem tem mais de 16 anos, sem incluir quem tem 16. A idade está na variávelridageyr. - Carregue
simputation. Useimpute_median()para preencher as observações faltantes debmxwtemnhanes_filter, agrupando porriagendr. - Recodifique a variável
nhanes_final$mcq365d, definindo qualquer observação com valor 9 para 2. Verifique se a recodificação funcionou comcount().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Filter to keep only those 16+
nhanes_filter <- ___ %>% filter(___)
# Load simputation & impute bmxwt by riagendr
___
nhanes_final <- impute_median(___, ___)
# Recode mcq365d with recode() & examine with count()
nhanes_final$mcq365d <- recode(nhanes_final$mcq365d,
`1` = 1,
`2` = 2,
`9` = ___)
___ %>% ___