Fazendo resumos agrupados da ausência de dados

Agora que você pode criar dados nabulares, vamos usá-los para explorar os dados. Vamos calcular estatísticas de resumo com base na ausência de dados de outra variável.

Para fazer isso, vamos seguir estas etapas:

Primeiro, bind_shadow() transforma os dados em dados nabulares.
Em seguida, faça alguns resumos nos dados usando group_by() e summarize() para calcular a média e o desvio padrão, com as funções mean() e sd().

Este exercício faz parte do curso

Lidando com dados ausentes em R

Instruções do exercício

Para o conjunto de dados oceanbuoys:
Aplique bind_shadow(), depois group_by() para a ausência de dados de humidity (humidity_NA) e calcule as médias e desvios padrão para o vento leste-oeste (wind_ew) usando summarize() do dplyr.
Repita o processo, mas calculando resumos para o vento norte-sul (wind_ns).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# `bind_shadow()` and `group_by()` humidity missingness (`humidity_NA`)
oceanbuoys %>%
  ___() %>%
  group_by(___) %>% 
  summarize(wind_ew_mean = mean(___), # calculate mean of wind_ew
            wind_ew_sd = ___)) # calculate standard deviation of wind_ew
  
# Repeat this, but calculating summaries for wind north south (`wind_ns`).
___ %>%
  ___ %>%
  group_by(___) %>%
  summarize(___ = ___(___),
            ___ = ___(___))

Editar e executar o código

Este exercício faz parte do curso

Lidando com dados ausentes em R

InicianteNível de habilidade

4.8+

Iniciar curso de graça

O Capítulo 1 apresenta dados ausentes, explicando o que são valores ausentes, como eles se comportam em R, como detectá-los e como contá-los. Em seguida, apresentamos resumos de dados ausentes e como resumir a ausência ao longo de casos, variáveis e como explorar por grupos dentro dos dados. Por fim, discutimos visualizações de dados ausentes, como produzir visualizações gerais para todo o conjunto de dados e por variáveis, casos e outros resumos, e como explorar isso por grupos.

Exercise 1: Introdução a dados ausentes Exercise 2: Usando e encontrando valores ausentes Exercise 3: Quantos valores ausentes existem?Exercise 4: Trabalhando com valores ausentes Exercise 5: Por que se preocupar com valores ausentes?Exercise 6: Resumindo a ausência de dados Exercise 7: Tabulando valores ausentes Exercise 8: Outros resumos de ausência de dados Exercise 9: Como visualizar valores ausentes?Exercise 10: Suas primeiras visualizações de dados ausentes Exercise 11: Visualizando casos e variáveis com valores ausentes Exercise 12: Visualizando padrões de ausência

No segundo capítulo, você vai aprender a descobrir valores ausentes ocultos como "missing" ou "N/A" e substituí-los por `NA`. Você vai aprender a lidar de forma eficiente com valores ausentes implícitos — aqueles que estão ausentes por implicação, mas não aparecem explicitamente. Também abordamos como explorar a dependência dos dados ausentes, discutindo Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR) e o que isso significa para a sua análise de dados.

Exercise 1: Buscando e substituindo valores ausentes Exercise 2: Usando miss_scan_count Exercise 3: Usando replace_with_na Exercise 4: Usando as variantes com escopo de replace_with_na Exercise 5: Preenchendo valores ausentes para baixo Exercise 6: Corrija ausências implícitas usando complete()Exercise 7: Corrija ausências explícitas usando fill()Exercise 8: Usando complete() e fill() juntos Exercise 9: Dependência de dados ausentes Exercise 10: Diferenças entre MCAR e MAR Exercise 11: Explorando a dependência da ausência de dados Exercise 12: Explorando mais a dependência da ausência de dados

Neste capítulo, você vai aprender fluxos de trabalho para lidar com dados ausentes. Apresentamos estruturas de dados especiais, a shadow matrix e os dados nabular, e mostramos como usá-las em fluxos de trabalho para explorar dados ausentes, de modo que você possa associar resumos de ausência aos valores nos dados. Você vai aprender a usar o ggplot para explorar e visualizar como os valores mudam à medida que outras variáveis se tornam ausentes. Por fim, você aprende a visualizar ausência em duas variáveis e como e por que visualizar ausências em um gráfico de dispersão.

Exercise 1: Ferramentas para explorar dependência de dados ausentes Exercise 2: Criando dados de matriz sombra Exercise 3: Fazendo resumos agrupados da ausência de dados

Exercício atual

Exercise 4: Explorando mais combinações de valores ausentes Exercise 5: Visualizando ausências em uma variável Exercise 6: Dados nabular e preenchimento por ausência Exercise 7: Dados nabular e resumo por ausência de dados Exercise 8: Explorar a variação por ausência de dados: boxplots Exercise 9: Visualizando ausências em duas variáveis Exercise 10: Explorando dados ausentes com gráficos de dispersão Exercise 11: Usando facetas para explorar valores ausentes Exercise 12: Facetando para explorar ausências (vários gráficos)

Neste capítulo, você vai aprender a preencher os valores ausentes nos seus dados, processo conhecido como imputação. Você vai aprender a imputar e rastrear valores ausentes e quais são as características boas e ruins das imputações, para que possa explorar, visualizar e avaliar os dados imputados em relação aos valores originais. Você vai aprender a usar, avaliar e comparar diferentes modelos de imputação e explorar como diferentes modelos de imputação afetam as inferências que você pode tirar dos modelos.

Exercise 1: Preenchendo as lacunas Exercise 2: Imputar dados abaixo do intervalo com dados nabulares Exercise 3: Visualizar valores imputados em um gráfico de dispersão Exercise 4: Crie um histograma dos dados imputados Exercise 5: O que torna uma imputação boa Exercise 6: Avaliando imputações ruins Exercise 7: Avaliando imputações: a escala Exercise 8: Avaliando imputações: Em muitas variáveis Exercise 9: Realizando imputações Exercise 10: Usando simputation para imputar dados Exercise 11: Avaliando e comparando imputações Exercise 12: Avaliando imputações (muitos modelos e variáveis)Exercise 13: Avaliando imputações e modelos Exercise 14: Combinando e comparando vários modelos de imputação Exercise 15: Avaliando os diferentes parâmetros no modelo Exercise 16: Lição final