Gegroepeerde samenvattingen van ontbrekende waarden maken

Nu je nabular data kunt maken, gaan we die gebruiken om de gegevens te verkennen. We berekenen samenvattende statistieken op basis van het ontbreken van een andere variabele.

Hiervoor gebruiken we de volgende stappen:

Eerst zet bind_shadow() de data om in nabular data.
Vervolgens voer je enkele samenvattingen uit met group_by() en summarize() om het gemiddelde en de standaarddeviatie te berekenen met de functies mean() en sd().

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

Oefeninstructies

Voor de oceanbuoys-gegevensset:
Gebruik bind_shadow(), daarna group_by() op het ontbreken van humidity (humidity_NA) en bereken de gemiddelden en standaarddeviaties voor wind oost-west (wind_ew) met summarize() uit dplyr.
Herhaal dit, maar bereken nu samenvattingen voor wind noord-zuid (wind_ns).

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# `bind_shadow()` and `group_by()` humidity missingness (`humidity_NA`)
oceanbuoys %>%
  ___() %>%
  group_by(___) %>% 
  summarize(wind_ew_mean = mean(___), # calculate mean of wind_ew
            wind_ew_sd = ___)) # calculate standard deviation of wind_ew
  
# Repeat this, but calculating summaries for wind north south (`wind_ns`).
___ %>%
  ___ %>%
  group_by(___) %>%
  summarize(___ = ___(___),
            ___ = ___(___))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

SkillTag.level.beginnerSkillTag.label

4.8+

Begin gratis met de cursus

Hoofdstuk 1 maakt je wegwijs in ontbrekende data: wat ontbrekende waarden zijn, hoe ze zich gedragen in R, hoe je ze detecteert en telt. Daarna introduceren we overzichten van ontbrekende data en hoe je ontbrekendheid samenvat over cases en variabelen, en hoe je dit binnen groepen in de data verkent. Tot slot bespreken we visualisaties van ontbrekende data: hoe je overzichtsvisualisaties maakt voor de hele gegevensset en voor variabelen, cases en andere samenvattingen, en hoe je dit per groep kunt onderzoeken.

Exercise 1: Introductie tot ontbrekende data Exercise 2: Ontbrekende waarden gebruiken en vinden Exercise 3: Hoeveel missende waarden zijn er?Exercise 4: Werken met ontbrekende waarden Exercise 5: Waarom zou je je druk maken om ontbrekende waarden?Exercise 6: Ontbrekende waarden samenvatten Exercise 7: Missings in een tabel samenvatten Exercise 8: Andere samenvattingen van ontbrekende waarden Exercise 9: Hoe visualiseren we ontbrekende waarden?Exercise 10: Je eerste visualisaties van ontbrekende data Exercise 11: Missende cases en variabelen visualiseren Exercise 12: Ontbreekpatronen visualiseren

In hoofdstuk twee leer je verborgen ontbrekende waarden zoals "missing" of "N/A" op te sporen en te vervangen door `NA`. Je leert hoe je efficiënt omgaat met impliciet ontbrekende waarden — waarden die eigenlijk ontbreken, maar niet expliciet vermeld staan. We behandelen ook hoe je afhankelijkheid in ontbrekende data onderzoekt, met bespreking van Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR), en wat dit betekent voor je data-analyse.

Exercise 1: Zoeken naar en vervangen van ontbrekende waarden Exercise 2: miss_scan_count gebruiken Exercise 3: replace_with_na gebruiken Exercise 4: Scoped-varianten van replace_with_na gebruiken Exercise 5: Ontbrekende waarden omlaag invullen Exercise 6: Los impliciete missings op met complete()Exercise 7: Los expliciete missings op met fill()Exercise 8: complete() en fill() samen gebruiken Exercise 9: Afhankelijkheid van missende data Exercise 10: Verschillen tussen MCAR en MAR Exercise 11: Afhankelijkheid van ontbrekende waarden verkennen Exercise 12: Verdiepend verkennen van afhankelijkheid van ontbrekende waarden

In dit hoofdstuk leer je workflows voor werken met ontbrekende data. We introduceren speciale datastructuren, de shadow matrix en nabular data, en laten zien hoe je deze inzet in workflows om ontbrekende data te verkennen, zodat je samenvattingen van ontbrekendheid kunt koppelen aan waarden in de data. Je leert hoe je met ggplot verkent en visualiseert hoe waarden veranderen terwijl andere variabelen ontbreken. Tot slot leer je ontbrekendheid over twee variabelen te visualiseren, en hoe en waarom je ontbrekende waarden in een scatterplot visualiseert.

Exercise 1: Tools om afhankelijkheid van missende data te verkennen Exercise 2: Schaduwmatrixgegevens maken Exercise 3: Gegroepeerde samenvattingen van ontbrekende waarden maken

Huidige oefening

Exercise 4: Verder verkennen van meer combinaties van missingness Exercise 5: Missings in één variabele visualiseren Exercise 6: Nabular data en vullen op basis van ontbrekendheid Exercise 7: Nabulaire data en samenvatten op ontbrekendheid Exercise 8: Variatie verkennen per ontbrekendheid: boxplots Exercise 9: Missings visualiseren over twee variabelen Exercise 10: Missende data verkennen met scatterplots Exercise 11: Facetten gebruiken om missings te verkennen Exercise 12: Facetting om ontbrekende waarden te verkennen (meerdere grafieken)

In dit hoofdstuk leer je hoe je ontbrekende waarden in je data kunt aanvullen, oftewel imputatie. Je leert hoe je imputeert en ontbrekende waarden bijhoudt, en wat de sterke en zwakke punten van imputaties zijn, zodat je de geïmputeerde data kunt verkennen, visualiseren en beoordelen ten opzichte van de oorspronkelijke waarden. Je leert hoe je verschillende imputatiemodellen gebruikt, beoordeelt en vergelijkt, en onderzoekt hoe verschillende imputatiemodellen de conclusies beïnvloeden die je uit de modellen kunt trekken.

Exercise 1: De lege plekken invullen Exercise 2: Imputeer data onder het bereik met nabular-data Exercise 3: Gëimputeerde waarden visualiseren in een scatterplot Exercise 4: Maak een histogram van geïmputeerde data Exercise 5: Wat maakt een goede imputatie Exercise 6: Slechte imputaties beoordelen Exercise 7: Imputaties beoordelen: de schaal Exercise 8: Imputaties beoordelen: Over veel variabelen Exercise 9: Imputaties uitvoeren Exercise 10: Gegevens imputeren met simputation Exercise 11: Imputaties evalueren en vergelijken Exercise 12: Imputaties beoordelen (meerdere modellen & variabelen)Exercise 13: Imputaties en modellen evalueren Exercise 14: Veel imputatiemodellen combineren en vergelijken Exercise 15: De verschillende parameters in het model evalueren Exercise 16: Laatste les