De verschillende parameters in het model evalueren

We imputeren onze data met een reden: we willen de data analyseren!

In dit voorbeeld zijn we geïnteresseerd in het voorspellen van de zeetemperatuur, dus bouwen we een lineair model dat de zeetemperatuur voorspelt.

We passen dit model toe op elk van de datasets die we hebben gemaakt en verkennen vervolgens de coëfficiënten in de data.

De objecten uit de vorige les (ocean_cc, ocean_imp_lm_wind, ocean_imp_lm_all en bound_models) zijn in de workspace geladen.

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

Oefeninstructies

Maak de model-samenvatting voor elke dataset met kolommen voor residuen met residuals, predict en tidy.
Verken de coëfficiënten in het model en zet het model met de hoogste schatting voor air_temp_c in het object best_model

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create the model summary for each dataset
model_summary <- bound_models %>% 
  group_by(imp_model) %>%
  nest() %>%
  mutate(mod = map(data, ~lm(sea_temp_c ~ air_temp_c + humidity + year, data = .)),
         res = map(mod, ___),
         pred = map(mod, ___),
         tidy = map(mod, ___))

# Explore the coefficients in the model
model_summary %>% 
	select(___,___) %>% 
	unnest()
best_model <- "___"

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Omgaan met ontbrekende gegevens in R

SkillTag.level.beginnerSkillTag.label

4.8+

Begin gratis met de cursus

Hoofdstuk 1 maakt je wegwijs in ontbrekende data: wat ontbrekende waarden zijn, hoe ze zich gedragen in R, hoe je ze detecteert en telt. Daarna introduceren we overzichten van ontbrekende data en hoe je ontbrekendheid samenvat over cases en variabelen, en hoe je dit binnen groepen in de data verkent. Tot slot bespreken we visualisaties van ontbrekende data: hoe je overzichtsvisualisaties maakt voor de hele gegevensset en voor variabelen, cases en andere samenvattingen, en hoe je dit per groep kunt onderzoeken.

Exercise 1: Introductie tot ontbrekende data Exercise 2: Ontbrekende waarden gebruiken en vinden Exercise 3: Hoeveel missende waarden zijn er?Exercise 4: Werken met ontbrekende waarden Exercise 5: Waarom zou je je druk maken om ontbrekende waarden?Exercise 6: Ontbrekende waarden samenvatten Exercise 7: Missings in een tabel samenvatten Exercise 8: Andere samenvattingen van ontbrekende waarden Exercise 9: Hoe visualiseren we ontbrekende waarden?Exercise 10: Je eerste visualisaties van ontbrekende data Exercise 11: Missende cases en variabelen visualiseren Exercise 12: Ontbreekpatronen visualiseren

In hoofdstuk twee leer je verborgen ontbrekende waarden zoals "missing" of "N/A" op te sporen en te vervangen door `NA`. Je leert hoe je efficiënt omgaat met impliciet ontbrekende waarden — waarden die eigenlijk ontbreken, maar niet expliciet vermeld staan. We behandelen ook hoe je afhankelijkheid in ontbrekende data onderzoekt, met bespreking van Missing Completely at Random (MCAR), Missing At Random (MAR), Missing Not At Random (MNAR), en wat dit betekent voor je data-analyse.

Exercise 1: Zoeken naar en vervangen van ontbrekende waarden Exercise 2: miss_scan_count gebruiken Exercise 3: replace_with_na gebruiken Exercise 4: Scoped-varianten van replace_with_na gebruiken Exercise 5: Ontbrekende waarden omlaag invullen Exercise 6: Los impliciete missings op met complete()Exercise 7: Los expliciete missings op met fill()Exercise 8: complete() en fill() samen gebruiken Exercise 9: Afhankelijkheid van missende data Exercise 10: Verschillen tussen MCAR en MAR Exercise 11: Afhankelijkheid van ontbrekende waarden verkennen Exercise 12: Verdiepend verkennen van afhankelijkheid van ontbrekende waarden

In dit hoofdstuk leer je workflows voor werken met ontbrekende data. We introduceren speciale datastructuren, de shadow matrix en nabular data, en laten zien hoe je deze inzet in workflows om ontbrekende data te verkennen, zodat je samenvattingen van ontbrekendheid kunt koppelen aan waarden in de data. Je leert hoe je met ggplot verkent en visualiseert hoe waarden veranderen terwijl andere variabelen ontbreken. Tot slot leer je ontbrekendheid over twee variabelen te visualiseren, en hoe en waarom je ontbrekende waarden in een scatterplot visualiseert.

Exercise 1: Tools om afhankelijkheid van missende data te verkennen Exercise 2: Schaduwmatrixgegevens maken Exercise 3: Gegroepeerde samenvattingen van ontbrekende waarden maken Exercise 4: Verder verkennen van meer combinaties van missingness Exercise 5: Missings in één variabele visualiseren Exercise 6: Nabular data en vullen op basis van ontbrekendheid Exercise 7: Nabulaire data en samenvatten op ontbrekendheid Exercise 8: Variatie verkennen per ontbrekendheid: boxplots Exercise 9: Missings visualiseren over twee variabelen Exercise 10: Missende data verkennen met scatterplots Exercise 11: Facetten gebruiken om missings te verkennen Exercise 12: Facetting om ontbrekende waarden te verkennen (meerdere grafieken)

In dit hoofdstuk leer je hoe je ontbrekende waarden in je data kunt aanvullen, oftewel imputatie. Je leert hoe je imputeert en ontbrekende waarden bijhoudt, en wat de sterke en zwakke punten van imputaties zijn, zodat je de geïmputeerde data kunt verkennen, visualiseren en beoordelen ten opzichte van de oorspronkelijke waarden. Je leert hoe je verschillende imputatiemodellen gebruikt, beoordeelt en vergelijkt, en onderzoekt hoe verschillende imputatiemodellen de conclusies beïnvloeden die je uit de modellen kunt trekken.

Exercise 1: De lege plekken invullen Exercise 2: Imputeer data onder het bereik met nabular-data Exercise 3: Gëimputeerde waarden visualiseren in een scatterplot Exercise 4: Maak een histogram van geïmputeerde data Exercise 5: Wat maakt een goede imputatie Exercise 6: Slechte imputaties beoordelen Exercise 7: Imputaties beoordelen: de schaal Exercise 8: Imputaties beoordelen: Over veel variabelen Exercise 9: Imputaties uitvoeren Exercise 10: Gegevens imputeren met simputation Exercise 11: Imputaties evalueren en vergelijken Exercise 12: Imputaties beoordelen (meerdere modellen & variabelen)Exercise 13: Imputaties en modellen evalueren Exercise 14: Veel imputatiemodellen combineren en vergelijken Exercise 15: De verschillende parameters in het model evalueren

Huidige oefening

Exercise 16: Laatste les