kNN Tipps & Tricks II: Variablen sortieren

Während der k-Nearest-Neighbors-Algorithmus über die Variablen in den Daten iteriert, um sie zu imputieren, berechnet er Abstände zwischen Beobachtungen mithilfe anderer Variablen, von denen einige in den vorherigen Schritten bereits imputiert wurden. Das bedeutet: Wenn die früher im Datensatz stehenden Variablen viele fehlende Werte haben, basiert die nachfolgende Distanzberechnung stark auf imputierten Werten. Das bringt Rauschen in die Distanzberechnung.

Aus diesem Grund ist es gute Praxis, die Variablen vor der kNN-Imputation aufsteigend nach der Anzahl fehlender Werte zu sortieren. So basiert jede Distanzberechnung auf möglichst vielen beobachteten und möglichst wenigen imputierten Werten.

Probieren wir das mit den tao-Daten aus!

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Anleitung zur Übung

Ermittle im ersten Teil der Pipeline die Anzahl fehlender Werte in jeder Spalte von tao.
Sortiere anschließend die Variablen aufsteigend nach der Anzahl fehlender Werte, extrahiere ihre Namen und weise das Ergebnis vars_by_NAs zu.
Verwende select(), um die tao-Variablen entsprechend der in vars_by_NAs gespeicherten Reihenfolge umzustrukturieren.
Führe die k-Nearest-Neighbors-Imputation auf den umsortierten Daten durch und weise das Ergebnis tao_imp zu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Get tao variable names sorted by number of NAs
vars_by_NAs <- tao %>%
  ___ %>%
  colSums() %>%
  sort(decreasing = ___) %>% 
  names()

# Sort tao variables and feed it to kNN imputation
tao_imp <- tao %>% 
  select(___) %>% 
  ___()

tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	marginplot(delimiter = "imp")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel findest du heraus, warum fehlende Daten ein Risiko bei der Analyse eines Datensatzes darstellen können. Du lernst die drei Mechanismen fehlender Daten kennen und erfährst, wie du sie mit statistischen Tests und Visualisierungstools erkennst.

Exercise 1: Fehlende Daten: Was kann schiefgehen Exercise 2: Lineare Regression mit unvollständigen Daten Exercise 3: Regressionsausgabe analysieren Exercise 4: Modelle vergleichen Exercise 5: Mechanismen fehlender Daten Exercise 6: Fehlende-Daten-Mechanismen erkennen Exercise 7: t-test für MAR: Datenaufbereitung Exercise 8: t-test für MAR: Interpretation Exercise 9: Fehlende Datenmuster visualisieren Exercise 10: Aggregations-Plot Exercise 11: Spine-Plot Exercise 12: Mosaikdiagramm

Lerne die Taxonomie der Imputationsmethoden kennen und drei spenderbasierte Techniken: Mittelwert-, Hot-Deck- und k-Nearest-Neighbors-Imputation. Du wirfst einen Blick unter die Haube, um zu sehen, wie diese Methoden funktionieren, bevor du lernst, wie du sie auf einen realen Datensatz zu tropischem Wetter anwendest. Unterwegs entdeckst du außerdem nützliche Tricks, mit denen du sie für deine Aufgaben noch besser einsetzen kannst.

Exercise 1: Mittelwertimputation Exercise 2: Die Gefahr der Mittelwertimputation erkennen Exercise 3: Mittelwert-Imputation der Temperatur Exercise 4: Imputationsqualität mit Margin-Plot beurteilen Exercise 5: Hot-Deck-Imputation Exercise 6: Vanilla Hot-Deck Exercise 7: Hot-Deck: Tricks & Tipps I – Imputieren innerhalb von Domänen Exercise 8: Hot-Deck: Tipps & Tricks II – Sortieren nach korrelierten Variablen Exercise 9: k-Nearest-Neighbors-Imputation Exercise 10: Die Anzahl der Nachbarn wählen Exercise 11: kNN Tipps & Tricks I: Spender gewichten Exercise 12: kNN Tipps & Tricks II: Variablen sortieren

Aktuelle Übung

Jetzt lernst du, wie du statistische und Machine-Learning-Modelle wie lineare Regression, logistische Regression und Random Forests zur Imputation fehlender Daten nutzt. In diesem Kapitel schaust du dir an, wie die Modelle ihre Vorhersagen treffen, und nutzt dieses Wissen, um die imputierten Werte aus konditionalen Verteilungen zu ziehen. Das ist wichtig, weil es deine Imputationen vielfältiger und plausibler macht – und damit den echten Daten ähnlicher.

Exercise 1: Modellbasierter Imputationsansatz Exercise 2: Imputation mit linearer Regression Exercise 3: Fehlende Werte initialisieren & über Variablen iterieren Exercise 4: Konvergenz erkennen Exercise 5: Datenvariabilität nachbilden Exercise 6: Imputation mit logistischer Regression Exercise 7: Ziehen aus der bedingten Verteilung Exercise 8: Modellbasierte Imputation mit mehreren Variablentypen Exercise 9: Baumbasierte Imputation Exercise 10: Imputieren mit Random Forests Exercise 11: Variablenweise Imputationsfehler Exercise 12: Abwägung zwischen Geschwindigkeit und Genauigkeit

Imputierte Werte sind nicht in Stein gemeißelt. Es sind Schätzwerte, und Schätzungen gehen mit Unsicherheit einher. In diesem letzten Kapitel entdeckst du, wie Bootstrapping und verkettete Gleichungen mit dem Paket mice verwendet werden können, um die Imputationsunsicherheit in deine Modelle und Analysen zu integrieren und sie dadurch verlässlicher und robuster zu machen.

Exercise 1: Multiple Imputation mit Bootstrapping Exercise 2: Imputation und Modellierung in einer Funktion kapseln Exercise 3: Den Bootstrap ausführen Exercise 4: Konfidenzintervalle per Bootstrapping Exercise 5: Multiple Imputation mit verketteten Gleichungen Exercise 6: Der mice‑Flow: mice - with - pool Exercise 7: Standardmodelle auswählen Exercise 8: Verwendung der Prädiktormatrix Exercise 9: Alles zusammenführen Exercise 10: Fehlendheitsmuster analysieren Exercise 11: Imputing and inspecting outcomes Exercise 12: Schlussfolgern mit imputierten Daten Exercise 13: Abschlussbemerkungen