LoslegenKostenlos starten

Die Anzahl der Nachbarn wählen

Bei der k-Nearest-Neighbors- (kNN-)Imputation werden fehlende Werte einer Beobachtung anhand der Werte der k anderen Beobachtungen aufgefüllt, die ihr am ähnlichsten sind. Die Anzahl dieser ähnlichen Beobachtungen, also der berücksichtigten Nachbarn, ist ein Parameter, den du im Voraus festlegen musst.

Wie wählt man k? Eine Möglichkeit ist, verschiedene Werte auszuprobieren und zu schauen, wie sie die Beziehung zwischen imputierten und beobachteten Daten beeinflussen.

Probieren wir aus, humidity in den tao-Daten mit drei verschiedenen k-Werten zu imputieren und zu sehen, wie gut die imputierten Werte zur Beziehung zwischen humidity und sea_surface_temp passen.

Diese Übung ist Teil des Kurses

<Kurs>Fehlende Daten mit Imputationen in R behandeln</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")
Code bearbeiten und ausführen