LoslegenKostenlos loslegen

Die Anzahl der Nachbarn wählen

Bei der k-Nearest-Neighbors- (kNN-)Imputation werden fehlende Werte einer Beobachtung anhand der Werte der k anderen Beobachtungen aufgefüllt, die ihr am ähnlichsten sind. Die Anzahl dieser ähnlichen Beobachtungen, also der berücksichtigten Nachbarn, ist ein Parameter, den du im Voraus festlegen musst.

Wie wählt man k? Eine Möglichkeit ist, verschiedene Werte auszuprobieren und zu schauen, wie sie die Beziehung zwischen imputierten und beobachteten Daten beeinflussen.

Probieren wir aus, humidity in den tao-Daten mit drei verschiedenen k-Werten zu imputieren und zu sehen, wie gut die imputierten Werte zur Beziehung zwischen humidity und sea_surface_temp passen.

Diese Übung ist Teil des Kurses

Fehlende Daten mit Imputationen in R behandeln

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Impute humidity using 30 neighbors
tao_imp <- ___(tao, k = ___, variable = ___)

# Draw a margin plot of sea_surface_temp vs humidity
tao_imp %>% 
	select(sea_surface_temp, humidity, humidity_imp) %>% 
	___(delimiter = "imp", main = "k = 30")
Code bearbeiten und ausführen