Beeinflussen
Der Einfluss misst, wie sehr sich ein Modell verändern würde, wenn jede Beobachtung einzeln aus den Modellberechnungen herausgenommen würde. Das heißt, sie misst, wie anders die Vorhersagelinie aussehen würde, wenn du eine lineare Regression für alle Datenpunkte außer diesem Punkt durchführen würdest, als wenn du eine lineare Regression für den gesamten Datensatz durchführen würdest.
Die Standardmetrik für Einfluss ist die Cook'sche Distanz, die den Einfluss auf der Grundlage der Restgröße und der Hebelwirkung des Punktes berechnet.
Du kannst dasselbe Modell wie beim letzten Mal sehen: Hauspreis im Vergleich zur Quadratwurzel der Entfernung von der nächsten MRT Station im taiwanesischen Immobiliendatensatz.
Schätze, welche Beobachtungen deiner Meinung nach einen hohen Einfluss haben werden, und bewege dann den Schieberegler, um es herauszufinden.
Welche Aussage ist richtig?
Diese Übung ist Teil des Kurses
Einführung in die Regression mit statsmodels in Python
Interaktive Übung
Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um
