Techniken gegen Multikollinearität – PCA
In der letzten Übung hast du mittels Feature Engineering die unabhängigen Variablen s1 und s2 zu s1_s2 kombiniert, da sie im diabetes-Datensatz die höchste Korrelation aufwiesen.
In dieser Übung führst du PCA auf diabetes aus, um Multikollinearität zu entfernen, bevor du eine Lineare Regression darauf anwendest. Anschließend vergleichst du die Ergebniskennzahlen mit denen aus der letzten Übung. Zum Schluss visualisierst du die Korrelationsmatrix und die Heatmap des Datensatzes, da PCA Multikollinearität vollständig entfernt.
Diese Übung ist Teil des Kurses
ML-Vorstellungsgespräche in Python üben
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import
from sklearn.decomposition import ____
# Instantiate
pca = ____()
# Fit on train
pca.____(____)
# Transform train and test
X_trainPCA = pca.____(____)
X_testPCA = pca.____(____)