Multicollineariteitstechnieken - PCA

In de vorige oefening gebruikte je feature engineering om de onafhankelijke variabelen s1 en s2 te combineren tot s1_s2, omdat ze de hoogste correlatie vertoonden in de diabetes-gegevensset.

In deze oefening voer je PCA uit op diabetes om multicollineariteit te verwijderen voordat je er Lineaire Regressie op toepast. Vervolgens vergelijk je de outputmetrics met die uit de vorige oefening. Tot slot visualiseer je hoe de correlatiematrix en heatmap van de gegevensset eruitzien, aangezien PCA multicollineariteit volledig verwijdert.

Deze oefening maakt deel uit van de cursus

Machine Learning-sollicitatievragen oefenen in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import
from sklearn.decomposition import ____

# Instantiate
pca = ____()

# Fit on train
pca.____(____)

# Transform train and test
X_trainPCA = pca.____(____)
X_testPCA = pca.____(____)

Code bewerken en uitvoeren