Principal component analysis

In de vorige 2 hoofdstukken heb je verschillende manieren gezien om de dimensionaliteit van je gegevensset te verkleinen, waaronder regularisatie en featureselectie. Het is belangrijk dat je in een Machine Learning-sollicitatiegesprek verschillende aspecten van dimensionaliteitsreductie kunt uitleggen. Grote gegevenssets kosten veel rekentijd en ruis in je data kan je resultaten vertekenen.

Een manier om dimensionaliteit te verkleinen is principal component analysis (PCA). Dit is een effectieve methode om de omvang van de data te reduceren door nieuwe features te maken die de meest nuttige informatie in een gegevensset behouden, terwijl multicollineariteit tegelijk wordt verwijderd. In deze oefening gebruik je de module sklearn.decomposition om PCA uit te voeren op de features van de diabetes-gegevensset, terwijl je de doelvariabele progression buiten beschouwing laat.

Hier ben je in de pipeline:

Machine learning pipeline

Deze oefening maakt deel uit van de cursus

Machine Learning-sollicitatievragen oefenen in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import module
from ____.____ import ____

# Feature matrix and target array
X = ____.____('____', axis=1)
y = ____['____']

Code bewerken en uitvoeren