Hauptkomponentenanalyse

In den letzten 2 Kapiteln hast du verschiedene Möglichkeiten gesehen, die Dimensionalität deines Datensatzes zu verringern, darunter Regularisierung und Merkmalsauswahl. In einem Machine-Learning-Interview ist es wichtig, verschiedene Aspekte der Dimensionsreduktion erklären zu können. Große Datensätze benötigen lange Rechenzeiten, und Rauschen in den Daten kann deine Ergebnisse verzerren.

Eine Methode zur Dimensionsreduktion ist die Hauptkomponentenanalyse (PCA). Sie ist ein effektiver Weg, die Datenmenge zu verkleinern, indem neue Merkmale erstellt werden, die die nützlichste Information im Datensatz bewahren und gleichzeitig Multikollinearität entfernen. In dieser Übung verwendest du das Modul sklearn.decomposition, um PCA auf die Merkmale des diabetes-Datensatzes anzuwenden, während du die Zielvariable progression ausklammerst.

Hier befindest du dich in der Pipeline:

Machine learning pipeline

Diese Übung ist Teil des Kurses

ML-Vorstellungsgespräche in Python üben

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import module
from ____.____ import ____

# Feature matrix and target array
X = ____.____('____', axis=1)
y = ____['____']

Code bearbeiten und ausführen