Analiza głównych składowych

W poprzednich 2 rozdziałach poznałeś różne sposoby redukcji wymiarowości zbioru danych, w tym regularyzację i selekcję cech. Umiejętność wyjaśnienia różnych podejść do redukcji wymiarowości jest ważna podczas rozmowy kwalifikacyjnej z uczenia maszynowego. Duże zbiory danych wymagają długiego czasu obliczeń, a szum w danych może zaburzać wyniki.

Jedną z metod redukcji wymiarowości jest analiza głównych składowych (PCA). To skuteczna technika zmniejszania rozmiaru danych poprzez tworzenie nowych cech, które zachowują najważniejsze informacje ze zbioru danych, eliminując jednocześnie wielokoliniowość. W tym ćwiczeniu skorzystasz z modułu sklearn.decomposition, aby wykonać PCA na cechach zbioru danych diabetes, wyodrębniając zmienną docelową progression.

Oto, na jakim etapie potoku się teraz znajdujesz:

Machine learning pipeline

To ćwiczenie jest częścią kursu

Ćwiczenie pytań rekrutacyjnych z uczenia maszynowego w Pythonie

Zobacz kurs

Interaktywne ćwiczenie praktyczne

Spróbuj tego ćwiczenia, uzupełniając ten przykładowy kod.

# Import module
from ____.____ import ____

# Feature matrix and target array
X = ____.____('____', axis=1)
y = ____['____']

Edytuj i uruchom kod