Visualiseer scheiding van klassen met PCA I
Een veelvoorkomende vraag in een Machine Learning-sollicitatie is hoe je de dimensionaliteit na PCA visualiseert. In deze oefening doe je precies dat: je plot de eerste 2 principale componenten van loan_data om de klassenscheiding te visualiseren tussen beide componenten, op basis van of de leningstatus volledig is afbetaald of afgeboekt.
De loan_data-gegevensset is geschaald en one-hot encoded. Dat betekent dat categorische variabelen zijn omgezet naar binaire indicatoren, omdat kenmerken vóór PCA zowel op dezelfde schaal als numeriek moeten zijn.
Een PCA-model met 2 PCs en het opzetten van een plot met x- en y-labels en een titel is al voor je gedaan. In de oefeningen gebruik je een DataFrame genaamd loan_data_PCA. De mogelijke waarden voor de doelvariabele Loan Status zijn 0 en 1. Je plot PC1 op de x-as en PC2 op de y-as.
Al geïmporteerd voor je zijn matplotlib.pyplot als plt, seaborn als sns, PCA uit sklearn.decomposition.
Deze oefening maakt deel uit van de cursus
Machine Learning-sollicitatievragen oefenen in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
targets = [____, ____]
colors = ['r', 'b']
# For loop to create plot
for target, color in zip(____, ____):
indicesToKeep = ____['____'] == ____