Aan de slagGa gratis aan de slag

Preprocessing van data

Preprocessing voor clustering kan een manier zijn om data voor te bereiden op nauwkeurigere segmentatie. Een vorm van preprocessing is feature scaling: een techniek om de onafhankelijke kenmerken in de data te standaardiseren naar een vaste schaal, bijv. 0-1 of 0-100.

In deze oefening ga je clusteren op de kolommen parental_level_of_education en writing_score in de studentenprestatiegegevens die zijn geladen als performance. Eerst maak en run je een k-meansmodel zonder enige preprocessing. Daarna doe je hetzelfde, maar dan met preprocessing via feature scaling.

Het private k-meansmodel is geïmporteerd als KMeans uit diffprivlib.models. De StandardScaler en de dimensionaliteitsreductie PCA zijn geïmporteerd uit sklearn.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Build the differentially private k-means model
model = KMeans(____)

# Fit the model to the data
____

# Print the inertia in the console output
print("The inertia of the private model is: ", model.inertia_)
Code bewerken en uitvoeren