Daten vorverarbeiten
Die Vorverarbeitung für Clustering kann Daten so aufbereiten, dass die Segmentierung genauer wird. Eine Form der Vorverarbeitung ist Feature-Scaling: Dabei werden die unabhängigen Merkmale im Datensatz so skaliert, dass sie in einen festen Bereich passen, z. B. 0–1 oder 0–100.
In dieser Übung führst du Clustering auf den Spalten parental_level_of_education und writing_score des Schülerleistungs-Datensatzes durch, der als performance geladen ist. Zuerst erstellst du ein K-Means-Modell und führst es ohne jegliche Vorverarbeitung aus. Anschließend machst du dasselbe, diesmal jedoch mit Feature-Scaling als Vorverarbeitung.
Das private K-Means-Modell wurde als KMeans aus diffprivlib.models importiert. Der StandardScaler und die Dimensionsreduktion PCA wurden aus sklearn importiert.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Build the differentially private k-means model
model = KMeans(____)
# Fit the model to the data
____
# Print the inertia in the console output
print("The inertia of the private model is: ", model.inertia_)