Preprocesamiento de datos
El preprocesamiento para clustering puede ayudarte a preparar los datos para obtener segmentaciones más precisas. Un tipo de preprocesamiento es la normalización de características (feature scaling), una técnica para estandarizar las variables independientes del conjunto de datos a un rango fijo, por ejemplo, 0-1 o 0-100.
En este ejercicio, vas a realizar clustering sobre las columnas parental_level_of_education y writing_score del conjunto de datos de rendimiento estudiantil cargado como performance. Primero, crearás y ejecutarás un modelo de k-means sin aplicar ningún preprocesamiento. Después, harás lo mismo pero preprocesando los datos con normalización de características.
El modelo privado de k-means se ha importado como KMeans desde diffprivlib.models. El escalador StandardScaler y la reducción de dimensionalidad PCA se han importado desde sklearn.
Este ejercicio forma parte del curso
Privacidad de datos y anonimización en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Build the differentially private k-means model
model = KMeans(____)
# Fit the model to the data
____
# Print the inertia in the console output
print("The inertia of the private model is: ", model.inertia_)