Pré-processamento de dados
O pré-processamento para clustering é uma forma de preparar os dados para uma segmentação mais precisa. Um tipo de pré-processamento é o escalonamento de variáveis (feature scaling), uma técnica para padronizar as variáveis independentes presentes nos dados para um intervalo fixo, por exemplo, 0–1 ou 0–100.
Neste exercício, você vai realizar clustering nas colunas parental_level_of_education e writing_score no conjunto de dados de desempenho dos alunos carregado como performance. Primeiro, você vai criar e executar um modelo de k-means sem nenhum pré-processamento. Depois, fará o mesmo, mas pré-processando os dados com feature scaling.
O modelo privado de k-means foi importado como KMeans de diffprivlib.models. O StandardScaler e a redução de dimensionalidade PCA foram importados de sklearn.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Build the differentially private k-means model
model = KMeans(____)
# Fit the model to the data
____
# Print the inertia in the console output
print("The inertia of the private model is: ", model.inertia_)