Normalizando os dados
Para algoritmos de ML que usam métricas baseadas em distância, é crucial sempre normalizar (escalar) seus dados, pois variáveis em escalas diferentes distorcem os resultados. K-means usa a distância euclidiana para medir a distância até os centróides dos clusters; portanto, você precisa primeiro escalar os dados antes de continuar a implementar o algoritmo. Vamos fazer isso agora.
Você tem disponível o dataframe df do exercício anterior, com uma pequena preparação de dados para ficar pronto para usar com o sklearn. Os rótulos de fraude estão armazenados separadamente em labels; você pode usá-los depois para conferir os resultados. O numpy foi importado como np.
Este exercício faz parte do curso
Detecção de Fraudes em Python
Instruções do exercício
- Importe o
MinMaxScaler. - Transforme o seu dataframe
dfem um array numpyXpegando apenas os valores dedfe garanta que todos sejamfloat. - Aplique o scaler definido em
Xpara obter os valores escalados emX_scaled, forçando todas as suas variáveis a ficarem na escala 0–1.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the scaler
from sklearn.preprocessing import ____
# Take the float values of df for X
X = df.values.astype(np.____)
# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)