Normalizando os dados

Para algoritmos de ML que usam métricas baseadas em distância, é crucial sempre normalizar (escalar) seus dados, pois variáveis em escalas diferentes distorcem os resultados. K-means usa a distância euclidiana para medir a distância até os centróides dos clusters; portanto, você precisa primeiro escalar os dados antes de continuar a implementar o algoritmo. Vamos fazer isso agora.

Você tem disponível o dataframe df do exercício anterior, com uma pequena preparação de dados para ficar pronto para usar com o sklearn. Os rótulos de fraude estão armazenados separadamente em labels; você pode usá-los depois para conferir os resultados. O numpy foi importado como np.

Este exercício faz parte do curso

Detecção de Fraudes em Python

Ver curso

Instruções do exercício

Importe o MinMaxScaler.
Transforme o seu dataframe df em um array numpy X pegando apenas os valores de df e garanta que todos sejam float.
Aplique o scaler definido em X para obter os valores escalados em X_scaled, forçando todas as suas variáveis a ficarem na escala 0–1.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the scaler
from sklearn.preprocessing import ____

# Take the float values of df for X
X = df.values.astype(np.____)

# Define the scaler and apply to the data
scaler = ____()
X_scaled = scaler.____(X)

Editar e executar o código