Codificar variáveis categóricas e padronizar variáveis numéricas
Neste passo final, você vai aplicar one-hot encoding nas variáveis categóricas e depois padronizar as colunas numéricas. A biblioteca pandas já foi carregada como pd, assim como o módulo StandardScaler do módulo sklearn.preprocessing.
O conjunto de dados bruto de churn de telecom telco_raw foi carregado para você como um DataFrame do pandas, assim como as listas custid, target, categorical e numerical com os nomes de colunas que você criou no exercício anterior. Você pode se familiarizar com o conjunto de dados explorando-o no console.
Este exercício faz parte do curso
Machine Learning para Marketing em Python
Instruções do exercício
- Faça o one-hot encoding nas variáveis categóricas.
- Inicialize uma instância de
StandardScaler. - Ajuste e transforme o
scalernas colunas numéricas. - Construa um DataFrame a partir de
scaled_numerical.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Perform one-hot encoding to categorical variables
telco_raw = pd.get_dummies(data = ___, columns = categorical, drop_first=True)
# Initialize StandardScaler instance
scaler = ___()
# Fit and transform the scaler on numerical columns
scaled_numerical = ___.fit_transform(telco_raw[___])
# Build a DataFrame from scaled_numerical
scaled_numerical = pd.DataFrame(___, columns=numerical)