Codificações categóricas
Seu colega converteu as colunas do conjunto de dados de crédito em valores numéricos usando LabelEncoder(). Ele deixou uma de fora: credit_history, que registra o histórico de crédito do solicitante. Você quer criar duas versões do conjunto de dados. Uma usará LabelEncoder() e a outra usará one-hot encoding, para fins de comparação. A matriz de atributos está disponível como credit. Você tem LabelEncoder() pré-carregado e pandas como pd.
Este exercício faz parte do curso
Projetando Workflows de Machine Learning em Python
Instruções do exercício
- Codifique
credit_historyusandoLabelEncoder(). - Concatene o resultado ao frame original.
- Crie um novo data frame concatenando as dummies do one-hot encoding ao frame original.
- Confirme que o one-hot encoding produz mais colunas do que o label encoding.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create numeric encoding for credit_history
credit_history_num = ____.____(
credit[____])
# Create a new feature matrix including the numeric encoding
X_num = pd.concat([X, pd.Series(____)], ____)
# Create new feature matrix with dummies for credit_history
X_hot = pd.concat(
[X, ____.____(credit[____])], ____)
# Compare the number of features of the resulting DataFrames
print(X_hot.shape[____] > X_num.shape[____])