ComeçarComece de graça

Codificações categóricas

Seu colega converteu as colunas do conjunto de dados de crédito em valores numéricos usando LabelEncoder(). Ele deixou uma de fora: credit_history, que registra o histórico de crédito do solicitante. Você quer criar duas versões do conjunto de dados. Uma usará LabelEncoder() e a outra usará one-hot encoding, para fins de comparação. A matriz de atributos está disponível como credit. Você tem LabelEncoder() pré-carregado e pandas como pd.

Este exercício faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercício

  • Codifique credit_history usando LabelEncoder().
  • Concatene o resultado ao frame original.
  • Crie um novo data frame concatenando as dummies do one-hot encoding ao frame original.
  • Confirme que o one-hot encoding produz mais colunas do que o label encoding.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create numeric encoding for credit_history
credit_history_num = ____.____(
  credit[____])

# Create a new feature matrix including the numeric encoding
X_num = pd.concat([X, pd.Series(____)], ____)

# Create new feature matrix with dummies for credit_history
X_hot = pd.concat(
  [X, ____.____(credit[____])], ____)

# Compare the number of features of the resulting DataFrames
print(X_hot.shape[____] > X_num.shape[____])
Editar e executar o código