ComeçarComece de graça

Discretizando todas as variáveis

Em vez de discretizar as variáveis contínuas uma a uma, é mais fácil discretizá-las automaticamente. Para obter uma lista de todas as colunas em Python, você pode usar

variables  = basetable.columns

Apenas variáveis contínuas devem ser discretizadas. Você pode verificar se as variáveis devem ser discretizadas conferindo se elas têm mais do que um número predefinido de valores diferentes.

Este exercício faz parte do curso

Introdução à Análise Preditiva em Python

Ver curso

Instruções do exercício

  • Faça uma lista variables contendo todos os nomes das colunas da basetable.
  • Crie um loop que verifique todas as variáveis na lista variables.
  • Complete o if para que apenas variáveis com mais de 5 valores diferentes sejam discretizadas.
  • Agrupe as variáveis contínuas em 10 faixas usando o método qcut.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Print the columns in the original basetable
print(basetable.columns)

# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")

# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
    if len(basetable.groupby(____))>____:
        new_variable = "disc_" + variable
        basetable[new_variable] = pd.qcut(basetable[____], ____)
        
# Print the columns in the new basetable
print(basetable.columns)
Editar e executar o código