Discretizando todas as variáveis
Em vez de discretizar as variáveis contínuas uma a uma, é mais fácil discretizá-las automaticamente. Para obter uma lista de todas as colunas em Python, você pode usar
variables = basetable.columns
Apenas variáveis contínuas devem ser discretizadas. Você pode verificar se as variáveis devem ser discretizadas conferindo se elas têm mais do que um número predefinido de valores diferentes.
Este exercício faz parte do curso
Introdução à Análise Preditiva em Python
Instruções do exercício
- Faça uma lista
variablescontendo todos os nomes das colunas da basetable. - Crie um loop que verifique todas as variáveis na lista
variables. - Complete o
ifpara que apenas variáveis com mais de 5 valores diferentes sejam discretizadas. - Agrupe as variáveis contínuas em 10 faixas usando o método
qcut.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print the columns in the original basetable
print(basetable.columns)
# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")
# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
if len(basetable.groupby(____))>____:
new_variable = "disc_" + variable
basetable[new_variable] = pd.qcut(basetable[____], ____)
# Print the columns in the new basetable
print(basetable.columns)