ComeçarComece de graça

Escalonamento Personalizado em Percentual

Nos slides, mostramos como escalonar os dados entre 0 e 1. Às vezes, você pode querer escalonar de outra forma para fins de modelagem ou de visualização.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Calcule o máximo e o mínimo de DAYSONMARKET e coloque-os nas variáveis max_days e min_days; não se esqueça de usar collect() em agg().
  • Usando withColumn(), crie uma nova coluna chamada 'percentagescaleddays' com base em DAYSONMARKET.
  • percentage_scaled_days deve ser uma coluna de inteiros variando de 0 a 100; use round() para obter inteiros.
  • Imprima o max() e o min() da nova coluna percentage_scaled_days.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Define max and min values and collect them
max_days = df.____({____: ____}).____()[0][0]
min_days = df.____({____: ____}).____()[0][0]

# Create a new column based off the scaled data
df = df.____(____, 
                  ____((df[____] - min_days) / (max_days - min_days)) * ____)

# Calc max and min for new column
print(df.____({____: ____}).____())
print(df.____({____: ____}).____())
Editar e executar o código