Escalonamento Personalizado em Percentual
Nos slides, mostramos como escalonar os dados entre 0 e 1. Às vezes, você pode querer escalonar de outra forma para fins de modelagem ou de visualização.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Calcule o máximo e o mínimo de
DAYSONMARKETe coloque-os nas variáveismax_daysemin_days; não se esqueça de usarcollect()emagg(). - Usando
withColumn(), crie uma nova coluna chamada 'percentagescaleddays' com base emDAYSONMARKET. percentage_scaled_daysdeve ser uma coluna de inteiros variando de 0 a 100; useround()para obter inteiros.- Imprima o
max()e omin()da nova colunapercentage_scaled_days.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define max and min values and collect them
max_days = df.____({____: ____}).____()[0][0]
min_days = df.____({____: ____}).____()[0][0]
# Create a new column based off the scaled data
df = df.____(____,
____((df[____] - min_days) / (max_days - min_days)) * ____)
# Calc max and min for new column
print(df.____({____: ____}).____())
print(df.____({____: ____}).____())