Binarizando o dia da semana
Em um vídeo anterior, vimos que é muito improvável que uma casa seja anunciada no fim de semana. Vamos criar um novo campo que indique se o imóvel foi listado para venda em um dia útil ou não. Neste exemplo, há um campo chamado List_Day_of_Week em que segunda-feira é 1.0 e domingo é 7.0. Vamos converter isso em um campo binário, com dia útil sendo 0 e fim de semana sendo 1. Podemos usar o transformador de recursos do PySpark Binarizer para fazer isso.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Importe o transformador
Binarizerdepyspark, no móduloml.feature. - Crie o transformador usando
Binarizer()com o limite para definir o valor 1 como qualquer dia após sexta-feira, 5.0; em seguida, defina a coluna de entrada comoList_Day_of_Weeke a coluna de saída comoListed_On_Weekend. - Aplique a transformação do binarizer em
dfusandotransform(). - Verifique se a transformação funcionou corretamente selecionando as colunas
List_Day_of_WeekeListed_On_Weekendcomshow().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import transformer
from pyspark.____.____ import ____
# Create the transformer
binarizer = ____(threshold=____ inputCol=____, outputCol=____)
# Apply the transformation to df
df = binarizer.____(____)
# Verify transformation
df[[____, ____]].____()