ComeçarComece de graça

Binarizando o dia da semana

Em um vídeo anterior, vimos que é muito improvável que uma casa seja anunciada no fim de semana. Vamos criar um novo campo que indique se o imóvel foi listado para venda em um dia útil ou não. Neste exemplo, há um campo chamado List_Day_of_Week em que segunda-feira é 1.0 e domingo é 7.0. Vamos converter isso em um campo binário, com dia útil sendo 0 e fim de semana sendo 1. Podemos usar o transformador de recursos do PySpark Binarizer para fazer isso.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Importe o transformador Binarizer de pyspark, no módulo ml.feature.
  • Crie o transformador usando Binarizer() com o limite para definir o valor 1 como qualquer dia após sexta-feira, 5.0; em seguida, defina a coluna de entrada como List_Day_of_Week e a coluna de saída como Listed_On_Weekend.
  • Aplique a transformação do binarizer em df usando transform().
  • Verifique se a transformação funcionou corretamente selecionando as colunas List_Day_of_Week e Listed_On_Weekend com show().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import transformer
from pyspark.____.____ import ____

# Create the transformer
binarizer = ____(threshold=____ inputCol=____, outputCol=____)

# Apply the transformation to df
df = binarizer.____(____)

# Verify transformation
df[[____, ____]].____()
Editar e executar o código