ComeçarComece de graça

Extraindo texto para novas features

Garagens são uma consideração importante para casas em Minnesota, onde a maioria das pessoas tem carro e a neve é chata de tirar de um carro estacionado do lado de fora. O tipo de garagem também é importante: dá para chegar ao carro sem encarar o frio, ou não? Vamos criar a feature has_attached_garage que indica se a garagem é anexada à casa ou não.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Importe a função necessária when() de pyspark.sql.functions.
  • Crie uma condição de correspondência de string usando like() para procurar o padrão de string Attached Garage em df['GARAGEDESCRIPTION'] e use curingas % para que faça correspondência em qualquer lugar do campo.
  • Da mesma forma, crie outra condição usando like() para encontrar o padrão de string Detached Garage em df['GARAGEDESCRIPTION'] e use curingas % para que faça correspondência em qualquer lugar do campo.
  • Crie uma nova coluna has_attached_garage usando when() para atribuir o valor 1 se houver uma garagem anexada, 0 se for destacada e use otherwise() para atribuir nulo com None se não for nenhum dos dois.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import needed functions
____ ____ ____ ____

# Create boolean conditions for string matches
has_attached_garage = df[____].____(____)
has_detached_garage = df[____].____(____)

# Conditional value assignment 
df = df.withColumn(____, (____(____, 1)
                                          .____(____, 0)
                                          .____(____)))

# Inspect results
df[['GARAGEDESCRIPTION', 'has_attached_garage']].show(truncate=100)
Editar e executar o código