Extraindo texto para novas features
Garagens são uma consideração importante para casas em Minnesota, onde a maioria das pessoas tem carro e a neve é chata de tirar de um carro estacionado do lado de fora. O tipo de garagem também é importante: dá para chegar ao carro sem encarar o frio, ou não? Vamos criar a feature has_attached_garage que indica se a garagem é anexada à casa ou não.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Importe a função necessária
when()depyspark.sql.functions. - Crie uma condição de correspondência de string usando
like()para procurar o padrão de stringAttached Garageemdf['GARAGEDESCRIPTION']e use curingas%para que faça correspondência em qualquer lugar do campo. - Da mesma forma, crie outra condição usando
like()para encontrar o padrão de stringDetached Garageemdf['GARAGEDESCRIPTION']e use curingas%para que faça correspondência em qualquer lugar do campo. - Crie uma nova coluna
has_attached_garageusandowhen()para atribuir o valor 1 se houver uma garagem anexada, 0 se for destacada e useotherwise()para atribuir nulo comNonese não for nenhum dos dois.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import needed functions
____ ____ ____ ____
# Create boolean conditions for string matches
has_attached_garage = df[____].____(____)
has_detached_garage = df[____].____(____)
# Conditional value assignment
df = df.withColumn(____, (____(____, 1)
.____(____, 0)
.____(____)))
# Inspect results
df[['GARAGEDESCRIPTION', 'has_attached_garage']].show(truncate=100)