ComeçarComece de graça

Componentes de tempo

Saber trabalhar com componentes de tempo para construir features é importante, e você também pode usá-los para explorar e entender melhor seus dados. Neste exercício, você vai verificar se existe um padrão no dia da semana em que uma casa é listada. Lembre-se de que, no PySpark, a semana começa no domingo, com valor 1, e termina no sábado, com valor 7.

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Importe as funções to_date() e dayofweek() de pyspark.sql.functions
  • Use a função to_date() para converter LISTDATE para o tipo de data do Spark e salve a coluna convertida no lugar usando withColumn()
  • Crie uma nova coluna usando LISTDATE e dayofweek() e salve-a como List_Day_of_Week usando withColumn()
  • Faça uma amostra de metade do dataframe, converta-a para um dataframe do pandas com toPandas() e plote a contagem da coluna List_Day_of_Week do dataframe do pandas usando o countplot() do seaborn, onde x = List_Day_of_Week.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import needed functions
from ____ import ____, ____

# Convert to date type
df = df.____(____, ____(____))

# Get the day of the week
df = df.____(____, ____(____))

# Sample and convert to pandas dataframe
sample_df = df.sample(False, ____, 42).____()

# Plot count plot of of day of week
sns.____(x="List_Day_of_Week", data=____)
plt.show()
Editar e executar o código