Componentes de tempo
Saber trabalhar com componentes de tempo para construir features é importante, e você também pode usá-los para explorar e entender melhor seus dados. Neste exercício, você vai verificar se existe um padrão no dia da semana em que uma casa é listada. Lembre-se de que, no PySpark, a semana começa no domingo, com valor 1, e termina no sábado, com valor 7.
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Importe as funções
to_date()edayofweek()depyspark.sql.functions - Use a função
to_date()para converterLISTDATEpara o tipo de data do Spark e salve a coluna convertida no lugar usandowithColumn() - Crie uma nova coluna usando
LISTDATEedayofweek()e salve-a comoList_Day_of_WeekusandowithColumn() - Faça uma amostra de metade do dataframe, converta-a para um dataframe do pandas com
toPandas()e plote a contagem da colunaList_Day_of_Weekdo dataframe do pandas usando ocountplot()do seaborn, onde x =List_Day_of_Week.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import needed functions
from ____ import ____, ____
# Convert to date type
df = df.____(____, ____(____))
# Get the day of the week
df = df.____(____, ____(____))
# Sample and convert to pandas dataframe
sample_df = df.sample(False, ____, 42).____()
# Plot count plot of of day of week
sns.____(x="List_Day_of_Week", data=____)
plt.show()