O que estamos prevendo?

Qual destes campos (ou colunas) é o valor que estamos tentando prever?

Este exercicio faz parte do curso

Feature Engineering com PySpark

A partir das colunas listadas acima, identifique qual usaremos como nossa variável dependente $Y$ .
Usando o conjunto de dados carregado df, filtre-o para manter apenas a variável dependente com select(). Guarde esse dataframe na variável Y_df.
Exiba estatísticas resumidas da variável dependente usando describe() em Y_df e chamando show() para exibir.

Tente este exercicio completando este código de exemplo.

# Select our dependent variable
Y_df = df.____([____])

# Display summary statistics
Y_df.____().____()