O que estamos prevendo?
Qual destes campos (ou colunas) é o valor que estamos tentando prever?
TAXESSALESCLOSEPRICEDAYSONMARKETLISTPRICE
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- A partir das colunas listadas acima, identifique qual usaremos como nossa variável dependente
$Y$. - Usando o conjunto de dados carregado
df, filtre-o para manter apenas a variável dependente comselect(). Guarde esse dataframe na variávelY_df. - Exiba estatísticas resumidas da variável dependente usando
describe()emY_dfe chamandoshow()para exibir.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Select our dependent variable
Y_df = df.____([____])
# Display summary statistics
Y_df.____().____()