Distribuição dos valores da variável de desfecho
Estratificar pela variável de desfecho ao gerar os conjuntos de treino e teste garante que os valores dessa variável tenham uma faixa semelhante em ambos os conjuntos.
Como os dados originais são divididos aleatoriamente, a estratificação evita, por exemplo, colocar todas as casas caras de home_sales no conjunto de teste. Nesse caso, seu modelo provavelmente teria um desempenho ruim porque foi treinado apenas com casas menos caras.
Neste exercício, você vai calcular estatísticas descritivas para a variável selling_price nos conjuntos de treino e teste. As tibbles home_training e home_test foram carregadas do exercício anterior.
Este exercício faz parte do curso
Modelagem com tidymodels em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Distribution of selling_price in training data
___ %>%
summarize(min_sell_price = ___,
max_sell_price = ___,
mean_sell_price = ___,
sd_sell_price = ___)