Ajustando o modelo aos dados de treino

É hora de dividir seus dados em um conjunto de treino para ajustar um modelo e um teste separado para avaliar o poder preditivo do modelo. Antes de fazer essa divisão, porém, primeiro amostramos 100% das linhas de house_prices sem reposição e atribuimos isso a house_prices_shuffled. Isso tem o efeito de "embaralhar" as linhas, garantindo que os conjuntos de treino e teste sejam amostrados de forma aleatória.

Este exercicio faz parte do curso

Modelagem com dados no Tidyverse

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Set random number generator seed value for reproducibility
set.seed(76)

# Randomly reorder the rows
house_prices_shuffled <- house_prices %>% 
  sample_frac(size = 1, replace = FALSE)

# Train/test split
train <- house_prices_shuffled %>%
  slice(___:___)
test <- house_prices_shuffled %>%
  slice(___:___)

Editar e Executar Código

Este exercicio faz parte do curso

Modelagem com dados no Tidyverse

IntermediárioNível de habilidade

4.9+

Comece o curso gratuitamente

Este capítulo vai apresentar a você algumas bases teóricas e termos de modelagem, em particular o arcabouço geral de modelagem, a diferença entre modelar para explicar e modelar para prever, e o problema de modelagem. Além disso, você vai começar sua primeira análise exploratória de dados, uma etapa crucial antes de qualquer modelagem formal.

Exercise 1: Fundamentos de modelagem para explicação Exercise 2: Visualização exploratória de age Exercise 3: Resumos numéricos de idade Exercise 4: Fundamentos de modelagem para predição Exercise 5: Visualização exploratória do tamanho das casas Exercise 6: Transformação log10 do tamanho da casa Exercise 7: O problema de modelagem para explicação Exercise 8: EDA da relação entre notas de avaliação e "beleza"Exercise 9: Correlação entre notas de ensino e pontuações de "beleza"Exercise 10: O problema de modelagem para previsão Exercise 11: EDA da relação entre preço de casa e beira-mar Exercise 12: Prevendo o preço de casas com vista para o mar

Com o entendimento do arcabouço geral de modelagem, neste capítulo vamos abordar a regressão linear básica, em que você mantém as coisas simples e modela a variável de desfecho y como função de uma única variável explicativa/predictora x. Usaremos tanto variáveis x numéricas quanto categóricas. A variável de desfecho de interesse neste capítulo será a nota de avaliação de ensino de instrutores da University of Texas, Austin.

Exercise 1: Explicando a nota de avaliação de ensino pela idade Exercise 2: Traçando uma linha de regressão de "melhor ajuste"Exercise 3: Ajustando uma regressão com um x numérico Exercise 4: Prevendo a nota de ensino usando a idade Exercise 5: Fazendo previsões usando o "beauty score"Exercise 6: Calculando valores ajustados/preditos e resíduos Exercise 7: Explicando a nota de ensino com gênero Exercise 8: EDA da relação entre score e rank Exercise 9: Ajustando uma regressão com x categórico Exercise 10: Prevendo a nota de ensino usando gênero Exercise 11: Fazendo previsões usando rank Exercise 12: Visualizando a distribuição dos resíduos

No capítulo anterior, você aprendeu sobre regressão básica usando um único preditor numérico ou categórico. Mas por que nos limitar a usar apenas uma variável para embasar suas explicações/previsões? Agora você vai estender a regressão básica para a regressão múltipla, que permite incorporar mais de uma variável explicativa ou preditora nos modelos. Você vai modelar preços de casas usando um conjunto de dados de residências na região metropolitana de Seattle, WA.

Exercise 1: Explicando o preço da casa com ano e tamanho Exercise 2: EDA da relação Exercise 3: Ajustando uma regressão Exercise 4: Prevendo o preço da casa usando ano e tamanho Exercise 5: Fazendo previsões usando tamanho e quartos Exercise 6: Interpretando resíduos Exercise 7: Explicando o preço da casa com tamanho e condição Exercise 8: Modelo de inclinações paralelas Exercise 9: Interpretando o modelo de declives paralelos Exercise 10: Prevendo o preço de casas usando tamanho e condição Exercise 11: Fazendo previsões usando tamanho e orla Exercise 12: Automatizando previsões em casas "novas"

Nos capítulos anteriores, você ajustou vários modelos para explicar ou prever uma variável de desfecho de interesse. Porém, como saber quais modelos escolher? Medidas de avaliação de modelos permitem verificar o quão bem um modelo explicativo "se ajusta" a um conjunto de dados ou quão preciso é um modelo preditivo. Com base nessas medidas, você vai aprender critérios para determinar quais modelos são os "melhores".

Exercise 1: Seleção e avaliação de modelos Exercise 2: Revisão: soma dos resíduos ao quadrado Exercise 3: Qual modelo selecionar?Exercise 4: Avaliando o ajuste do modelo com R-quadrado Exercise 5: Calculando o R-quadrado de um modelo Exercise 6: Comparando o R-quadrado de dois modelos Exercise 7: Avaliando previsões com RMSE Exercise 8: Calculando o MSE e o RMSE de um modelo Exercise 9: Comparando o RMSE de dois modelos Exercise 10: Estrutura de predição com conjunto de validação Exercise 11: Ajustando o modelo aos dados de treino

Exercicio Atual

Exercise 12: Prevendo nos dados de teste Exercise 13: Conclusão - Para onde ir a partir daqui?