Adattare il modello ai dati di training

È il momento di dividere i dati in un insieme di training per adattare un modello e un insieme test separato per valutarne la capacità predittiva. Prima di fare questa divisione però, campioniamo innanzitutto il 100% delle righe di house_prices senza reinserimento e assegniamo il risultato a house_prices_shuffled. In questo modo "mescoliamo" le righe, assicurandoci che gli insiemi di training e test siano campionati in modo casuale.

Questo esercizio fa parte del corso

Modellazione con i dati nel Tidyverse

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Set random number generator seed value for reproducibility
set.seed(76)

# Randomly reorder the rows
house_prices_shuffled <- house_prices %>% 
  sample_frac(size = 1, replace = FALSE)

# Train/test split
train <- house_prices_shuffled %>%
  slice(___:___)
test <- house_prices_shuffled %>%
  slice(___:___)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Modellazione con i dati nel Tidyverse

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

In questo capitolo ti presenteremo alcune nozioni teoriche e di terminologia per la modellazione: in particolare, il quadro generale della modellazione, la differenza tra modellazione a scopo esplicativo e a scopo predittivo, e il problema della modellazione. Inoltre, inizierai a svolgere la tua prima analisi esplorativa dei dati, un passaggio cruciale prima di qualsiasi modellazione formale.

Exercise 1: Contesto sul modeling per la spiegazione Exercise 2: Visualizzazione esplorativa dell'età Exercise 3: Riepiloghi numerici di age Exercise 4: Nozioni di base sulla modellazione per la predizione Exercise 5: Visualizzazione esplorativa della dimensione delle case Exercise 6: Trasformazione log10 della dimensione della casa Exercise 7: Il problema di modellazione per la spiegazione Exercise 8: EDA della relazione tra valutazioni didattiche e punteggi di "bellezza"Exercise 9: Correlazione tra punteggi di insegnamento e di "bellezza"Exercise 10: Il problema di modellazione per la previsione Exercise 11: EDA sulla relazione tra prezzo delle case e fronte mare Exercise 12: Prevedere il prezzo delle case con vista sull'acqua

Forte della comprensione del quadro generale della modellazione, in questo capitolo tratteremo la regressione lineare di base, in cui terreai le cose semplici e modellerai la variabile di outcome y come funzione di una singola variabile esplicativa/predittiva x. Useremo sia variabili x numeriche sia categoriali. La variabile di outcome di interesse in questo capitolo saranno i punteggi di valutazione dell'insegnamento dei docenti dell'Università del Texas, Austin.

Exercise 1: Spiegare il punteggio di valutazione con l'età Exercise 2: Tracciare una retta di regressione "miglior adattamento"Exercise 3: Adattare una regressione con una x numerica Exercise 4: Prevedere il punteggio di insegnamento usando l'età Exercise 5: Fare previsioni usando il "beauty score"Exercise 6: Calcolo dei valori adattati/predetti e dei residui Exercise 7: Spiegare il punteggio di valutazione didattica con il genere Exercise 8: EDA della relazione tra punteggio e ruolo Exercise 9: Adattare una regressione con una x categorica Exercise 10: Prevedere il punteggio di insegnamento usando il genere Exercise 11: Fare previsioni usando rank Exercise 12: Visualizzare la distribuzione dei residui

Nel capitolo precedente hai visto la regressione di base usando un singolo predittore numerico o categoriale. Ma perché limitarsi a una sola variabile per guidare spiegazioni/previsioni? Ora estenderai la regressione di base alla regressione multipla, che consente di includere più di una variabile esplicativa o predittiva nei tuoi modelli. Modellerai i prezzi delle case usando un insieme di dati di abitazioni dell'area metropolitana di Seattle, WA.

Exercise 1: Spiegare il prezzo delle case con anno e dimensioni Exercise 2: EDA della relazione Exercise 3: Adattare una regressione Exercise 4: Prevedere il prezzo della casa usando anno e dimensione Exercise 5: Fare previsioni usando dimensione e camere da letto Exercise 6: Interpretare i residui Exercise 7: Spiegare il prezzo di una casa con dimensioni e stato Exercise 8: Modello a pendenze parallele Exercise 9: Interpretare il modello a pendenze parallele Exercise 10: Prevedere il prezzo di una casa usando dimensione e condizione Exercise 11: Fare previsioni usando dimensione e waterfront Exercise 12: Automatizzare le previsioni per case "nuove"

Nei capitoli precedenti hai adattato vari modelli per spiegare o prevedere una variabile di outcome di interesse. Tuttavia, come facciamo a sapere quali modelli scegliere? Le misure di valutazione del modello ti permettono di verificare quanto bene un modello esplicativo "si adatta" a un insieme di dati o quanto è accurato un modello predittivo. In base a queste misure, conoscerai i criteri per determinare quali modelli sono i "migliori".

Exercise 1: Selezione e valutazione dei modelli Exercise 2: Ripasso: somma dei residui al quadrato Exercise 3: Quale modello selezionare?Exercise 4: Valutare l’aderenza del modello con R-quadrato Exercise 5: Calcolare l'R-quadro di un modello Exercise 6: Confrontare l'R-quadro di due modelli Exercise 7: Valutare le previsioni con l’RMSE Exercise 8: Calcolare MSE e RMSE di un modello Exercise 9: Confrontare l’RMSE di due modelli Exercise 10: Struttura di previsione con set di validazione Exercise 11: Adattare il modello ai dati di training

Esercizio attuale

Exercise 12: Previsioni sui dati di test Exercise 13: Conclusione - E adesso dove andare?