Ajuster un modèle aux données d’entraînement

Il est temps de diviser vos données en un ensemble d’entraînement pour ajuster un modèle et un ensemble de test distinct pour évaluer sa capacité prédictive. Avant de faire cette séparation, nous allons d’abord échantillonner 100 % des lignes de house_prices sans remise et l’affecter à house_prices_shuffled. Cela permet de « mélanger » les lignes et garantit ainsi que les ensembles d’entraînement et de test sont échantillonnés de façon aléatoire.

Cet exercice fait partie du cours

<cours>Modéliser des données avec le Tidyverse</cours>

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Set random number generator seed value for reproducibility
set.seed(76)

# Randomly reorder the rows
house_prices_shuffled <- house_prices %>% 
  sample_frac(size = 1, replace = FALSE)

# Train/test split
train <- house_prices_shuffled %>%
  slice(___:___)
test <- house_prices_shuffled %>%
  slice(___:___)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Modéliser des données avec le Tidyverse</cours>

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Dans ce chapitre, vous découvrirez des notions de base et la terminologie de la modélisation : le cadre général de modélisation, la différence entre modéliser pour expliquer et modéliser pour prédire, ainsi que la problématique de modélisation. Vous commencerez aussi votre première analyse exploratoire des données, une étape essentielle avant toute modélisation formelle.

Exercise 1: Bases du modélisation pour l’explication Exercise 2: Visualisation exploratoire de l’âge Exercise 3: Synthèses numériques de l’âge Exercise 4: Bases théoriques de la modélisation pour la prédiction Exercise 5: Visualisation exploratoire de la taille des maisons Exercise 6: Transformation log10 de la surface de la maison Exercise 7: Le problème de modélisation pour l’explication Exercise 8: EDA de la relation entre les notes d’évaluation de l’enseignement et les scores de « beauté »Exercise 9: Corrélation entre les notes d’enseignement et les scores de « beauté »Exercise 10: Le problème de modélisation pour la prédiction Exercise 11: AED sur la relation entre le prix des maisons et la proximité de l’eau Exercise 12: Prédire le prix d’une maison avec la variable waterfront

Fort de votre compréhension du cadre général de modélisation, nous aborderons dans ce chapitre la régression linéaire simple, où vous modéliserez la variable de sortie y en fonction d’une seule variable explicative/prédictive x. Nous utiliserons des variables x numériques et catégorielles. La variable d’intérêt de ce chapitre sera la note d’évaluation pédagogique d’enseignants de l’Université du Texas, à Austin.

Exercise 1: Expliquer la note d’enseignement par l’âge Exercise 2: Tracer une droite de régression « au mieux »Exercise 3: Ajuster une régression avec un x numérique Exercise 4: Prédire la note d’enseignement à partir de l’âge Exercise 5: Faire des prédictions à partir du « beauty score »Exercise 6: Calcul des valeurs ajustées/prédites et des résidus Exercise 7: Expliquer la note d’enseignement par le genre Exercise 8: EDA de la relation entre score et grade Exercise 9: Ajuster une régression avec une variable x catégorielle Exercise 10: Prédire la note d’enseignement à partir du genre Exercise 11: Faire des prédictions à partir de rank Exercise 12: Visualiser la distribution des résidus

Au chapitre précédent, vous avez étudié la régression simple avec un seul prédicteur, numérique ou catégoriel. Mais pourquoi se limiter à une seule variable pour éclairer vos explications ou prédictions ? Vous allez maintenant étendre la régression simple à la régression multiple, qui permet d’intégrer plusieurs variables explicatives ou prédictives dans vos modèles. Vous modéliserez les prix des maisons à partir d’un jeu de données portant sur des logements de l’aire métropolitaine de Seattle (WA).

Exercise 1: Expliquer le prix d’une maison avec l’année et la surface Exercise 2: EDA de la relation Exercise 3: Ajuster une régression Exercise 4: Prédire le prix d’une maison à partir de l’année et de la superficie Exercise 5: Faire des prédictions à partir de la superficie et du nombre de chambres Exercise 6: Interpréter les résidus Exercise 7: Expliquer le prix d’une maison avec la surface et l’état Exercise 8: Modèle à pentes parallèles Exercise 9: Interpréter le modèle à pentes parallèles Exercise 10: Prédire le prix d’une maison à partir de sa taille et de son état Exercise 11: Prédire avec la taille et la vue sur le front de mer Exercise 12: Automatiser les prédictions pour des maisons « nouvelles »

Dans les chapitres précédents, vous avez ajusté différents modèles pour expliquer ou prédire une variable d’intérêt. Mais comment savoir quels modèles choisir ? Les mesures d’évaluation de modèles permettent d’estimer la qualité de l’« ajustement » d’un modèle explicatif à des données, ou la précision d’un modèle prédictif. À partir de ces mesures, vous apprendrez des critères pour déterminer quels modèles sont « les meilleurs ».

Exercise 1: Évaluation et sélection de modèles Exercise 2: Rappel : somme des résidus au carré Exercise 3: Quel modèle sélectionner ?Exercise 4: Évaluer l’ajustement du modèle avec R‑carré Exercise 5: Calculer le R-carré d’un modèle Exercise 6: Comparer les R-carré de deux modèles Exercise 7: Évaluer les prédictions avec la RMSE Exercise 8: Calculer la MSE et la RMSE d’un modèle Exercise 9: Comparer la RMSE de deux modèles Exercise 10: Cadre de prédiction avec ensemble de validation Exercise 11: Ajuster un modèle aux données d’entraînement

Exercice actuel

Exercise 12: Prédire sur les données de test Exercise 13: Conclusion - Où aller à partir d’ici ?