CommencerCommencer gratuitement

Division entre entraînement et test

Pour évaluer objectivement un modèle d'apprentissage automatique, il est nécessaire de pouvoir le tester sur un ensemble de données indépendant. Vous ne pouvez pas utiliser les mêmes données que celles utilisées pour entraîner le modèle : il est évident que le modèle fonctionnera (relativement) bien avec ces données.

Vous allez diviser les données en deux parties :

  • données d'entraînement (utilisées pour entraîner le modèle) et
  • données de test (utilisées pour tester le modèle).

Remarque : À partir de maintenant, vous travaillerez avec un sous-ensemble plus restreint des données relatives aux vols, ce qui permettra d'accélérer les exercices.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Divisez aléatoirement les données d'flights en deux ensembles dans des proportions de 80:20. Pour garantir la répétabilité, définissez une valeur aléatoire de 43 pour la division.
  • Veuillez vérifier que les données d'entraînement contiennent environ 80 % des enregistrements des données d'origine.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)
Modifier et exécuter le code