Division entre entraînement et test
Pour évaluer objectivement un modèle d'apprentissage automatique, il est nécessaire de pouvoir le tester sur un ensemble de données indépendant. Vous ne pouvez pas utiliser les mêmes données que celles utilisées pour entraîner le modèle : il est évident que le modèle fonctionnera (relativement) bien avec ces données.
Vous allez diviser les données en deux parties :
- données d'entraînement (utilisées pour entraîner le modèle) et
- données de test (utilisées pour tester le modèle).
Remarque : À partir de maintenant, vous travaillerez avec un sous-ensemble plus restreint des données relatives aux vols, ce qui permettra d'accélérer les exercices.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Divisez aléatoirement les données d'
flights
en deux ensembles dans des proportions de 80:20. Pour garantir la répétabilité, définissez une valeur aléatoire de 43 pour la division. - Veuillez vérifier que les données d'entraînement contiennent environ 80 % des enregistrements des données d'origine.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)