Séparation formation/essai

Pour évaluer objectivement un modèle d'apprentissage automatique, vous devez pouvoir le tester sur un ensemble indépendant de données. Vous ne pouvez pas utiliser les mêmes données que celles que vous avez utilisées pour entraîner le modèle : il est évident que le modèle fonctionnera (relativement) bien sur ces données !

Vous diviserez les données en deux composantes :

les données de formation (utilisées pour former le modèle) et
les données d'essai (utilisées pour tester le modèle).

Remarque : À partir de maintenant, vous travaillerez avec un sous-ensemble plus petit des données des vols, ce qui accélérera l'exécution des exercices.

Cet exercice fait partie du cours

<cours>Apprentissage automatique avec PySpark</cours>

Voir le cours

Instructions de l’exercice

Divisez aléatoirement les données flights en deux ensembles dans une proportion de 80:20. Pour assurer la répétabilité, définissez une graine de 43 nombres aléatoires pour le fractionnement.
Vérifiez que les données d'apprentissage contiennent environ 80 % des enregistrements des données d'origine.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)

Modifier et exécuter le code