Séparation formation/essai
Pour évaluer objectivement un modèle d'apprentissage automatique, vous devez pouvoir le tester sur un ensemble indépendant de données. Vous ne pouvez pas utiliser les mêmes données que celles que vous avez utilisées pour entraîner le modèle : il est évident que le modèle fonctionnera (relativement) bien sur ces données !
Vous diviserez les données en deux composantes :
- les données de formation (utilisées pour former le modèle) et
- les données d'essai (utilisées pour tester le modèle).
Remarque : À partir de maintenant, vous travaillerez avec un sous-ensemble plus petit des données des vols, ce qui accélérera l'exécution des exercices.
Cet exercice fait partie du cours
Apprentissage automatique avec PySpark
Instructions
- Divisez aléatoirement les données
flightsen deux ensembles dans une proportion de 80:20. Pour assurer la répétabilité, définissez une graine de 43 nombres aléatoires pour le fractionnement. - Vérifiez que les données d'apprentissage contiennent environ 80 % des enregistrements des données d'origine.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)