CommencerCommencer gratuitement

Test vs. Train

Après avoir nettoyé vos données et les avoir préparées pour la modélisation, l'une des étapes les plus importantes consiste à diviser les données en un ensemble de test et un ensemble d'entraînement. Ensuite, ne touchez pas à vos données de test tant que vous ne pensez pas avoir un bon modèle ! Lorsque vous construisez des modèles et formulez des hypothèses, vous pouvez les tester sur vos données d'apprentissage pour vous faire une idée de leurs performances.

Une fois que vous avez votre modèle préféré, vous pouvez voir s'il prédit bien les nouvelles données de votre ensemble de test. Ces données inédites vous donneront une idée beaucoup plus réaliste des performances de votre modèle dans le monde réel lorsque vous essayez de prédire ou de classer de nouvelles données.

Dans Spark, il est important de s'assurer que vous scindez les données après toutes les transformations. En effet, les opérations telles que StringIndexer ne produisent pas toujours le même index, même si la liste de chaînes de caractères est identique.

Pourquoi est-il important d'utiliser un ensemble de tests dans l'évaluation d'un modèle ?

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice