Modéliser sans normaliser

Voyons ce qui peut arriver à la précision de votre modèle si vous tentez de modéliser des données sans d'abord effectuer une forme de standardisation.

Voici un sous-ensemble du jeu de données wine. L'une des colonnes, Proline, présente une variance extrêmement élevée comparativement aux autres colonnes. C'est un bon exemple où une technique comme la normalisation logarithmique serait utile, ce que vous verrez à la prochaine section.

Le processus d'entraînement de modèles avec scikit-learn devrait vous être familier à ce stade, donc nous n'entrerons pas trop dans les détails. Vous avez déjà un modèle des plus proches voisins (knn) ainsi que les ensembles X et y nécessaires pour l'entraîner et l'évaluer.

Scindez les ensembles X et y en ensembles d'entraînement et de test, en veillant à ce que les étiquettes de classe soient distribuées également dans les deux ensembles.
Entraînez le modèle knn sur les variables explicatives et les étiquettes d'entraînement.
Affichez la précision sur l'ensemble de test du modèle knn à l'aide de la méthode .score().

Exercice

Modéliser sans normaliser

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercice

Instructions

Exercice