Modéliser sans normaliser

Voyons ce qui peut arriver à la précision de votre modèle si vous essayez de modéliser des données sans procéder d'abord à une forme de standardisation.

Voici un sous-ensemble du jeu de données wine. L'une des colonnes, Proline, présente une variance très élevée par rapport aux autres. C'est un cas où une technique comme la normalisation logarithmique serait utile, que vous découvrirez dans la section suivante.

Le processus d'entraînement de modèles avec scikit-learn devrait désormais vous être familier, donc nous n'entrerons pas dans les détails. Vous disposez déjà d'un modèle des k plus proches voisins (knn), ainsi que des ensembles X et y nécessaires pour l'entraîner et l'évaluer.

Cet exercice fait partie du cours

<cours>Prétraitement pour le Machine Learning en Python</cours>

Voir le cours

Instructions de l’exercice

Séparez les ensembles X et y en ensembles d'entraînement et de test, en veillant à répartir équitablement les classes dans les deux.
Entraînez le modèle knn sur les features et labels d'entraînement.
Affichez la précision sur l'ensemble de test du modèle knn à l'aide de la méthode .score().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Split the dataset into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, stratify=____, random_state=42)

knn = KNeighborsClassifier()

# Fit the knn model to the training data
knn.____(____, ____)

# Score the model on the test data
print(knn.____(____))

Modifier et exécuter le code