Modéliser le jeu de données sur les OVNI, partie 1
Dans cet exercice, vous allez construire un modèle des plus proches voisins (k-nearest neighbors) pour prédire dans quel pays l’observation d’OVNI a eu lieu. Le jeu de données X contient la colonne des secondes normalisée en log, les colonnes de type encodées en one-hot, ainsi que le mois et l’année de l’observation. Les étiquettes y correspondent à la colonne pays encodée, où 1 représente "us" et 0 représente "ca".
Cet exercice fait partie du cours
Prétraitement pour le Machine Learning en Python
Instructions
- Affichez les
.columnsde l’ensembleX. - Séparez les ensembles
Xety, en veillant à conserver la même distribution des classes dans les ensembles d’entraînement et de test, et en utilisantrandom_stateà42. - Ajustez
knnsur les données d’entraînement. - Affichez la précision sur l’ensemble de test du modèle
knn.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Take a look at the features in the X set of data
print(____)
# Split the X and y sets
X_train, X_test, y_train, y_test = ____
# Fit knn to the training sets
knn.____
# Print the score of knn on the test sets
print(____)