Préparation des données
Contrairement aux chapitres précédents, où nous avions préparé les données pour vous pour l’unsupervised learning, l’objectif de ce chapitre est de vous guider pas à pas dans un flux de travail plus réaliste et complet.
Rappelez-vous de la vidéo : la première étape consiste à télécharger et préparer les données.
Cet exercice fait partie du cours
Apprentissage non supervisé en R
Instructions
- Utilisez la fonction
read.csv()pour télécharger le fichier CSV (valeurs séparées par des virgules) contenant les données depuis l’URL fournie. Affectez le résultat àwisc.df. - Utilisez
as.matrix()pour convertir les variables explicatives (colonnes 3 à 32) en matrice. Enregistrez cela dans une variable appeléewisc.data. - Affectez aux noms de lignes de
wisc.datales valeurs actuellement contenues dans la colonneiddewisc.df. Sans être strictement nécessaire, cela vous aidera à suivre les différentes observations tout au long du processus de modélisation. - Enfin, créez un vecteur appelé
diagnosisvalant1si le diagnostic est malin ("M") et0sinon. Notez que R convertitTRUEen 1 etFALSEen 0.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"
# Download the data: wisc.df
# Convert the features of the data: wisc.data
# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___
# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)