Préparation des données

Contrairement aux chapitres précédents, où nous avions préparé les données pour vous pour l’unsupervised learning, l’objectif de ce chapitre est de vous guider pas à pas dans un flux de travail plus réaliste et complet.

Rappelez-vous de la vidéo : la première étape consiste à télécharger et préparer les données.

Cet exercice fait partie du cours

Apprentissage non supervisé en R

Afficher le cours

Instructions

Utilisez la fonction read.csv() pour télécharger le fichier CSV (valeurs séparées par des virgules) contenant les données depuis l’URL fournie. Affectez le résultat à wisc.df.
Utilisez as.matrix() pour convertir les variables explicatives (colonnes 3 à 32) en matrice. Enregistrez cela dans une variable appelée wisc.data.
Affectez aux noms de lignes de wisc.data les valeurs actuellement contenues dans la colonne id de wisc.df. Sans être strictement nécessaire, cela vous aidera à suivre les différentes observations tout au long du processus de modélisation.
Enfin, créez un vecteur appelé diagnosis valant 1 si le diagnostic est malin ("M") et 0 sinon. Notez que R convertit TRUE en 1 et FALSE en 0.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"

# Download the data: wisc.df


# Convert the features of the data: wisc.data


# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___

# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)

Modifier et exécuter le code