CommencerCommencer gratuitement

Préparation des données

Contrairement aux chapitres précédents, où nous avions préparé les données pour vous pour l’unsupervised learning, l’objectif de ce chapitre est de vous guider pas à pas dans un flux de travail plus réaliste et complet.

Rappelez-vous de la vidéo : la première étape consiste à télécharger et préparer les données.

Cet exercice fait partie du cours

Apprentissage non supervisé en R

Afficher le cours

Instructions

  • Utilisez la fonction read.csv() pour télécharger le fichier CSV (valeurs séparées par des virgules) contenant les données depuis l’URL fournie. Affectez le résultat à wisc.df.
  • Utilisez as.matrix() pour convertir les variables explicatives (colonnes 3 à 32) en matrice. Enregistrez cela dans une variable appelée wisc.data.
  • Affectez aux noms de lignes de wisc.data les valeurs actuellement contenues dans la colonne id de wisc.df. Sans être strictement nécessaire, cela vous aidera à suivre les différentes observations tout au long du processus de modélisation.
  • Enfin, créez un vecteur appelé diagnosis valant 1 si le diagnostic est malin ("M") et 0 sinon. Notez que R convertit TRUE en 1 et FALSE en 0.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"

# Download the data: wisc.df


# Convert the features of the data: wisc.data


# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___

# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)
Modifier et exécuter le code