Aan de slagGa gratis aan de slag

De gegevens voorbereiden

In tegenstelling tot eerdere hoofdstukken, waar we de gegevens voor je voorbereidden voor unsupervised learning, is het doel van dit hoofdstuk om je stap voor stap door een realistischer en completer workflow te leiden.

Herinner je uit de video dat de eerste stap is om de gegevens te downloaden en voor te bereiden.

Deze oefening maakt deel uit van de cursus

Unsupervised learning in R

Cursus bekijken

Oefeninstructies

  • Gebruik de functie read.csv() om het CSV-bestand (comma-separated values) met de gegevens te downloaden van de opgegeven URL. Ken het resultaat toe aan wisc.df.
  • Gebruik as.matrix() om de features van de gegevens (in kolommen 3 tot en met 32) om te zetten naar een matrix. Sla dit op in een variabele wisc.data.
  • Stel de rijnamen van wisc.data in op de waarden die nu in de kolom id van wisc.df staan. Dit is niet strikt vereist, maar helpt je om tijdens het modelleren de verschillende observaties bij te houden.
  • Stel ten slotte een vector diagnosis in op 1 als een diagnose kwaadaardig is ("M") en 0 anders. Let op: R zet TRUE om naar 1 en FALSE naar 0.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"

# Download the data: wisc.df


# Convert the features of the data: wisc.data


# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___

# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)
Code bewerken en uitvoeren