De gegevens voorbereiden
In tegenstelling tot eerdere hoofdstukken, waar we de gegevens voor je voorbereidden voor unsupervised learning, is het doel van dit hoofdstuk om je stap voor stap door een realistischer en completer workflow te leiden.
Herinner je uit de video dat de eerste stap is om de gegevens te downloaden en voor te bereiden.
Deze oefening maakt deel uit van de cursus
Unsupervised learning in R
Oefeninstructies
- Gebruik de functie
read.csv()om het CSV-bestand (comma-separated values) met de gegevens te downloaden van de opgegeven URL. Ken het resultaat toe aanwisc.df. - Gebruik
as.matrix()om de features van de gegevens (in kolommen 3 tot en met 32) om te zetten naar een matrix. Sla dit op in een variabelewisc.data. - Stel de rijnamen van
wisc.datain op de waarden die nu in de kolomidvanwisc.dfstaan. Dit is niet strikt vereist, maar helpt je om tijdens het modelleren de verschillende observaties bij te houden. - Stel ten slotte een vector
diagnosisin op1als een diagnose kwaadaardig is ("M") en0anders. Let op: R zetTRUEom naar 1 enFALSEnaar 0.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"
# Download the data: wisc.df
# Convert the features of the data: wisc.data
# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___
# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)