Preparare i dati
A differenza dei capitoli precedenti, in cui abbiamo preparato noi i dati per l'unsupervised learning, l'obiettivo di questo capitolo è guidarti attraverso un flusso di lavoro più realistico e completo.
Ricorda dal video che il primo passo è scaricare e preparare i dati.
Questo esercizio fa parte del corso
Unsupervised Learning in R
Istruzioni dell'esercizio
- Usa la funzione
read.csv()per scaricare il file CSV (valori separati da virgola) contenente i dati dall'URL fornito. Assegna il risultato awisc.df. - Usa
as.matrix()per convertire le feature dei dati (nelle colonne dalla 3 alla 32) in una matrice. Salvala in una variabile chiamatawisc.data. - Imposta i nomi di riga di
wisc.dataai valori attualmente contenuti nella colonnaiddiwisc.df. Anche se non strettamente necessario, questo ti aiuterà a tenere traccia delle diverse osservazioni durante il processo di modellazione. - Infine, imposta un vettore chiamato
diagnosisa1se una diagnosi è maligna ("M") e a0altrimenti. Nota che R converteTRUEin 1 eFALSEin 0.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"
# Download the data: wisc.df
# Convert the features of the data: wisc.data
# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___
# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)