IniziaInizia gratis

Preparare i dati

A differenza dei capitoli precedenti, in cui abbiamo preparato noi i dati per l'unsupervised learning, l'obiettivo di questo capitolo è guidarti attraverso un flusso di lavoro più realistico e completo.

Ricorda dal video che il primo passo è scaricare e preparare i dati.

Questo esercizio fa parte del corso

Unsupervised Learning in R

Visualizza il corso

Istruzioni dell'esercizio

  • Usa la funzione read.csv() per scaricare il file CSV (valori separati da virgola) contenente i dati dall'URL fornito. Assegna il risultato a wisc.df.
  • Usa as.matrix() per convertire le feature dei dati (nelle colonne dalla 3 alla 32) in una matrice. Salvala in una variabile chiamata wisc.data.
  • Imposta i nomi di riga di wisc.data ai valori attualmente contenuti nella colonna id di wisc.df. Anche se non strettamente necessario, questo ti aiuterà a tenere traccia delle diverse osservazioni durante il processo di modellazione.
  • Infine, imposta un vettore chiamato diagnosis a 1 se una diagnosi è maligna ("M") e a 0 altrimenti. Nota che R converte TRUE in 1 e FALSE in 0.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"

# Download the data: wisc.df


# Convert the features of the data: wisc.data


# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___

# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)
Modifica ed esegui il codice