Preparar los datos
A diferencia de los capítulos anteriores, donde preparamos los datos por ti para aplicar aprendizaje no supervisado, el objetivo de este capítulo es guiarte paso a paso por un flujo de trabajo más realista y completo.
Recuerda del vídeo que el primer paso es descargar y preparar los datos.
Este ejercicio forma parte del curso
Unsupervised Learning in R
Instrucciones del ejercicio
- Usa la función
read.csv()para descargar el archivo CSV (valores separados por comas) con los datos desde la URL proporcionada. Asigna el resultado awisc.df. - Usa
as.matrix()para convertir las características de los datos (en las columnas 3 a 32) en una matriz. Guarda esto en una variable llamadawisc.data. - Asigna a los nombres de fila de
wisc.datalos valores que actualmente están en la columnaiddewisc.df. Aunque no es estrictamente necesario, esto te ayudará a seguir las distintas observaciones durante el proceso de modelado. - Por último, crea un vector llamado
diagnosisque sea1si el diagnóstico es maligno ("M") y0en caso contrario. Ten en cuenta que R convierteTRUEen 1 yFALSEen 0.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"
# Download the data: wisc.df
# Convert the features of the data: wisc.data
# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___
# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)