ComenzarEmpieza gratis

Preparar los datos

A diferencia de los capítulos anteriores, donde preparamos los datos por ti para aplicar aprendizaje no supervisado, el objetivo de este capítulo es guiarte paso a paso por un flujo de trabajo más realista y completo.

Recuerda del vídeo que el primer paso es descargar y preparar los datos.

Este ejercicio forma parte del curso

Unsupervised Learning in R

Ver curso

Instrucciones del ejercicio

  • Usa la función read.csv() para descargar el archivo CSV (valores separados por comas) con los datos desde la URL proporcionada. Asigna el resultado a wisc.df.
  • Usa as.matrix() para convertir las características de los datos (en las columnas 3 a 32) en una matriz. Guarda esto en una variable llamada wisc.data.
  • Asigna a los nombres de fila de wisc.data los valores que actualmente están en la columna id de wisc.df. Aunque no es estrictamente necesario, esto te ayudará a seguir las distintas observaciones durante el proceso de modelado.
  • Por último, crea un vector llamado diagnosis que sea 1 si el diagnóstico es maligno ("M") y 0 en caso contrario. Ten en cuenta que R convierte TRUE en 1 y FALSE en 0.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"

# Download the data: wisc.df


# Convert the features of the data: wisc.data


# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___

# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)
Editar y ejecutar código