ComeçarComece de graça

Preparando os dados

Diferente dos capítulos anteriores, em que preparamos os dados para você para Machine Learning não supervisionado, o objetivo deste capítulo é conduzir você por um fluxo de trabalho mais realista e completo.

Relembre do vídeo que o primeiro passo é baixar e preparar os dados.

Este exercício faz parte do curso

Aprendizado não supervisionado em R

Ver curso

Instruções do exercício

  • Use a função read.csv() para baixar o arquivo CSV (valores separados por vírgula) contendo os dados a partir da URL fornecida. Atribua o resultado a wisc.df.
  • Use as.matrix() para converter as variáveis preditoras dos dados (nas colunas 3 a 32) em uma matriz. Armazene isso em uma variável chamada wisc.data.
  • Atribua aos nomes das linhas de wisc.data os valores atualmente contidos na coluna id de wisc.df. Embora não seja estritamente necessário, isso vai ajudar você a acompanhar as diferentes observações ao longo do processo de modelagem.
  • Por fim, defina um vetor chamado diagnosis para ser 1 se o diagnóstico for maligno ("M") e 0 caso contrário. Observe que o R converte TRUE em 1 e FALSE em 0.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

url <- "https://assets.datacamp.com/production/course_1903/datasets/WisconsinCancer.csv"

# Download the data: wisc.df


# Convert the features of the data: wisc.data


# Set the row names of wisc.data
row.names(wisc.data) <- wisc.df$___

# Create diagnosis vector
diagnosis <- as.numeric(wisc.df$diagnosis == ___)
Editar e executar o código